© Yeni Arayış

DeepSeek, …, Yapay zekâ asistanları ve tenis izleyicileri

Yapay zekâ artık yalnızca yanıt veren bir teknoloji olmaktan çıkıp, kendi başına aksiyon alabilen bir seviyeye geçecek. Eskideki mobil uygulama geliştirme tsunamisi, yapay zekâ asistanları ile tekrar dalgalanacak! Daha sonra da bu asistanların bir CV’si olacak, kendi Linkedin’lerinde (Referans Tony Fadell) sıralanacak; hangi veriyi kullanarak kendini geliştirmiş, kaç hata yapmış, kaç halüsinasyon görmüş hepsi listelenerek seçilecek…

DeepSeek bir anlamda Çin’in yapay zekâ alanındaki potansiyelini gözler önüne serdi. ABD’nin uyguladığı ihracat kısıtlamalarına rağmen, DeepSeek’in elde ettiği bu başarı, Çin’in teknolojik inovasyon konusundaki ilerlemesini açıkça ortaya koyuyor. Bir anlamda senin GPU’na ihtiyacım yok dedi Çin tam da Trump yönetimi iş başına gelince. Bir anlamda iyimser ve şımarık hava ilk soğuk savaştaki gibi yerini ürkmeye bıraktı.

Geçen pazar günü yapay zekâ stratejileriyle ilgili yazımda, Çin’in açık kaynak stratejisi kapsamında DeepSeek’in ortaya çıkışına o sırada çıkan haberleri de gözlemleyerek değinmiştim. 

Bu gelişme, neredeyse her piyasada büyük bir etki yarattı. Piyasalardan 1 trilyon dolar buharlaştı. Biz ve bizim gibi ülkeler, adeta tenis izler gibi, Çin ve ABD arasındaki yapay zekâ rekabetini takip ettik. Bu arada, ülkemiz de 1-2 Şubat tarihlerinde İstanbul’da düzenlenen Davis Cup Dünya Grubu I Play-Off karşılaşmalarında Meksika’ya karşı mücadele etti. Türkiye, bu müsabakaları 5-0’lık üstünlükle tamamlayarak Dünya Grubu I’e yükseldi. 

DeepSeek neden bu kadar sarsıcı olduve neden ikinci Sputnik etkisi yarattı?

DeepSeek, Çin merkezli bir yapay zekâ girişimi olarak özellikle DeepSeek-R1 modeli ile OpenAI’ın ChatGPT gibi güçlü rakiplerine kıyasla daha düşük maliyetli bir alternatif sunmayı başardığını iddia etti. Ötesi bunu açık kaynak olarak herkese sundu.

Bu neden önemli? Bu zamana kadar büyük dil modellerinde üretken yapay zekaya giriş yani pazara girişte büyük bir bariyer belirmişti. Bu bariyer GPU veri merkezi ve algoritma bariyeriydi. Bir anlamda büyük dil modellerinde birkaç oyuncunun olacağı ve geri kalanların bu oyuncuların servislerini kullanarak değer yaratan yapay zekâ asistanları (AI Agent) üzerine kurulmuştu. Bu iş planının başında olanlarda Open AI, xAI gibi alt yapı şirketleri ve bunlara GPU donanımı sağlayan NVIDIA’ydı. 

DeepSeek ise bu giriş bariyerini ortadan kaldıracak bir hamle yaptı. Birincisi daha az GPU ile yapılabileceğini gösterdiğini iddia etti ikincisi ise büyük dil modelini açık kaynak olarak herkesin kullanımına sunacağını söyledi. 

Bu ister istemez finansal piyasaları da sarstı, Microsoft CEO ve NVIDIA’dan anından açıklamalar geldi. Open AI yeni modellerini piyasaya sunmaya başladı bunlardan biri de geçen günlerde sunduğu DeepResearch. Bir anlamda teknoloji sağlı sollu bir raket sporuna döndü bizim gibi ülkeler içinde izleyici konumda. 

DeepSeek neden yaptı da Open AI yapamadı ya da xAI (Grok) yapamadı? 

Aslında bunlar farklı bakış açıları ile tasarlanan şirketler. Bunu 70-80’lerdeki Amerikan otomotiv endüstrisi ile Japonya’nınkine benzetebiliriz. Amerikan otomotiv endüstrisi petrol bolluğunda, büyük otoyollara sahipken daha çok beygir gücüne odaklandı. Daha kaslı araçlar hedef oldu. Buna karşın Japonya’da petrol ve otoyol yokluğunda daha kompakt ve yakıt verimli araçlar daha odak noktasıydı. Japonya’nın teknolojileri bütün dünyada araç endüstrisinin gelişmesine genişletti ve Amerikan iç pazarını da petrol fiyatlarının artması ile derinden sarstı. Sonuç olarak Detroit çöktü.

Aynı şekilde Open AI ve diğerleri için de petrol gibi yatırım sorunu yok çünkü yatırımcıları kolayca milyarlarca doları şirkete koyabiliyorlar. GPU kısıtı sorunu yok çünkü yarım saat uzaktaki NVIDIA’dan istedikleri kadar alabiliyorlar. Amaçları, yatırımcılarının da baskısı,yapay zekânın çıktılarını kar getiren servis ve hizmetlere hızlıca dökebilmek, bunun için odakları bugüne kadar DeepSeek’den çok farklıydı.

DeepSeek’in buna karşın tek yatırımcısı var, GPU kısıtı var, yatırımı kısıtlı ve amacı, yatırımcısının da, yapay zekâya girişi ucuzlatmak ve tabana açık kaynak ile yaymak. Bunun için büyük dil modellerinin alt yapısını zekice matematiksel ve mühendislik bakış açısı ile optimize etmişler. Birden fazla yenilik ile bir anlamda giriş maliyetinin 100 milyonlarca dolardan 5-6 milyon dolara düşürmüşler. 

Bunlara kısaca değinirsek, ilk olarak büyük dil modelleri bir sonraki kelimeyi (daha doğrusu jeton (token) bu konudaki yazım) tahmin ederek ilerliyor. Bunun için aslında yazdığınız bütün cümleyi alıyor ve bir sonraki kelimeyi tahmin ediyor. Kelimeleri kendi içinde bir uzay düzleminde sayılara çeviriyor. Bu Google’ın 2013 yılındaki Word2Vect makalesinden. Bir anlamda GPS örneğin İstanbul ilini (41° 0' 54.4932'' N and 28° 58' 46.3080'' E) iki sayılı bir vektör ile tanımlıyor. Aynı şekilde Ankara ve Konya’yı da. Bu sayıları aralarındaki farklara bakarsak Ankara-Konya, İstanbul-Ankara, ikincisinin daha büyük olduğunu biliyoruz çünkü aralarındaki mesafelerde İstanbul – Ankara daha uzak. Aynı şekilde kelimelerin sayılarla tanımlanmasında da bazı kelimelerin sayıları bazılarına yakın(armut, karpuz) bazılarına uzak (karpuz, çip). Örneğin ChatGPT bir kelimeyi 12,228 sayılı bir vektör ile tanımlıyor. 

Peki kelimeler nasıl birbirinden farklı ama ilintili sayılarla ifade ediliyor? 

İşte burada internetteki bilgilerin yüklenmesi ile kelimeleri bu çoklu uzayda bir yere oturtuyorlar. Bu bilgiler bir anlamda kelimeler ararsındaki ilinti bağını veriyor. Tabii burada aynı kelimenin farklı anlamlı olanı (boğazım ağrıdı, boğazda yürüdüm) veya aynı kelimenin benzer anlamlı olanı (mutfağa gittim, mutfak sanatları) var. Bu noktada dikkat (attention) metodu devreye giriyor; girilen cümle içinde hangisine dikkat edilsin ki kelimelerin doğru anlamlarının kullanıldığı sayı vektörü işleme konulsun. Bu da Google’ın 2017 Attention is AllYou Need makalesinden. Bu makale çok tarihi, çünkü büyük dil modellerini yapılabilir kıldı.Geliştirilen “transformer” mimarisi ile daha çok seri işlemden daha çok paralel işleme geçilerek dil modelleri hızlandı böylece CPU yerine GPU öne çıktı.  Daha öncesi yinelemeli sinir ağları (RNN) ile daha çok seri işlem yapılıyordu. Gerçi bu da zamanında dil çeviricisiolarak 2010’lardan itibaren çok işe yaradı.

Bir parantez açabiliriz. CPU bir anlamda evdeki mutfakta yemek yapan biri var, gelen istekleri yapmak için sırayla buzdolabından (sabit disk) alıyor tezgâhta (bellek) hazırlıyor ve pişiriyor. Bütün istekleri sırayla yapıyor. Çok istek gelirse işlemci yavaşlıyor, çok veri gelirse buzdolabı saklayamıyor, çok karmaşık iş olursa tezgâhta yer kalmıyor. Bilgisayarın çalışma prensibi. 

GPU ise otel mutfağı gibi birden fazla aşçının, tezgâhın, buzdolabının olduğu, paralel isteklerin alıp yapıldığı yer gibi düşünebiliriz. GPU ilk ekranlarda kullanıldı çünkü ekrandaki her piksel için aynı anda paralel hesaplama yapılması gerekiyordu aksi halde eski televizyonlar gibi ekranı kare kare sırayla dolduracaklardı.

ChatGPT bu transformer mimarisi ile çalışıyor. 96 katman var her seferinde dikkat metodunu ve bir sonraki kelimeyi tahminleyen yapay zekâ kısmını çalıştırıyor. Sonra da sadece bir kelime yazıyor. Her kelime için bu tekrarlanıyor.

İşte ilk olarak DeepSeek örneğin bir kelime değilde iki kelime yazdırıyor. Bu otomatikman verimlilik getiriyor ama ikinci kelimedeki tahminleme hatalarını da çözmüşler. Birden fazla kelime yazdırmak bilinen ve konuşulan bir konu ama DeepSeek doğruluk payı yüksek olarak çözmüş. 

İkincisi, sistem de bellek, GPU ve ikisini bağlayan bir ulaştırma kapasitesi var. Yapay zekâda her nöron bir ağırlık ile çarpılıyor ve bu ağırlık 2020’de 16 bit ile tanımlanırken, DeepSeek bunu 8 bit ile tanımlıyor. Elbette bu daha az hassasiyet ama hafızayı, ulaştırma kapasitesini ve GPU ihtiyacını yarıya indiriyor.

Üçüncüsü, dikkat kısmından sonraki yapay zekâ genel konular üzerine eğitilmiş. DeepSeekbunu özelleştiriyor ve ihtiyaca göre olan kısmı aktifleştiriyor, geri kalanları işleme sokmuyor. Hangisinin açık olacağının anlaşılacağı bir yapay zekâ modelini de dağıtıcı olarakgeliştiriyor.  AVM’deki yemek yerlerini düşünün, siz yolda giderken hangisine gideceğinizi tahminliyor ve sadece orayı açıyorlar, diğerleri ise kapalı.

Dördüncüsünde daha da ileri gidiyorlar, bakıyorlar ki bu dikkat kısmında bazı hesaplamalar hep aynı ve değişmiyor çoğu zaman, bunları ön belleğe yazıp oradan okumak daha verimli hale geliyor. Bu GPU talebini de oldukça düşürüyor. Yani GPU dan ziyade hafızadan ulaştırma kısmı daha önem arz ediyor.

Sonuncusu, ChatGPT, önce büyük miktarda internet verisini yükledikten sonra, insan yapımı testlerle (supervised learning) modelin parametrelerini eğitiyor. Örneğin, bir mektup yazma görevi verildiğinde, doğru formatın ne olması gerektiği konusunda geniş bir test seti kullanıyorlar. Ardından, pekiştirmeli öğrenme (reinforcement learning) ile sonucu belli olmayan testlerle daha karmaşık ve öngörülemez durumlar üzerinde model geliştiriliyor.

DeepSeek-R1 Zero ise bu sürecin ikinci aşamasını ortadan kaldırdığını iddia ediyor. Bunun yerine, kural tabanlı bir optimizasyon yöntemi kullanıyorlar. Bu da daha az insan müdahalesi gerektiren ve daha düşük maliyetli bir eğitim süreci sağlıyor. 

Yapay zekâ artık yalnızca yanıt veren bir teknoloji olmaktan çıkıp, kendi başına aksiyon alabilen bir seviyeye geçecek. Eskideki mobil uygulama geliştirme tsunamisi, yapay zekâ asistanları ile tekrar dalgalanacak!

Yani bir anlamda matematik ve mühendislik zekâsı çalışmış. Tamamen Çin’den mezun Çinli mühendislerle ve internetteki bilgilerle… Ve sayıca 200 kişiler. ChatGPT ise binlerce kişi ve milyarlarca dolar... Bir anlamda Rocky Ivan’a ya da David tekrar Goliath’a karşı. 

Şimdi ilk Microsoft sunucularında DeepSeek’i kullanıcılarına açtı daha sonra da NVIDIA 671 milyar parametreli DeepSeek-R1 modelini sundu. Güvenirliği sağlanınca da daha geniş kitlelere doğru hızla ulaşacak.

DeepSeek bir anlamda Çin’in yapay zekâ alanındaki potansiyelini gözler önüne serdi. ABD’nin uyguladığı ihracat kısıtlamalarına rağmen, DeepSeek’in elde ettiği bu başarı, Çin’in teknolojik inovasyon konusundaki ilerlemesini açıkça ortaya koyuyor. Bir anlamda senin GPU’na ihtiyacım yok dedi Çin tam da Trump yönetimi iş başına gelince. Bir anlamda iyimser ve şımarık hava ilk soğuk savaştaki gibi yerini ürkmeye bıraktı.

Bu gelişmeler, yapay zekâ alanında yeni bir dönemin de başlangıcı. İş planı alt yapıdan kaydı. Artık yapay zekâda asistan (AI Agent) zamanı. Bu asistanlar bağımsız kararlar alabilen ve belirli görevleri yerine getiren sistemler. Geleneksel büyük dil modelleri yalnızca bilgi üretirken, asistanlar bu bilgiyi kullanarak aktif eylemler gerçekleştirecek. Örneğin, otomatik asistanlar e-posta yazacak ve toplantı planlayacak, finansal danışmanlar piyasaları analiz ederek yatırım önerileri sunacak, otonom araçlar çevresini algılayarak sürüş kararları verecek ve sağlıkta tanı koyabilecek. Konuşarak alışveriş yapacağız.

Yapay zekâ artık yalnızca yanıt veren bir teknoloji olmaktan çıkıp, kendi başına aksiyon alabilen bir seviyeye geçecek. Eskideki mobil uygulama geliştirme tsunamisi, yapay zekâ asistanları ile tekrar dalgalanacak! Daha sonra da bu asistanların bir CV’si olacak, kendi Linkedin’lerinde (Referans Tony Fadell) sıralanacak; hangi veriyi kullanarak kendini geliştirmiş, kaç hata yapmış, kaç halüsinasyon görmüş hepsi listelenerek seçilecek…

İlgilenenler için bir okuma listesi:

1. https://arxiv.org/pdf/1301.3781

2. https://arxiv.org/abs/1706.03762

3. https://arxiv.org/abs/2211.00593 

4. https://arxiv.org/abs/2012.14913

5. https://arxiv.org/abs/2305.16130

6. https://arxiv.org/pdf/2001.08361

7. https://arxiv.org/abs/2302.02083

8. https://arxiv.org/abs/2303.12712

9. https://onlinelibrary.wiley.com/doi/full/10.1111/cogs.13309

10. https://dl.acm.org/doi/abs/10.1145/3442188.3445922

11. https://www.jstor.org/stable/43820791?casa_token=il-EbpHXQNwAAAAA%3AtIHPTA3sjEBXs5JVtAFoE5_ImT7gtkvE4tsGjtCd5k6T2nVSR7o9Ae1BzTpDdLIDcChnQxWth83emzu5yPkO54RlyuDUNNM1szcNK6jP7EEuxiMLFepe

12. https://www.understandingai.org/p/large-language-models-explained-with

13. https://medium.com/data-science-at-microsoft/how-large-language-models-work-91c362f5b78f

14. https://www.wiz.io/blog/wiz-research-uncovers-exposed-deepseek-database-leak

15. https://opencv.org/blog/deepseek/

16. https://arxiv.org/abs/2501.12948

17. https://www.iguazio.com/glossary/llm-hallucination/

İlginizi Çekebilir

TÜM HABERLER