Çinli yapay zeka geliştirme şirketi DeepSeek, büyük dil modellerinin önceki versiyonlarına kıyasla öğrenmede daha verimli olduğunu ve uzun metin dizilerini işlemede daha iyi olduğunu iddia ettiği son "deneysel" modelini yayınladı.
Hangzhou merkezli şirket, Hugging Face geliştirici forumunda yayınladığı bir gönderide DeepSeek-V3.2-Exp'i "yeni nesil mimarimize doğru atılmış bir ara adım" olarak nitelendirdi.
Bu mimari, V3 ve R1 modellerinin Silikon Vadisi'ni ve Çin dışındaki teknoloji yatırımcılarını şaşırtmasından bu yana DeepSeek ürünlerinin en önemli sürümü olabilir.
Çinli şirketin V3.2-Exp modeli, hesaplama maliyetlerini azaltabileceğini ve belirli model türlerinin performansını artırabileceğini iddia ettiği DeepSeek Sparse Attention adlı bir mekanizma içeriyor. Hina'nın haberine göre DeepSeek, Pazartesi günü X platformunda API fiyatlarını "yüzde 50'den fazla" düşürdüğünü duyurdu.
DeepSeek'in yeni nesil mimarisinin, Ocak ayındaki önceki sürümlerde olduğu gibi piyasada büyük bir sarsıntıya yol açması pek olası olmasa da, DeepSeek R1 ve V3'ün başarısını tekrarlarsa, Alibaba'nın Qwen'i gibi yerli rakiplerinin yanı sıra OpenAI gibi Amerikan rakiplerine de güçlü bir darbe vurabilir.
Bu, modelin rakiplerin sistemlerini eğitmek için harcadığı ve talep ettiği kaynakların yalnızca bir kısmını kullanarak yüksek yetenekler göstermesini gerektirecektir.
Bonus videosu: