Yerli Yapay Zeka Kumru Tanıtıldı! Sosyal Medyada Gündem Olan Kumru'ya Dair Bilinmeyenler Açıklandı
Hayatımızda büyük bir yer kaplayan ve günlük yaşantımızdan iş hayatımıza pek çok alanda desteğini göz ardı edemeyeceğimiz yapay zeka, her geçen gün gelişmeye devam ediyor. Daha çok ChatGPT, Gemini, Grok'u kullanırken bugün sosyal medyada karşımıza yerli yapay zekamız Kumru çıktı!
Sosyal medyada gündem olan ve çok konuşulan Kumru'yla ilgili bilinmeyenleri ve detayları @VNGRS adlı Türk teknoloji girişimi açıkladı.
Yerli Yapay Zeka Kumru Nedir, Nasıl Çalışır?

Dünyayı kasıp kavuran yapay zeka karşısında Türkiye'den de bayrakları asmamızı sağlayacak bir adım geldi! Türk mühendisler tarafından geliştirilen yerli yapay zeka modeli Kumru tanıtıldı, ilk günden büyük ilgi gördü.
VNGRS adlı Türk teknoloji girişimi tarafından geliştirilen yerli yapay zeka Kumru, Meta’nın LLaMA-3 mimarisi temel alınarak tasarlandı ve 7,4 milyar parametreye sahip. yalnızca 16 GB VRAM’e sahip tüketici GPU’larında bile sorunsuz şekilde çalışabilen Kumru, bu sayede büyük teknoloji yatırımlarına gerek kalmadan şirket içi bilgisayarlarda, uygun maliyetle kullanılabiliyor.
Kumru'nun geliştiricisi VNGRS, Kumru'yla ilgili merak edilen sorulara cevap vererek ilgiye teşekkür etti.

Kumru'nun B2C (Business to Costumer) yani doğrudan müşterilere satış yapma amacı taşımadığını açıklayan VNGRS, bir floodla Kumru'yu anlattı.

Neden (Kumru'ya) böyle bir modele ihtiyaç var?
Türkiye'de özellikle finans gibi sektörlerde faaliyet gösteren pek çok kurum, veri güvenliğine dair regülasyonlar sebebiyle ChatGPT gibi hizmetleri kullanamıyor. Kurum-içi (on-premise) kullanılabilecek açık dil modellerinden büyük olanların gereksinim duyduğu donanım yatırım maliyeti yüksek, küçük olanların ise Türkçe yetenekleri yetersiz çünkü Türkçe, bu modellerin ana dili değil. Biz de buradaki bu açığı doldurmak için, büyük donanım yatırımları gerektirmeden çalışabilecek, ana dili Türkçe olan Kumru modelini eğittik.
Kumru, ChatGPT'ye rakip mi?

Kumru, Verdiği Bilgilerde Neden Hata Yapabiliyor?
Yapay Zeka modellerine dair çözülmesi en zorlu problemlerden biri hatalı bilgi vermesi, yani halüsinasyonlar. Yapay zeka eğitilirken farklı aşamalardan geçiyor ve son aşama olan pekiştirmeli öğrenme (reinforcement learning from human feedback) ile bu halüsinasyonlar en aza indirgeniyor. OpenAI'ın ChatGPT'den önce 2022 başında sunduğu davinci-001 modeli de pekiştirmeli öğrenme aşamasından henüz geçmemişti ve bu yüzden bol miktarda halüsinasyon görüyordu. Kumru da, aynı davinci-001 modeli gibi, henüz pekiştirmeli öğrenme aşamasından geçmediği için hatalı bilgiler verebiliyor.
👇

Model Mimarisi Nedir? Mistral Ne Demek?
Model mimarisi, derin öğrenme (deep learning) modelini oluşturan katmanların (layer) ne tür olduğunu ve hangi sırayla kullanıldığını tanımlamak için kullanılıyor.
Kumru'nun Güçlü ve Zayıf Olduğu İşler Neler?

Kumru Matematikte Neden Kötü?
Dil modelleri, kelime ve kelimeciklerden (token) oluşan metinleri işler ve üretirler. Bildiklerini ise eğitildikleri devasa metin derlemlerinden istatistiki olarak öğrenirler. Kendi içlerinde bir hesap makinesi mekanizmasına da sahip değiller. Tüm bunların sonucu matematik işlemleri yapmayı bilmeyen, ancak neyi bilip bilmediğini de bilmeyen, o yüzden de konu matematiğe gelince bolca hata yapan geveze bir ürün.
ChatGPT ve benzeri erken modeller de ilk zamanlarda çok fazla matematik hatası yapıyordu. İlerleyen yıllarda gelişmiş pekiştirmeli öğrenme yöntemleri ile mevcut yeteneklerine kavuştular. Kumru da benzer şekilde pekiştirmeli öğrenme aşamasından geçtikten sonra matematikte daha başarılı olacak.
Kumru'ya Verdiğim Kelimedeki Harfleri Sorunca Yanlış Cevap Veriyor, Neden?

2 milyar ile 7 milyar arasındaki fark nedir?
Eğitim verisi, bağlam uzunluğu (context length) ve tokenizer açısından iki model de birebir aynı spesifikasyonlara sahip. Tek fark modellerin boyutları. Dil modellerinin kabiliyetleri ve hafızaları, sahip oldukları parametre sayısıyla paralellik gösterdiği için büyük model daha çok biliyor ve daha hünerli diyebiliriz.
👇

LLaMA gibi bir modeli continual pre-training yapmak yerine neden sıfırdan eğittiniz?
Continual pre-training gayet makul bir strateji ve Türkiye'deki pek çok grup da bunu yapıyor. Ancak dezavantajı, orijinal modelin tokenizer'ının kullanılmasını gerektirmesi. Bu da hem eğitim esnasında, hem de kullanım esnasında metinler işlenirken, Türkçe bir tokenizer'a göre daha fazla token harcanması ile sonuçlanıyor. Netice olarak modeli eğitme ve kullanma maliyeti ve süresi 2 katına kadar artıyor.
Pre-trained bir modelin embedding matrix'ini ve tokenizer'ını ameliyat edip Türkçe'ye uyarlamak mümkün, ama bu da yalnızca bir yere kadar etkili, ve model ile tokenizer arasındaki bağı koparmış oluyorsunuz.
Biz bunun yerine Türkçe'nin ihtiyaçlarını da göz önünde bulundurarak pretokenization regex'i, kod ve matematik desteği de olan ve tüm dizayn kararlarını bilinçli bir şekilde verdiğimiz modern bir Türkçe LLM tokenizer'ı geliştirmeyi ve Kumru'yu bununla eğitmeyi seçtik. Tüm bu adımları baştan sona yapmanın getirdiği tecrübeye bağlı bilgi birikimi de cabası.
👇

Kumru'da Hangi Veriler Kullanıldı?
İçerikleri Mart 2024 tarihine dek üretilmiş Türkçe web derlem başta olmak üzere wikipedia, haber metinleri gibi literatürdeki veriler ile %5 oranında da İngilizce web ve kod derlemlerini kullandık.
Kumru Nasıl Geliştirildi?

7 milyarlık modeli de açık kaynak yayınlayacak mısınız?
Daha büyük ve multimodal modeller ürettikçe 7 milyarlık versiyondan başlayarak eski modelleri yayınlamayı planlıyoruz.
Keşfet ile ziyaret ettiğin tüm kategorileri tek akışta gör!
Yorum Yazın