Apple’ın araştırma ekibi, “MM1” adını verdikleri yeni çok modlu büyük dil modeli ile yapay zeka alanında büyük bir ilerleme kaydetti. MM1, hem görüntü tanıma hem de doğal dil işleme yetenekleri açısından dikkat çekici kabiliyetlere sahip. Model, 3 milyar, 7 milyar ve 30 milyar parametre olmak üzere üç farklı boyutta sunuluyor.
Araştırmacılar, bu modeller üzerinde çeşitli deneyler yaparak performansı etkileyen temel faktörleri belirlediler. İlginç bir şekilde, görüntü çözünürlüğü ve görüntü etiketlerinin sayısı, görsel-dil bağlayıcılarından daha fazla etki yaratıyor. Ayrıca, farklı ön eğitim veri setlerinin, modelin etkinliğini önemli ölçüde etkileyebildiği görülüyor.
Apple öyle bir yeniliğe imza attı ki, Android kullananlar çok kıskanacak
MM1‘in geliştirilmesinde “Uzmanların Karışımı” mimarisi ve “Üst-2 Kapı” yöntemi kullanılmış. Bu yaklaşım, hem ön eğitimde hem de mevcut çok modlu görevlerde mükemmel sonuçlar elde edilmesini sağlamış. Belirli görevler için ince ayar yapıldığında bile, MM1 modelleri rekabetçi bir performans sergilemeye devam ediyor.
Yapılan testler, MM1-3B-Chat ve MM1-7B-Chat modellerinin, piyasadaki benzer boyuttaki rakiplerin çoğundan daha üstün olduğunu ortaya koyuyor. Bu modeller, özellikle görüntü ve metinle ilgili soru cevaplama, metin tabanlı görüntü üzerinde soru cevaplama ve bilimsel soru cevaplama gibi görevlerde ön plana çıkıyor. Ancak, MM1’in genel performansı henüz Google’ın Gemini veya OpenAI’ın GPT-4V modellerini aşmış değil. MM1, mutlak bir lider olmasa da, Apple için yapay zeka alanında önemli bir adım temsil ediyor.