Yandex Araştırmaları LLM'leri Sıkıştırmak İçin Yeni Yöntemler Geliştirerek Yapay Zeka Dağıtım Maliyetlerini 8 Kata Kadar Azalttı

13.08.2024 - Salı 16:00

Yandex Araştırma grubu, IST Austria, NeuralMagic ve KAUST araştırmacılarla işbirliği yaparak büyük lisan modelleri için iki yeni sıkıştırma usulü geliştirdi: Lisan Modelleri için Eklemeli Niceleme (AQLM) ve PV-Tuning. Bu metotlar bir ortaya getirildiğinde model boyutunda 8 kata kadar azalma sağlarken cevap kalitesini %95 oranında koruyor. Kaynakları optimize etmeyi ve büyük lisan modellerinin çalıştırılmasında verimliliği artırmayı amaçlayan bu yeni yaklaşımın ayrıntılarına dair makale, şu an Viyana, Avusturya'da devam etmekte olan Milletlerarası Makine Tahsili Konferansı'nda (ICML) yer aldı.

 

AQLM ve PV-Tuning'in temel özellikleri

 

AQLM, LLM sıkıştırması için klâsik olarak bilgi erişiminde kullanılan eklemeli niceleme sisteminden yararlanıyor. Ortaya çıkan yol çok sıkıştırma altında modelin doğruluğunu koruyup geliştiriyor, böylelikle LLM'lerin mesken bilgisayarları üzere günlük aygıtlarda yaygınlaştırılmasını mümkün kılıyor. Bu, bellek tüketiminde kıymetli bir azalmaya neden oluyor.

 

PV-Tuning ise model sıkıştırma süreci sırasında ortaya çıkabilecek yanlışları gideriyor. AQLM ve PV-Tuning birleştirildiğinde, sonlu bilgi süreç kaynaklarında bile yüksek kalitede karşılıklar sağlayabilen kompakt bir model eşliğinde optimum sonuçlar sunuyor.

 

Yöntem kıymetlendirme ve tanıma

 

Sunulan metotların aktifliği, LLama 2, Mistral ve Mixtral üzere tanınan açık kaynaklı modeller kullanılarak titizlikle değerlendirildi. Araştırmacılar bu büyük lisan modellerini sıkıştırarak yanıt kalitesini İngilizce karşılaştırma ölçütleri olan WikiText2 ve C4 ile kıymetlendirdi. Modeller 8 kat sıkıştırılmalarına rağmen %95 üzere etkileyici bir oranda cevap kalitesini muhafazayı başardı.

 

 AQLM ve PV-Tuning'den kimler yararlanabilir

 

Yeni usuller, tescilli lisan modellerini ve açık kaynaklı LLM'leri geliştiren ve dağıtan şirketler için değerli ölçüde kaynak tasarrufu sağlıyor. Örneğin sıkıştırma sonrası 13 milyar parametreye sahip Llama 2 modeli artık 4 yerine yalnızca 1 GPU üzerinde çalışarak donanım maliyetlerinde 8 kata kadar azalma sağlıyor. Bu da teşebbüslerin, ferdi araştırmacıların ve LLM meraklılarının Llama üzere gelişmiş LLM'leri günlük kullandıkları bilgisayarlarda çalıştırabilecekleri manasına geliyor.

 

Yeni LLM uygulamalarını keşfetmek

 

AQLM ve PV-Tuning, modellerin sonlu hesaplama kaynaklarına sahip aygıtlarda çevrimdışı olarak dağıtılmasını mümkün kılarak, akıllı telefonlar, akıllı hoparlörler ve daha fazlası için yeni kullanım alanları sağlar. Bu aygıtlara entegre edilen gelişmiş LLM'ler sayesinde kullanıcılar metin ve imaj oluşturma, sesli yardım, şahsileştirilmiş teklifler ve hatta gerçek vakitli lisan çevirisini etkin bir internet temasına gereksinim duymadan kullanabiliyor.

 

Ayrıca, bu metotlar kullanılarak sıkıştırılan modeller daha az hesaplama gerektirdiğinden 4 kata kadar daha hızlı çalışabiliyor.

 

Uygulama ve erişim

 

Dünya genelindeki geliştiriciler ve araştırmacılar, GitHub'da bulunan AQLM ve PV-Tuning'i kullanabiliyor. Geliştiriciler tarafından sağlanan demo gereçleri, çeşitli uygulamalar için sıkıştırılmış LLM'leri tesirli bir halde eğitmek için rehberlik sunuyor. Ayrıyeten geliştiriciler, bu usuller kullanılarak sıkıştırılmış popüler açık kaynaklı modelleri indirebiliyorlar.

 

ICML’de öne çıktı

 

Yandex Research'ün AQLM sıkıştırma yoluna ait bilimsel makalesi, dünyanın en itibarlı makine tahsili konferanslarından biri olan ICML'de yayınlandı. IST Austria'dan araştırmacılar ve yapay zeka teşebbüsü Neural Magic'ten uzmanlarla birlikte hazırlanan bu çalışma, LLM sıkıştırma teknolojisinde değerli bir ilerleme manasına geliyor.

Kaynak: (BYZHA) Beyaz Haber Ajansı