Doğal Dil İşlemede Dil Modelleri

Dil Modeli Nedir ?

En basit haliyle dil modeli , kelime ve kelime grupları üzerinde bir olasılık dağılımıdır. Dil modeli, yazı verilerinini bir bağlamda anlamlandırmaya çalışır. Farklı ifadelerin göreceli olasılığını tahmin etmek, birçok doğal dil işleme uygulamasında faydalıdır. Speech-to-text , makine çevirisi, konuşma parçası etiketleme (Part-of-speech tagging), Optik Karakter Tanıma, el yazısı tanıma, metin sınıflandırma ve diğer birçok uygulamalarda dil modelleri kullanılır.

Dil Model Türleri

  • Basit Olasılıksal Dil Modelleri

Bu dil modelleri basit bir şekilde n-gram olasılıkları hesaplanarak oluşturulur (n-gram, n kelime dizisidir). Bir n-gram'ın olasılığı, n-gram'ın son kelimesinin belirli bir n-1 gramı takip etmesi koşullu olasılığıdır. Bu yaklaşımın bazı dezavantajları vardır. Yalnızca önceki n kelime bir sonraki kelimenin olasılık dağılımını etkiler. Fakat durum her zaman böyle değildir. Karmaşık metinlerde , bir sonraki kelimenin de anlama bir etkisi olabilir. Bu nedenle, bir sonraki kelimenin ne olduğu, n, 20 veya 50 olsa bile, önceki n-kelimelerden tahmin edilemeyebilir.

  • Neural Network Tabanlı Dil Modelleri

Neural Network tabanlı yöntemlerde , kelime veya kelime grupları için bir “word embedding” uygulanır. Bu yöntemde her bir kelime veya kelime grubuna karşılık gelen X boyutta bir vektör bulunur. Bu vektörler sayısal olarak sürekli bir uzayda olduğu için bir sonraki kelimenin olasılık dağılımına daha doğru katkılar yapabilirler.

  • RNN

RNN'ler sıralı verileri işlerken kullanılır. Buradaki her bir kelime sırayla RNN'e verilir ve çıktı olarak bir vektör elde edilir. Bu elde edilen vektör ve sonraki kelimenin vektörü tekrar RNN'e input olarak verilir ve bu cümlenin sonuna kadar tekrarlanır. Fakat RNN'ler de bağlam oluşturma konusunda , sadece önceki kelimelere baktıkları için hala yeterince güçlü sonuçlar sunmazlar. Aynı zamanda eğitilirken paralelize olamadığı için donanımı çok optimize kullanamazlar. Bu sorunları çözmek için Transformerler ortaya çıkmıştır.

  • Transformers

Günümüzde en popüler ve en başarılı dil modelleri transformer'lar üzerine inşa edilmiştir. Google'ın BERT modeli , OpenAI'nın GPT-3'ü bunların en popüler örnekleridir. Ayrıca bu modeller,hangi girdilerin birbiriyle ilişkili olduğu , hangi girdilerin önemli veya önemsiz olduğunu “Attention” adı verilen bir mekanizma kullanarak anlamlandırmaya çalışır. Aynı zamanda bütün inputları aynı anda alıp RNN gibi bir önceki vektöre ihtiyaç duymadığı için parallelleşebilir ve donanımı daha optimize kullanabilir.

  • References

https://towardsdatascience.com/the-beginners-guide-to-language-models-aa47165b57f9

https://en.wikipedia.org/wiki/Language_model

Haberdar olun!

E-bültenimize kayıt olarak tüm yeniliklerimizden haberdar olabilirsiniz.

"Sisasoft İnternet Sitesi kullanım deneyiminizi kişiselleştirmek ve iyileştirmek için çerezler kullanıyoruz. Ziyaretinizi varsayılan ayarlarla gerçekleştirerek Sisasoft Gizlilik Politikası'da belirtilen şekilde çerezlerin kullanımını kabul etmiş oluyorsunuz."

0312 227 06 34