Turkce dogal dil isleme

Bir yapay zeka modeline İngilizce "books" yazdığınızda, kelime büyük olasılıkla tek bir parçaya, yani tek bir "token"a karşılık gelir. Aynı modele Türkçe "kitaplarımızdakilerden" yazdığınızda ise model bu tek kelimeyi yarım düzine anlamsız parçaya bölebilir. İşte Türkçe doğal dil işlemenin (NLP) en temel gerilimi burada başlıyor: Türkçe, anlamı kelime köküne eklenen eklerle inşa eden sondan eklemeli (aglutinatif) bir dil. Bu yapı insan için son derece ekonomik ve esnek, ancak Indo-Avrupa dillerine göre tasarlanmış araçlar için sürekli bir baş ağrısı kaynağı.

Sondan Eklemeli Yapı Neden Bir Sorun?

Türkçede bir kelime kökü, üst üste binen eklerle teorik olarak çok sayıda farklı biçime girebilir. "Ev" kökünden "evler", "evlerim", "evlerimde", "evlerimdekiler" gibi onlarca türev tek bir değişmez biçimde değil, morfemlerin birleşmesiyle ortaya çıkar. Dilbilimsel olarak anlamın büyük kısmı kelimenin içindeki bu morfemlerde taşınır. Bu durum iki somut probleme yol açar:

  • Kelime hazinesi patlaması (vocabulary explosion): İngilizcede bir fiilin birkaç çekimi varken, Türkçede tek bir kökten üretilebilecek geçerli biçim sayısı çok büyüktür. Klasik sözlük temelli yaklaşımlar bu çeşitlilik karşısında yetersiz kalır.
  • Veri seyrekliği (data sparsity): Her biçim ayrı bir kelime gibi sayıldığında, bir modelin her birini yeterince örnekle görme şansı azalır. Bu da istatistiksel öğrenmeyi zorlaştırır.

Bu yüzden Türkçe NLP, onlarca yıldır morfolojik çözümlemeyi (morphological analysis) merkeze koyar. Kelimeyi kök ve eklerine ayırmadan anlamı güvenilir biçimde yakalamak çoğu görevde mümkün değildir.

Sondan eklemeli dil ve modeller

Tokenizasyon: Modern Modellerin Türkçeyle İmtihanı

Bugünün büyük dil modelleri kelimeleri Byte-Pair Encoding (BPE) ya da SentencePiece gibi alt-kelime (subword) algoritmalarıyla parçalara böler. Bu algoritmalar çoğunlukla Indo-Avrupa dillerinin baskın olduğu çok dilli devasa derlemler üzerinde eğitilir. Morfolojik açıdan zengin diller söz konusu olduğunda verimlilikleri belirgin biçimde düşer.

Sonuç olarak Türkçe kelimeler gereğinden fazla parçaya bölünür. Bunun iki yan etkisi vardır: birincisi, aynı cümle daha fazla token tükettiği için bağlam penceresi daha hızlı dolar ve işlem maliyeti artar; ikincisi, anlam taşıyan morfem sınırları parçalanma içinde kaybolabilir. Aşırı parçalama anlamı sulandırır, fazla kaba parçalama ise kritik dilbilgisel ayrıntıları gözden kaçırır. Bu denge, morfolojik açıdan zengin diller için kritiktir.

Bu sezgi son dönemde sayısal olarak da gösterildi. M. Ali Bayram ve arkadaşlarının Türkçe tokenizasyon standartlarını inceleyen çalışması (Yıldız Teknik, Yeditepe, Chicago ve İstanbul Bilgi üniversitelerinden araştırmacılar), tokenizer'ları iki metrikle değerlendirdi: bir tokenizer'ın ürettiği benzersiz parçaların ne kadarının geçerli Türkçe kelime olduğunu ölçen %TR ve parçaların anlamlı bütünler olup olmadığını ölçen %Pure. Aya-expanse tokenizer'ı %50,67 ile en yüksek Türkçe-geçerli oranına ulaşırken, Qwen2.5 %40,33 ile en düşük değerde kaldı. En çarpıcı bulgu ise şu: bir tokenizer'ın Türkçe-geçerli token oranı (%TR) ile modelin Türkçe başarı puanları arasında çok güçlü bir pozitif ilişki (r=0,90) çıktı. Yani Türkçeyi anlamlı parçalara bölmek, salt bir verimlilik meselesi değil; doğrudan başarıyı belirleyen bir faktör.

Turkce yapay zeka

Türkçe Dil Modelleri: BERTurk ve Sonrası

Türkçe için sıfırdan eğitilmiş yerel modeller bu açığı kapatmaya çalışıyor. Bu alanın en bilinen ve yaygın kullanılan örneği BERTurk. Bavyera Eyalet Kütüphanesi'nin MDZ Dijital Kütüphane ekibinden (dbmdz) Stefan Schweter tarafından geliştirilen bu topluluk tabanlı model, Hugging Face üzerinden açık erişimle sunuluyor.

BERTurk'ün önemi sadece Türkçeye özel olmasından değil, eğitim verisinin niteliğinden de geliyor. Model; filtrelenmiş ve cümlelere ayrılmış Türkçe OSCAR derlemi, güncel bir Wikipedia dökümü, çeşitli OPUS derlemleri ve Kemal Oflazer'in sağladığı özel bir derlemin birleşiminden oluşan, toplam 35 GB boyutunda ve yaklaşık 4,4 milyar token içeren bir derlem üzerinde eğitildi. Ekip ayrıca daha hafif kullanım senaryoları için, ana modelin yedinde biri büyüklüğündeki veriyle damıtılmış (distilled) DistilBERTurk'ü ve ELECTRA tabanlı küçük/temel modelleri de yayınladı.

Bu modellerin kıymeti, çok dilli devasa modellerin Türkçeyi çoğu zaman en iyi temsil edilen diller arasında saymamasından kaynaklanıyor. Eğitim verisinde Türkçe az temsil edildiğinde, hem modelin Türkçe kapasitesi hem de veriden öğrenilen tokenizer Türkçe için yetersiz kalıyor. Yerel olarak eğitilmiş bir model, bu iki sorunu da kaynağında çözmeye çalışıyor.

Veri Kümeleri ve Değerlendirme: Treebank'ten TR-MMLU'ya

Bir dilin yapay zeka ekosistemi, modeller kadar veri kümeleri ve değerlendirme ölçütleriyle de ayakta durur. Türkçe NLP'nin omurgasını oluşturan kaynakların başında dilbilgisel olarak işaretlenmiş treebank'ler gelir.

BOUN Treebank

Boğaziçi Üniversitesi TABILAB ekibi tarafından oluşturulan BOUN Treebank, en büyük Türkçe treebank'lerden biri. Biyografik metinler, ulusal gazeteler, öğretici metinler, popüler kültür yazıları ve denemeler gibi farklı türlerden derlenmiş 9.761 cümle içeriyor. Metinler Türkçe Ulusal Derlemi'nden (Turkish National Corpus) alınmış ve uluslararası Universal Dependencies (Evrensel Bağlılıklar) çerçevesine uygun olarak elle işaretlenmiş durumda. Bu, Türkçe bağımlılık ayrıştırması (dependency parsing) çalışmaları için kritik bir temel oluşturuyor.

TR-MMLU

Modellerin Türkçe bilgisini ölçmek için son dönemde geliştirilen kapsamlı bir ölçüt ise TR-MMLU. Yıldız Teknik, Yeditepe, İstanbul Bilgi ve Işık üniversitelerinden araştırmacılar tarafından hazırlanan bu değerlendirme çerçevesi, Türk eğitim sisteminden derlenen 280.000 soruluk bir havuzdan seçilmiş, 67 disiplin ve 800'den fazla konuyu kapsayan 6.200 çoktan seçmeli soru içeriyor. Çalışmanın bulgularına göre Türkçe morfolojisine uygun sağlam tokenizasyon stratejisine sahip modeller diğerlerinden tutarlı biçimde daha iyi performans gösterdi. Yayınlanan sonuçlarda en yüksek başarıyı %84,84 ile GPT-4o ve %84,40 ile Claude 3.5 Sonnet elde ederken, açık kaynaklı Llama 3.3 %79,42'de kaldı. Aynı çalışma, ince ayar (fine-tuning) sırasında modelin önceki bilgilerini yitirmesi anlamına gelen "felaket türü unutma" (catastrophic forgetting) gibi pratik zorlukları da gündeme getirdi.

Sonuç

Türkçe NLP'nin hikayesi, aslında genel-amaçlı araçların evrensel sanılan varsayımlarının nasıl bir dile çarptığının hikayesi. Sondan eklemeli yapı, kelimeyi sabit bir bütün olarak değil, üretken bir süreç olarak ele almayı zorunlu kılıyor; tokenizasyondan model eğitimine kadar her katmanın bu gerçeği hesaba katması gerekiyor. BERTurk gibi yerel modeller, BOUN Treebank gibi titizlikle işaretlenmiş veri kümeleri ve TR-MMLU gibi ölçütler, bu uyumlama çabasının somut adımları. Sayısal bulgular da net bir mesaj veriyor: Türkçeyi anlamlı parçalara bölebilen sistemler, Türkçeyi gerçekten anlayan sistemler oluyor. Dilin yapısına saygı göstermek, burada bir nezaket değil, doğrudan başarının ön koşulu.