Yapay Zeka Bilgileri: Bir Cümleyi Anlayan Makine: Transformer ve Dikkat Mekanizması Nasıl Çalışır?

ChatGPT'ye bir soru sorduğunuzda, perde arkasında matematiksel olarak oldukça zarif bir mekanizma devreye girer. Bu mekanizmanın kalbinde 2017 yılında yayımlanan ve modern yapay zekanın seyrini değiştiren tek bir makale yatıyor: "Attention Is All You Need". Vaswani ve ekibinin önerdiği Transformer mimarisi, dilin nasıl işlendiğine dair önceki tüm varsayımları altüst etti. Bu yazıda, bir metnin nasıl sayılara dönüştüğünden başlayıp, modelin kelimeler arasındaki ilişkileri nasıl "fark ettiğine" kadar tüm zinciri, abartısız ve somut biçimde inceleyeceğiz.

Önce metin parçalanır: Tokenizasyon

Bir dil modeli aslında kelimelerle değil, token adı verilen parçalarla çalışır. Token bazen bütün bir kelime, bazen bir kelimenin parçası, bazen de tek bir karakter olabilir. Peki neden kelimeleri olduğu gibi kullanmıyoruz? Çünkü dünyanın tüm kelimelerini bir sözlüğe sığdırmak imkansız; sürekli yeni kelimeler, yazım hataları ve teknik terimler ortaya çıkıyor.

Bu sorunu çözmek için günümüz modellerinin çoğu alt-kelime (subword) tokenizasyonu kullanır. Mantık basittir: sık kullanılan kelimeler tek parça kalır, nadir kelimeler ise anlamlı parçalara bölünür. En yaygın yöntem olan Byte-Pair Encoding (BPE), eğitim verisindeki en sık birlikte geçen karakter çiftlerini adım adım birleştirerek bir kelime dağarcığı oluşturur. Örneğin "hug", "pug" ve "hugs" kelimelerinde "u" ve "g" sık yan yana geldiği için bunlar tek bir "ug" tokenına dönüşür.

Kelime düzeyi: sözlük devasa olur, görülmemiş kelimeler "bilinmeyen" olarak işaretlenir.
Karakter düzeyi: dizilim çok uzar, anlam zayıflar.
Alt-kelime düzeyi: ikisinin dengesi; sık kelimeler bütün, nadir kelimeler parçalı.

GPT-2 ve RoBERTa gibi modeller bunun bir varyantı olan byte-level BPE kullanır. Burada metin Unicode karakterler yerine baytlar üzerinden işlenir; böylece temel sözlük yalnızca 256 elemandan oluşur ve hiçbir karakter "bilinmeyen" durumuna düşmez.

Sayıya dönüşen anlam: Embedding

Tokenlar elimizde, ama bir sinir ağı metinle değil sayılarla çalışır. İşte burada embedding (gömme) devreye girer. Her token, yüzlerce hatta binlerce boyutlu bir sayı vektörüne dönüştürülür. Bu vektörler rastgele değildir; eğitim sürecinde öğrenilir ve anlamsal olarak benzer kelimeler bu çok boyutlu uzayda birbirine yakın konumlanır.

Burada kritik bir ayrıntı var: Transformer, kelimeleri sırayla okumaz, hepsini aynı anda işler. Bu paralellik onun hız avantajının temelidir, ama bir sorun doğurur — model kelimelerin sırasını kaybeder. "Köpek kediyi kovaladı" ile "Kedi köpeği kovaladı" cümlelerini ayırt edebilmesi için sıraya dair bir bilgiye ihtiyaç vardır. Bu yüzden embedding vektörlerine konumsal kodlama (positional encoding) eklenir; böylece her tokenın cümledeki yeri de sayısal olarak modele aktarılır.

İşin kalbi: Dikkat (Attention) mekanizması

Şimdi mimarinin can damarına geldik. Makalenin adının neden "Dikkat Tek İhtiyacınız Olan Şey" olduğunu burada anlıyoruz. Self-attention (öz-dikkat), bir kelimeyi işlerken cümledeki diğer tüm kelimelere bakıp hangilerinin o an önemli olduğunu tartmaya yarar.

Jay Alammar'ın meşhur örneğini düşünelim: "Hayvan caddeyi geçmedi çünkü o çok yorgundu." Buradaki "o" kelimesi neyi işaret ediyor — caddeyi mi, hayvanı mı? Bir insan için cevap açık, ama makinenin bunu çözmesi gerekir. Self-attention sayesinde model, "o" tokenını işlerken "hayvan" tokenına yüksek bir ağırlık vererek bu bağı kurar.

Sorgu, Anahtar ve Değer

Bu nasıl hesaplanır? Her token için üç ayrı vektör üretilir; bunlar öğrenilmiş ağırlık matrisleriyle çarpılarak elde edilir:

Query (Sorgu): "Ben neyi arıyorum?"
Key (Anahtar): "Bende ne tür bir bilgi var?"
Value (Değer): "Eğer önemliysem, taşıdığım gerçek içerik bu."

Bir kelimenin Sorgu vektörü, diğer tüm kelimelerin Anahtar vektörleriyle çarpılır (skaler çarpım). Bu çarpım, iki kelimenin ne kadar "alakalı" olduğunu gösteren bir skor verir. Skorlar ölçeklenip softmax ile yüzdelik ağırlıklara dönüştürülür, ardından her kelimenin Değer vektörüyle çarpılıp toplanır. Sonuç: her kelime, kendine en alakalı kelimelerin bilgisini içine "sindirmiş" yeni bir temsil kazanır. Mesafenin önemi yoktur — cümlenin başındaki bir kelime, sonundaki bir kelimeyle tek adımda doğrudan ilişki kurabilir. RNN'lerin en büyük zayıflığı olan uzun mesafeli bağımlılık sorunu böylece kökten çözülür.

Çok başlı dikkat

Tek bir dikkat hesabı yetmez. Transformer, bu işlemi paralel olarak birden çok kez yapar — buna çok başlı dikkat (multi-head attention) denir. Orijinal makalede sekiz "baş" kullanılır. Her baş farklı bir ilişki türüne odaklanabilir: biri dilbilgisel bağlara, bir diğeri anlamsal yakınlıklara bakar. Sekiz başın çıktıları birleştirilip tek bir temsile indirgenir. Bu, modele aynı cümleyi birden çok "bakış açısıyla" inceleme yeteneği kazandırır.

Tuğlaların birleşmesi: Tam mimari

Transformer, bu dikkat katmanlarını üst üste yığarak çalışır. Orijinal makaledeki çeviri modeli iki ana bloktan oluşur: girdi cümlesini anlamlandıran kodlayıcı (encoder) ve çıktıyı üreten kod çözücü (decoder). Her katmanda dikkat mekanizmasının ardından bir ileri-beslemeli sinir ağı, artık bağlantılar (residual connections) ve normalizasyon yer alır.

İlginç olan şu ki, GPT ailesi gibi metin üreten modeller bu mimarinin yalnızca kod çözücü kısmını kullanır. Bu modeller bir kelimeyi tahmin ederken yalnızca kendinden önceki kelimelere bakabilir — geleceği "göremez". İşte metin üretiminin temel mantığı budur: bir sonraki en olası tokenı tahmin et, onu diziye ekle, ve süreci tekrarla.

Peki neden bu kadar güçlü oldu?

Transformer'ın devrim niteliği iki sözcükte özetlenebilir: paralellik ve ölçeklenebilirlik. Kendisinden önceki RNN ve LSTM modelleri cümleyi kelime kelime, sırayla işlemek zorundaydı; bu da eğitimi yavaşlatıyordu. Transformer ise tüm tokenları aynı anda işlediği için modern GPU'ların paralel hesaplama gücünden tam anlamıyla yararlanır.

Google Research'ün 2017 tarihli duyurusunda belirttiği gibi, Transformer hem İngilizce-Almanca hem de İngilizce-Fransızca çeviri kıyaslamalarında önceki modelleri geride bırakırken, eğitimi de bir kat daha hızlandırdı. Orijinal makalede model, WMT 2014 İngilizce-Almanca görevinde 28.4 BLEU, İngilizce-Fransızca görevinde ise sekiz GPU üzerinde 3,5 günlük eğitimle 41.8 BLEU skoruyla o günün en iyi sonucunu elde etti.

Asıl sihir ise bu ölçeklenebilirlikte gizliydi. Mimari daha fazla veri ve daha fazla parametreyle büyütüldükçe, performansı düşmek yerine istikrarlı biçimde arttı. Bu özellik, bugün "büyük dil modelleri" dediğimiz dev sistemlerin önünü açtı. Çeviri için tasarlanmış mütevazı bir mimari, kısa sürede metin üretiminden kod yazmaya, hatta görüntü ve ses işlemeye kadar her alana yayıldı.

Sonuç

Bir dil modeli, gizemli bir "düşünme" sürecinden çok, son derece tutarlı bir matematiksel zincirdir: metni tokenlara böl, her tokenı bir vektöre dönüştür, dikkat mekanizmasıyla kelimeler arası ilişkileri tart ve bir sonraki tokenı tahmin et. Transformer'ın dehası, bu adımları hem paralel hem de neredeyse sınırsız ölçeklenebilir kılmasındaydı. 2017'de yazılan o sekiz sayfalık makale, hâlâ üzerine yeni katlar eklenen bir temel attı — ve bugün etkileşimde bulunduğumuz neredeyse her yapay zeka sisteminin altında o temelin izleri var.

Kaynaklar ve İleri Okuma

Bu yazıdaki bilgiler aşağıdaki birincil ve kurumsal kaynaklara dayanmaktadır:

Bir Cümleyi Anlayan Makine: Transformer ve Dikkat Mekanizması Nasıl Çalışır?

Önce metin parçalanır: Tokenizasyon

Sayıya dönüşen anlam: Embedding

İşin kalbi: Dikkat (Attention) mekanizması

Sorgu, Anahtar ve Değer

Çok başlı dikkat

Tuğlaların birleşmesi: Tam mimari

Peki neden bu kadar güçlü oldu?

Sonuç

Kaynaklar ve İleri Okuma

İlgili Analizler

Hukukta Yapay Zeka: Düzenlemelerden Yargı Otomasyonuna

AI Alignment ve Değer Hizalaması: Modelleri İnsan Değerlerine Uyarlama

Sağlıkta Yapay Zeka: Tanıdan Tedaviye Tıpta Dönüşüm