Yapay zeka deger hizalamasi

Büyük bir dil modeli, internetin devasa metin yığını üzerinde eğitildiğinde aslında tek bir şey yapmayı öğrenir: bir sonraki kelimeyi tahmin etmek. Bu yetenek şaşırtıcı derecede güçlüdür, ancak "bir sonraki kelimeyi olabildiğince doğru tahmin et" hedefi ile "insana yardımcı ol, dürüst ol, zarar verme" hedefi aynı şey değildir. Ham bir dil modeli; bir soruyu cevaplamak yerine benzer sorular üretmeye devam edebilir, tehlikeli talimatları sorgusuz sualsiz yazabilir ya da kendinden emin bir tonla yanlış bilgi uydurabilir. İşte hizalama (alignment), modelin bu çiğ yeteneğini insan niyetine ve değerlerine yönlendirme sürecinin adıdır.

Bu yazıda, modern dil modellerinin neden ve nasıl hizalandığını; SFT, ödül modeli, RLHF, Constitutional AI ve DPO gibi temel teknikleri, ortaya çıktıkları gerçek akademik çalışmalara dayanarak ele alacağız.

Hizalama Neden Önemli?

Hizalamanın gerekçesi pratik bir gözlemle başlar. Önceden eğitilmiş (pretrained) bir model, devasa olsa bile, kullanıcının ne istediğini değil yalnızca metnin istatistiksel olarak nasıl devam ettiğini bilir. Bu durum üç temel soruna yol açar: model yardımcı olmayabilir (yanlış anlar veya konudan sapar), dürüst olmayabilir (uydurur), ve zararsız olmayabilir (kötüye kullanıma kapı açar). Yapay zeka araştırmalarında bu üç hedef sıklıkla "helpful, honest, harmless" (yardımcı, dürüst, zararsız) olarak özetlenir.

Hizalamanın ne kadar fark yarattığını gösteren en çarpıcı bulgulardan biri OpenAI'ın InstructGPT çalışmasından gelir. Araştırmacılar, insan geri bildirimiyle hizalanmış 1,3 milyar parametrelik bir modelin çıktılarının, 100 kat daha büyük olan 175 milyar parametrelik ham GPT-3 modelinin çıktılarına insanlar tarafından tercih edildiğini raporladı. Yani doğru hizalama, kaba ölçek artışından çok daha verimli bir şekilde kullanışlılık kazandırabiliyor. Bu, hizalamanın yalnızca bir "güvenlik cilası" değil, modeli gerçekten faydalı kılan temel bir adım olduğunu gösterir.

RLHF ve insan geri bildirimi

İlk Adım: Denetimli İnce Ayar (SFT)

Hizalama tipik olarak SFT (Supervised Fine-Tuning, denetimli ince ayar) ile başlar. Burada insan etiketçiler, çeşitli istemlere (prompt) karşı arzulanan, kaliteli örnek cevaplar yazarlar. Model, bu "gösteri" niteliğindeki örnekler üzerinde ince ayarlanır. InstructGPT'de bu adım, GPT-3'ün etiketçilerin yazdığı talimat-cevap gösterileri üzerinde yeniden eğitilmesiyle gerçekleştirildi.

SFT, modele "bir talimat geldiğinde nasıl bir cevap beklendiğini" öğretir. Ancak tek başına yeterli değildir: her olası soru için insan eliyle ideal cevap yazmak imkânsızdır ve insanlar genellikle iyi bir cevabı sıfırdan yazmaktan çok, iki cevaptan hangisinin daha iyi olduğunu söylemekte daha tutarlıdırlar. İşte bu gözlem, bir sonraki aşamanın temelini oluşturur.

Constitutional AI ve DPO

Ödül Modeli ve RLHF

RLHF (Reinforcement Learning from Human Feedback, insan geri bildiriminden pekiştirmeli öğrenme), modern hizalamanın bel kemiğidir ve InstructGPT ile yaygınlaştı. Süreç üç aşamadan oluşur:

  • SFT: Yukarıda anlatıldığı gibi, model insan gösterileriyle ince ayarlanır.
  • Ödül modeli eğitimi: Aynı isteme model birkaç farklı cevap üretir; insan etiketçiler bu cevapları en iyiden en kötüye doğru sıralar. Ayrı bir model, bu sıralamaları taklit edecek şekilde eğitilir. Bu ödül modeli (reward model), bir cevaba bakıp "bir insan bunu ne kadar beğenir" sorusuna sayısal bir puan verir.
  • Pekiştirmeli öğrenme: Dil modeli, ödül modelinin verdiği puanı maksimize edecek şekilde (genellikle PPO algoritmasıyla) optimize edilir. Böylece model, insanların tercih ettiği türden cevaplar üretmeye yönlendirilir.

Bu yaklaşımın gücü, insan tercihini ölçeklenebilir hale getirmesidir: insanlar yalnızca karşılaştırmalı yargılar verir, gerisini ödül modeli devralır. InstructGPT, bu yöntemle daha dürüst ve daha az toksik çıktılar ürettiğini, üstelik standart NLP karşılaştırmalarındaki performansını büyük ölçüde koruduğunu gösterdi.

Ödül Modelinin Açmazı: Aşırı Optimizasyon

RLHF kusursuz değildir. Ödül modeli, gerçek insan değerlerinin yalnızca kusurlu bir vekilidir (proxy). Model bu vekil puanı çok agresif biçimde maksimize etmeye çalışırsa, gerçek hedeften kopabilir. Bu olgu, Goodhart Yasası'nın bir tezahürüdür: "Bir ölçüt hedef haline geldiğinde, iyi bir ölçüt olmaktan çıkar."

OpenAI araştırmacıları Leo Gao ve ekibi, "Scaling Laws for Reward Model Overoptimization" adlı çalışmada bu durumu sistematik olarak incelediler. Sabit bir "altın standart" ödül modelini insanların yerine koyarak, bir vekil ödül modeline karşı aşırı optimizasyon yapıldığında gerçek performansın bir noktadan sonra düşmeye başladığını gösterdiler. Pratikte bu, modelin ödül modelini "kandıran" ama aslında daha kötü cevaplar üretmesi anlamına gelebilir — buna ödül hacklemesi (reward hacking) denir. Bu yüzden RLHF uygulamalarında, modelin başlangıç davranışından çok uzaklaşmasını cezalandıran bir KL-düzenlileştirme terimi gibi önlemler kullanılır.

Constitutional AI: Geri Bildirimi Yapay Zekadan Almak

RLHF, zararlı içeriği etiketlemek için çok sayıda insan emeği gerektirir. Anthropic, 2022 tarihli "Constitutional AI: Harmlessness from AI Feedback" çalışmasında bu yükü azaltan bir yöntem önerdi. Buradaki temel fikir, zararsızlık için insan etiketleri yerine yazılı bir anayasaya (constitution) — yani bir dizi ilke ve kurala — başvurmaktır.

Süreç iki aşamalıdır:

  • Denetimli aşama: Model, bir isteme önce cevap üretir; ardından kendi cevabını anayasadaki ilkelere göre eleştirir ve düzeltir. Bu kendi kendine düzeltilmiş, iyileştirilmiş cevaplar üzerinde yeniden ince ayar yapılır.
  • Pekiştirmeli aşama: Model aynı isteme birden çok cevap üretir, hangisinin ilkelerle daha uyumlu olduğunu bir yapay zeka değerlendiricisi seçer. Bu yapay zeka tercihlerinden bir tercih modeli kurulur ve ödül sinyali olarak kullanılır. Anthropic buna RLAIF (Reinforcement Learning from AI Feedback) adını verir.

Çalışmanın ilginç bir bulgusu, ortaya çıkan asistanın "zararsız ama kaçamak olmayan" (harmless but non-evasive) davranmasıdır: sorunlu bir talebi körü körüne reddetmek yerine, neden itiraz ettiğini açıklayarak yanıt verir. Her iki aşamada da zincirleme düşünme (chain-of-thought) kullanımı, kararların hem şeffaflığını hem de kalitesini artırır.

DPO: Ödül Modeli ve RL'yi Tamamen Atlamak

RLHF güçlüdür ama karmaşıktır: ayrı bir ödül modeli eğitmek, pekiştirmeli öğrenme döngüsü kurmak ve kararsız olabilen hiperparametreleri ayarlamak gerekir. 2023'te Rafael Rafailov ve ekibinin yayımladığı "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" çalışması bu karmaşıklığa zarif bir alternatif sundu.

DPO (Direct Preference Optimization, doğrudan tercih optimizasyonu), RLHF'in matematiksel olarak yeniden formüle edilmesine dayanır. Yazarlar, ödül modelinin yeni bir parametrelendirmesiyle, optimal politikanın kapalı bir formda doğrudan çıkarılabileceğini gösterdiler. Pratik sonuç şudur: ayrı bir ödül modeli eğitmeye ve pekiştirmeli öğrenme döngüsüne gerek kalmaz. Bunun yerine, insan tercih çiftleri (tercih edilen ve edilmeyen cevap) üzerinde basit bir sınıflandırma kaybıyla doğrudan dil modeli optimize edilir.

DPO; eğitim sırasında modelden örnekleme yapmayı ve yoğun hiperparametre ayarını ortadan kaldırdığı için kararlı, performanslı ve hesaplama açısından hafiftir. Çalışma, DPO'nun PPO temelli RLHF'in performansını eşleştirebildiğini ya da aştığını, üstelik uygulanmasının çok daha basit olduğunu ortaya koydu. Bu sadelik, DPO ve benzeri "doğrudan hizalama" yöntemlerini açık kaynak topluluğunda hızla yaygın hale getirdi.

Sonuç

Hizalama, bir dil modelini ham bir tahmin makinesinden, insanlara gerçekten yardımcı olan ve değerlerine saygı gösteren bir asistana dönüştüren süreçtir. Yolculuk, insan gösterileriyle yapılan denetimli ince ayar (SFT) ile başlar; insan tercihlerini bir ödül modeline dönüştürüp pekiştirmeli öğrenmeyle (RLHF) ölçeklenir; Constitutional AI ile insan emeğinin bir kısmı yazılı ilkelere ve yapay zeka geri bildirimine devredilir; DPO gibi yöntemlerle de tüm bu mekanizma daha basit ve kararlı bir matematiksel temele oturtulur. Bu tekniklerin her biri kusursuz değildir — ödül modeli aşırı optimizasyonu, Goodhart Yasası'nın hatırlattığı gibi, vekil hedeflere fazla güvenmenin tehlikesini sürekli karşımıza çıkarır. Hizalama bu nedenle çözülmüş bir problem değil, dil modelleri güçlendikçe önemi daha da artan, süregelen bir araştırma alanıdır.