Yapay Zeka Bilgileri: Büyük Yapay Zeka Modellerini Eğitmek Neden Bu Kadar Pahalı?

GPT-4 gibi bir modelin eğitimi için harcanan paranın orta ölçekli bir holdingin yıllık bütçesine yaklaştığını duyduğunuzda, ilk tepki genellikle inanmamak oluyor. Oysa rakamlar gerçek ve doğrulanabilir. Stanford'un 2024 AI Index raporuna göre OpenAI'nin GPT-4'ünün eğitiminde kullanılan hesaplama gücünün maliyeti tahminen 78 milyon dolar, Google'ın Gemini Ultra modelinde ise yaklaşık 191 milyon dolar civarındaydı. Peki bir yazılım parçasını "eğitmek" nasıl oluyor da bir gökdelen inşa etmekle yarışan bir maliyet üretiyor? Bu yazıda işin mühendisliğine inip her bir maliyet kalemini tek tek açacağız.

Önce Birim Sorunu: FLOP Nedir?

Bir modeli eğitmenin maliyetini anlamak için önce işin ölçü birimini tanımak gerekir. FLOP, "floating point operation" yani kayan noktalı işlem demektir; toplama ya da çarpma gibi tek bir aritmetik işlemi ifade eder. Bir sinir ağını eğitmek, devasa sayıda matris çarpımından ibarettir ve bu çarpımlar milyarlarca, hatta katrilyonlarca FLOP'a karşılık gelir.

Bir modelin toplam eğitim hesabını kabaca tahmin etmek için sektörde sık kullanılan bir kestirme formül vardır: C ≈ 6 × N × D. Burada N modelin parametre sayısı, D ise eğitimde işlenen token (kelime parçası) sayısıdır. "6" katsayısı, her bir parametre için ileri ve geri yayılımda gereken işlem sayısının yaklaşık değeridir. Bu formül neden önemli? Çünkü maliyetin neden bu kadar hızlı tırmandığını tek bakışta gösterir: hem parametre sayısını hem de veri miktarını büyüttüğünüzde, hesaplama yükü bunların çarpımı kadar artar. İki katına çıkan parametre ile iki katına çıkan veri, dört katı hesaplama anlamına gelir.

Ölçeğin geldiği noktayı somutlaştıralım. Stanford AI Index'in derlediği tahminlere göre 2017'deki orijinal Transformer modeli yaklaşık 7.400 petaFLOP'luk bir eğitim gerektirirken, Gemini Ultra'nın eğitimi yaklaşık 50 milyar petaFLOP tüketti. Bu, sadece altı yılda neredeyse 7.000 kata yakın bir artış demek.

Donanım: GPU ve TPU Ordusu

Bu katrilyonlarca işlemi yapacak makineler bedava değil. Modern büyük modeller, binlerce özel hızlandırıcı çip üzerinde aylarca süren koşularla eğitilir. Bunlar genellikle NVIDIA'nın grafik işlemcileri (GPU) veya Google'ın kendi geliştirdiği tensor işlem birimleridir (TPU). Tek bir üst düzey veri merkezi GPU'sunun fiyatı on binlerce dolar seviyesindedir ve bir eğitim kümesi (cluster) bu çiplerin binlercesini barındırır.

Ancak maliyet sadece çiplerin etiket fiyatından ibaret değil. Epoch AI'nin frontier modellerin maliyetini inceleyen analizine göre, GPT-4 ve Gemini Ultra gibi modellerde toplam geliştirme maliyetinin yapısı şöyle dağılıyor:

Donanım (çipler, sunucular, ara bağlantı): maliyetin yaklaşık %47 ila %67'si
Ar-Ge personeli: yaklaşık %29 ila %49'u
Enerji: yaklaşık %2 ila %6'sı

Buradaki en sezgiye aykırı nokta şu: enerji, çoğu kişinin sandığının aksine maliyetin küçük bir dilimini oluşturuyor. Asıl yük, donanımın amortismanı (binlerce çipin bir eğitim koşusundaki yıpranma payı) ve bu sistemi tasarlayıp çalıştıran yüksek maaşlı araştırmacı kadrosunda. Çipleri birbirine bağlayan yüksek hızlı ara bağlantı (interconnect) altyapısı da hafife alınmaması gereken bir kalem; çünkü binlerce çip aynı modeli eğitirken aralarında saniyede terabaytlarca veri akıtmak zorunda.

Veri ve Enerji

Modelin yakıtı veridir. Büyük dil modelleri, internetin büyük bir kısmını, kitapları, kod depolarını ve akademik metinleri kapsayan, trilyonlarca token'lık derlemler üzerinde eğitilir. Bu veriyi toplamak, temizlemek, filtrelemek ve etiketlemek başlı başına ciddi bir emek ve para gerektirir; kalitesiz veri, en pahalı donanımı bile boşa harcatır.

Enerji tarafına gelince: tek bir eğitim koşusunun maliyet payı küçük görünse de, mutlak güç tüketimi şaşırtıcıdır. Epoch AI'nin verdiği tahmine göre Gemini Ultra'nın eğitimi sırasında yaklaşık 35 megavatlık bir elektrik kapasitesi gerekti. Epoch AI'nin ayrı bir analizi, frontier eğitim koşullarının güç talebinin tarihsel olarak yılda yaklaşık 2,2 kat arttığını ve en büyük koşuların artık 100 megavatı aştığını gösteriyor; bu, orta ölçekli bir elektrik santralinin ürettiği güce denk geliyor. Maliyet dağılımında küçük görünmesinin nedeni, donanım ve personel kalemlerinin orantısız büyüklüğüdür, enerjinin önemsizliği değil.

Ölçeklendirme Yasaları: Pahalılığın Matematiği

Şirketler bu kadar parayı neden gönül rahatlığıyla harcıyor? Çünkü performansın ölçekle nasıl iyileştiği şaşırtıcı derecede öngörülebilir. 2020'de OpenAI'den Jared Kaplan ve ekibinin yayımladığı çalışma, dil modeli kaybının (loss) model boyutu, veri miktarı ve hesaplama gücüyle bir güç yasası (power law) ilişkisinde azaldığını gösterdi. Bu eğilim yedi büyüklük mertebesini aşan bir aralıkta tutarlıydı. Yani daha fazla hesaplama dökerseniz, modelin ne kadar iyileşeceğini önceden kestirebiliyorsunuz. Bu, yatırımı rasyonel kılan şeydir.

Chinchilla ve Dengenin Yeniden Kurulması

2022'de DeepMind'ın "Training Compute-Optimal Large Language Models" başlıklı çalışması bu tabloyu önemli ölçüde rafine etti. Araştırmacılar, 70 milyon ile 16 milyardan fazla parametre arasında değişen ve 5 ila 500 milyar token üzerinde eğitilen 400'den fazla model eğiterek çarpıcı bir sonuca vardı: o güne dek eğitilen dev modeller aslında veri açısından yetersiz besleniyordu. Buldukları kural şuydu: hesaplama-optimal eğitimde model boyutu ile token sayısı eşit oranda ölçeklenmeli; modeli iki katına çıkarıyorsanız veriyi de iki katına çıkarmalısınız.

Bunu kanıtlamak için Gopher (280 milyar parametre) ile aynı hesaplama bütçesini kullanan ama 70 milyar parametre ve 4 kat daha fazla veriyle eğitilen Chinchilla modelini ürettiler. Sonuç: daha küçük olan Chinchilla, Gopher'ı, GPT-3'ü (175B) ve diğerlerini geniş bir test yelpazesinde tutarlı biçimde geride bıraktı. Chinchilla'nın 70 milyar parametreye karşılık yaklaşık 1,4 trilyon token ile eğitilmesi, sektörde "parametre başına yaklaşık 20 token" diye anılan pratik kuralın temelini attı. Bunun maliyet açısından sonucu nettir: en iyi performans illa en büyük modelde değil, hesaplama bütçesini parametre ve veri arasında doğru paylaştıran modelde gizlidir.

Faturanın İkinci Yarısı: Çıkarım (Inference) Maliyeti

Buraya kadar hep eğitimden bahsettik, ama hikayenin sık atlanan yarısı çıkarım yani modeli kullanıma sunma aşamasıdır. Eğitim tek seferlik (ama çok büyük) bir yatırımdır; çıkarım ise model her yanıt ürettiğinde tekrar tekrar ödenen bir maliyettir. Yüz milyonlarca kullanıcı bir modele her gün milyarlarca soru sorduğunda, bu küçük birim maliyetler toplamda eğitim maliyetini gölgede bırakabilir.

İşte Chinchilla'nın bulgusunun ekonomik dehası tam da burada ortaya çıkıyor. DeepMind ekibi, daha küçük ama daha çok veriyle eğitilmiş bir modelin yalnızca daha ucuza eğitilmediğini, aynı zamanda çıkarım sırasında da kalıcı olarak daha az kaynak harcadığını vurguladı. Bir modeli milyonlarca kez çalıştıracaksanız, onu baştan biraz daha küçük ve verimli tasarlamak, ömür boyu süren bir tasarruf sağlar. Bu yüzden bugün sektör, sadece "en büyük modeli" kovalamak yerine, dağıtım ekonomisini de gözeten daha dengeli mimarilere yöneliyor.

Eğilim Nereye Gidiyor?

Maliyet eğrisi dik bir yokuş. Epoch AI'nin analizine göre frontier modellerin nihai eğitim koşusunun amortize donanım ve enerji maliyeti 2016'dan bu yana yılda yaklaşık 2,4 kat artıyor; eğitim için kullanılan hesaplama ise yılda 4-5 kat büyüyor. Bu iki oran arasındaki fark, donanım verimliliğindeki iyileşmeler ve eğitim sürelerinin uzamasıyla açıklanıyor. Aynı analizin projeksiyonu net bir uyarı içeriyor: bu hızla en büyük eğitim koşuları 2027'ye kadar bir milyar doları aşabilir.

Sonuç

Büyük yapay zeka modellerini eğitmek pahalıdır, çünkü tek bir maliyet kalemi değil, birbirini büyüten bir zincir söz konusudur: katrilyonlarca FLOP'luk hesaplama, bunu yapacak binlerce pahalı çip, onları besleyecek trilyonlarca token'lık veri, megavatlarca enerji ve tüm bunları tasarlayan yüksek nitelikli kadro. Ölçeklendirme yasaları bu yatırımı rasyonel kılar, çünkü performansın nasıl artacağını öngörülebilir hale getirir; Chinchilla gibi çalışmalar ise bütçeyi doğru bölüştürmenin hem eğitimde hem de çıkarımda paradan tasarruf ettirdiğini gösterir. Maliyet birkaç yıldır her yıl ikiye-üçe katlanarak büyüyor ve bu, frontier yapay zekayı giderek yalnızca en sermayeli kuruluşların oynayabildiği bir oyuna dönüştürüyor.

Kaynaklar ve İleri Okuma

Bu yazıdaki bilgiler aşağıdaki birincil ve kurumsal kaynaklara dayanmaktadır:

Büyük Yapay Zeka Modellerini Eğitmek Neden Bu Kadar Pahalı?

Önce Birim Sorunu: FLOP Nedir?

Donanım: GPU ve TPU Ordusu

Veri ve Enerji

Ölçeklendirme Yasaları: Pahalılığın Matematiği

Chinchilla ve Dengenin Yeniden Kurulması

Faturanın İkinci Yarısı: Çıkarım (Inference) Maliyeti

Eğilim Nereye Gidiyor?

Sonuç

Kaynaklar ve İleri Okuma

İlgili Analizler

Hukukta Yapay Zeka: Düzenlemelerden Yargı Otomasyonuna

AI Alignment ve Değer Hizalaması: Modelleri İnsan Değerlerine Uyarlama

Sağlıkta Yapay Zeka: Tanıdan Tedaviye Tıpta Dönüşüm