Yapay Zeka Bilgileri: Subquadratic Attention: 12 Milyon Token Bağlam ve LLM Mimarilerinin Geleceği

Mayıs 2026, yapay zeka dünyasında ilginç bir dönemeç noktası oldu. Nisan ayında beş farklı laboratuvar — OpenAI, Anthropic, DeepSeek, Kimi ve Xiaomi — Intelligence Index 50 puan barajını aşarak sınırın çatladığı bir ay yaşanmıştı. GPT-5.5, 60.24 puanla tüm zamanların en yüksek skorunu kaydetti. Claude Opus 4.7, DeepSeek V4 Pro, Kimi K2.6 ve MiMo V2.5 Pro peş peşe geldi. Ancak Mayıs ayında öne çıkan hikaye, yeni bir frontier model değil; tamamen farklı bir mimari yaklaşım ve hesaplama verimliliği oldu.

Bu yazıda, Mayıs 2026'nın en çarpıcı yapay zeka gelişmelerinden birini, Subquadratic şirketinin SubQ modelini ve subquadratic attention mimarisini, GPT-5.5 Instant'ın stratejik varsayılan model değişimini, ZAYA1-8B'nin AMD üzerindeki açık kaynak devrimini ve bunların tüm yapay zeka ekosistemine yönelik etkilerini derinlemesine inceliyoruz.

Subquadratic Attention Nedir ve Neden Önemli?

Standart transformer mimarisinde dikkat mekanizması (attention mechanism), bağlam uzunluğuna göre kuadratik (O(n²)) karmaşıklığa sahiptir. Bağlam penceresini iki katına çıkarmak, hesaplama maliyetini dört katına çıkarır. Bu, uzun bağlam pencerelerine sahip modellerin neden yüksek maliyetli olduğunu ve "1M bağlam" iddialarının genellikle kalite düşüşü gibi sessiz uyarılarla geldiğini açıklar.

Subquadratic attention ise seyrek (sparse) ve alt-kuadratik hesaplama ile bu sınırlamayı ortadan kaldırmayı hedefler. Mamba, RWKV, Hyena ve BASED gibi önceki araştırma çabaları bu yaklaşımı denedi, ancak standart transformerlar karşısında performans platosuna ulaştı. SubQ, bu mimariyi ilk kez ticari bir API arkasında sunarak ve gerçek bir kodlama ürünüyle (SubQ Code) paketleyerek oyunu değiştirdi.

SubQ 1M-Preview: Teknik Özellikler

SubQ 1M-Preview, 5 Mayıs 2026'da 29 milyon dolarlık çekirdek (seed) fonlamayla birlikte duyuruldu. İşte teknik detaylar:

Mimari: Subquadratic sparse attention — standart transformer değil, uçtan uca alt-kuadratik dikkat mekanizması
Bağlam Penceresi: 12 milyon token (yerel, doğal) — bu, mevcut ticari LLM'lerin en büyüğü
Maliyet İddiası: Uzun bağlam iş yüklerinde frontier modellerin yaklaşık 1/5'i
Hız İddiası: Ölçekli dikkat hesaplamada 52 kata kadar daha hızlı (satıcı verisi, bağımsız doğrulama bekleniyor)
Ürünler: API erişimi ve SubQ Code — tüm bağlamı kullanan repo-geneli kodlama ajanı

Uzun Bağlam Penceresinin Pratik Etkileri

12 milyon token bağlam penceresinin ne anlama geldiğini somutlaştırmak gerekirse: Ortalama bir yazılım projesinin tüm kaynak kodunu, belgelerini, test dosyalarını ve yapılandırma dosyalarını tek bir bağlamda işleyebilir. Birden fazla uzun yasal belgeyi, finansal raporu veya araştırma makalesini aynı anda analiz edebilir. Bu, "belge belge gezme" yaklaşımını gereksiz kılan bir kapasite.

Kullanım Senaryoları

Kod Geliştirme: SubQ Code, tüm bir depoyu bağlamına alarak dosyalar arası bağımlılıkları, tutarsızlıkları ve iyileştirme fırsatlarını tek bir sorguda tespit edebilir. Mevcut kod ajanları genellikle 200K-1M token ile sınırlıyken, SubQ büyük monorepo'ları bile tek seferde işleyebilir.

Çoklu Belge Analizi: Hukuk firmaları, denetim şirketleri ve araştırma kurumları için yüzlerce sayfalık belge setlerini karşılaştırmalı analiz etme kapasitesi kritik bir avantaj.

Araştırma Sentezi: Akademik çalışmalarda, onlarca makaleyi aynı anda bağlamda tutarak çapraz referanslar ve sentezler oluşturabilme yeteneği.

SubQ ile İlgili Dikkat Edilmesi Gereken Uyarılar

SubQ'nun potansiyeli heyecan verici olsa da, bağımsız doğrulama bekleyen kritik sorular var:

Satıcı Verisi: 52x hız ve 1/5 maliyet iddiaları henüz bağımsız testlerle doğrulanmadı. MRCR, RULER ve gerçek dünya uzun bağlam görevlerinde üçüncü parti değerlendirmeleri bekleniyor.
Araştırma Geçmişi: Subquadratic attention araştırma alanı yeni değil. Mamba, RWKV ve benzeri girişimler vaat ettikleri potansiyeli frontier transformerlar karşısında gösteremedi. SubQ'nun bu platonun ötesine geçip geçemeyeceği kritik soru.
Paketleme Yeniliği: SubQ'nun gerçek yeniliği, alt-kuadratik dikkat mekanizmasını ilk kez bir API arkasında, ücretli bir ürün olarak ve çalışan bir kodlama aracıyla sunması. Bu tek başına takip edilmeye değer.

Eğer SubQ, 200K ile 1M token arasındaki gerçek dünya iş yüklerinde GPT-5.5 veya Opus 4.7 karşısında dayanıklılığını kanıtlarsa, mimari hikaye bir araştırma yan konusundan bir deployment hikayesine dönüşür.

GPT-5.5 Instant: Sessiz ama Stratejik Varsayılan Değişimi

5 Mayıs'ta OpenAI, ChatGPT'nin hem ücretsiz hem ücretli katmanlarında varsayılan modeli GPT-5.3 Instant'tan GPT-5.5 Instant'a değiştirdi. Bu, bir frontier lansman değil; ancak sonuçları frontier lansmanlardan daha geniş kapsamlı olabilir.

Neden Varsayılan Model Değişimi Çok Önemli?

ChatGPT varsayılan modeli, dünya genelinde en çok kullanılan LLM. OpenAI varsayılanı değiştirdiğinde, yüz milyonlarca insanın aldığı medyan yanıt kalitesi bir gecede değişir. OpenAI'nin başlık iyileştirmesi olarak "daha yüksek akıl yürütme skorları" yerine "düzenlenmiş alanlarda daha az halüsinasyon" (hukuk, tıp, finans) seçmesi anlamlı.

Bu, OpenAI'nin bir sonraki rekabet turunun neyle oynandığını düşündüğünü gösteren bir ipucu. Yarış, daha yüksek bir GPQA skoruyla değil, bir hukuk sorusuna verilen kendinden emin yanlış yanıtın platforma neye mal olacağıyla ilgili.

Güvenlik Odaklı Rekabet

Yüksek riskli alanlarda halüsinasyonların azaltılması, düzenleyici baskıların arttığı bir dönemde stratejik bir adım. AB Yapay Zeka Yasası (AI Act) ve benzeri düzenlemeler, yüksek riskli AI sistemlerinde doğruluk ve güvenilirliği zorunlu kılıyor. OpenAI'nin bu hamlesi, regülasyon öncesi kendini konumlandırma olarak da okunabilir.

ZAYA1-8B: AMD Üzerinde Açık Kaynak MoE Devrimi

6-7 Mayıs'ta Zyphra, ZAYA1-8B'yi Apache 2.0 lisansı altında yayımladı. 8 milyar toplam parametre, token başına yaklaşık 760 milyon aktif parametre (MoE yönlendirmesiyle). Bu küçük boyutuna rağmen iki nedenden dolayı beklenenden çok daha önemli:

AMD Eğitim Yığınını Kanıtlaması

ZAYA1, uçtan uca AMD Instinct donanımında eğitildi. Taşınmadı, ince ayarlanmadı; sıfırdan AMD üzerinde eğitildi. 2026'daki diğer tüm önemli açık ağırlıklı sürümler ya NVIDIA (neredeyse herkes) ya da Huawei Ascend (DeepSeek V4) üzerinde eğitildi. AMD bir yıldır sessiz üçüncü seçenek olmuştu. ZAYA1, uçtan uca AMD yolunu gerçekten gösteren ilk akıl yürütme odaklı açık yayınlama.

Zeka Yoğunluğu

Token başına 760 milyon aktif parametre, çok küçük. Karşılaştırma yaparsak: GLM-5.1 40 milyar, Kimi K2.6 yaklaşık 32 milyar, DeepSeek V4 Pro yaklaşık 37 milyar aktif parametre çalıştırıyor. Zyphra, ZAYA1-8B'nin çok daha büyük açık ağırlıklı modellerle akıl yürütme, matematik ve kodlama kıyaslamalarında rekabet ettiğini raporluyor. Bu sayılar bağımsız çalışmalarda tutarsa, mevcut en güçlü maliyet-başına-token açık modellerinden biri.

Mayıs 2026'da Diğer Önemli Gelişmeler

Grok 4.3

6 Mayıs'ta xAI, Grok 4.3'ü yayımladı. X platformu ve xAI API üzerinden erişilebilen model, Nisan ayındaki yoğun sürüm trafiğinin ardından xAI'nin konumunu sağlamlaştıran bir güncelleme.

Gemini 3.1 Flash Lite

8 Mayıs'ta Google, Gemini 3.1 Flash Lite'ı Gateway'ler üzerinden sunmaya başladı. Milyon giriş token başına 0.25 dolar fiyatıyla, mevcut en uygun maliyetli modellerden biri. Bu, çıkarım maliyetinin kapasite artışından daha hızlı çöktüğünün bir başka kanıtı.

Anthropic'in Altyapı Hamlesi

Anthropic, Mayıs ilk haftasında yapay zekanın 2026'nın tek en yoğun haftasını yaşadı: SpaceX Colossus 1 süper bilgisayarı anlaşması (220.000'den fazla NVIDIA GPU, 300MW güç), tüm ücretli planlar için Claude Code hız sınırlarının iki katına çıkarılması, Claude Agent SDK'nın tüm harici geliştiricilere açılması ve JPMorgan ile 10 finansal hizmetler ajanının başlatılması. Q1 gelirinin yıldan yıla 80 kat büyüdüğü ve yıllık yinelenen gelirin 44 milyar doların üzerine çıktığı açıklandı.

Çıkarım Maliyeti Çöküyor: Stratejik Etkiler

Mayıs 2026'da en net trend, çıkarım maliyetinin hızla çökmesi. Gemini 3.1 Flash Lite milyon giriş token başına 0.25 dolar. DeepSeek V4, 1 milyon token bağlam penceresiyle milyon giriş token başına 0.27 dolar. Dört Çinli açık ağırlıklı model, Claude Opus 4.7'nin üçte birinden fazlasına mal olmadan Batılı frontier kapasitesini yakaladı.

Bu trendin stratejik etkileri:

Fiyat Baskısı: Frontier olmayan görevler için frontier fiyatları ödemek artık aşırı ödeme yapmak anlamına geliyor.
Rekabet Avantajı: Maliyet-verimli modeller, özellikle gelişmekte olan pazarlarda ve yüksek hacimli uygulamalarda hızla pazar payı kazanıyor.
Mimari Çeşitlilik: SubQ'nun alt-kuadratik yaklaşımı ve ZAYA1'in MoE verimliliği, tek bir mimarinin baskın olmadığını gösteriyor.

Hesaplama Gücü Yeni Set

Anthropic'in altyapı atağı — SpaceX Colossus 1 (300MW, şu an aktif), Amazon ile 5GW, Google ve Broadcom ile 5GW, 30 milyar dolar Azure kapasitesi, Fluidstack ile 50 milyar dolar — hesaplama gücünün kimin önce kilitlediğinin, bir sonraki model neslinin ne yapabileceğini belirleyeceği sinyalini veriyor.

Colossus 1 anlaşması, en hızlı devreye giren ve en doğrudan kullanıcı etkisi olan hamleydi: ilk günden itibaren Claude Code hız sınırları iki katına çıktı. Bu, hesaplamanın sadece eğitim değil, kullanıcı deneyimi için de ne kadar kritik olduğunu gösteriyor.

Regülasyon Çerçevesi Şekilleniyor

ABD Ticaret Bakanlığı'nın CAISI (Center for AI Safety and Innovation) birimi artık Google DeepMind, Microsoft, xAI, OpenAI ve Anthropic ile değerlendirme anlaşmalarına sahip. Frontier modellerin dağıtım öncesi hükümet değerlendirmesi, federal sözleşme almak isteyen laboratuvarlar için artık isteğe bağlı değil.

Türkiye ve benzer gelişmekte olan pazarlar için bu, uzun tedarik süreleri ve uyumluluk maliyetleri anlamına gelebilir. Ancak aynı zamanda, düzenlemeye uyum sağlayan modellerin güvenilirlik sertifikası elde edeceği bir ortam da yaratıyor.

Geleceğe Bakış: Mimari Çeşitlilik Çağı

Mayıs 2026, yapay zeka mimarisinde tek bir baskın yaklaşımın olmadığını netleştirdi. Standart transformerlar (GPT-5.5, Claude Opus 4.7), subquadratic attention (SubQ), MoE verimliliği (ZAYA1-8B, DeepSeek V4) ve hibrit yaklaşımlar (Gemini 3.1) hepsi aynı anda gelişiyor.

Bu çeşitlilik, yapay zeka uygulamaları geliştirenler için hem fırsat hem zorluk:

Fırsat: Görevinize özel en uygun mimariyi seçebilirsiniz. Uzun bağlam gerektiren işler için SubQ, günlük görevler için GPT-5.5 Instant, açık kaynak ihtiyaçları için ZAYA1-8B.
Zorluk: Her mimarinin güçlü ve zayıf yönlerini anlamak, doğru modeli doğru görevle eşleştirmek giderek karmaşıklaşıyor.

Intelligence Index tavanı Nisan'dan beri (GPT-5.5 xhigh, 60.24) değişmedi. Yeni frontier lansmanlar muhtemelen yaz aylarında gelecek. Ancak Mayıs 2026, "daha akıllı" yarışının yanına "daha verimli" ve "daha güvenilir" yarışlarının eklendiğini gösterdi. Belki de bu, uzun vadede daha dönüşümsel olacak.

Sonuç

Mayıs 2026, yapay zeka dünyasında frontier modellerin soluğu kesilse de, mimari yenilik ve verimliliğin ön plana çıktığı bir ay oldu. SubQ'nun 12 milyon token bağlam penceresi ve subquadratic attention mimarisi, çıkarım maliyetinin uzun bağlam işlerinde nasıl dramatik biçimde düşürülebileceğini gösteriyor. GPT-5.5 Instant'ın varsayılan model olarak değiştirilmesi, yüz milyonlarca kullanıcı için medyan AI deneyimini bir gecede dönüştürdü. ZAYA1-8B, AMD donanımında eğitilmiş açık kaynak MoE modeliyle donanım çeşitliliğinin mümkün olduğunu kanıtladı.

Bunlar birlikte şunu gösteriyor: Yapay zekanın bir sonraki aşaması sadece "daha büyük ve daha akıllı" modellerle değil, "daha verimli, daha güvenilir ve daha erişilebilir" modellerle şekillenecek. Frontier model lansmanları yaz aylarında devam edecek, ancak mimari çeşitlilik ve maliyet verimliliği trendleri, yapay zeka ekosisteminin yapısal dönüşümünün kalıcı izleri olarak kalmaya aday.

Subquadratic Attention: 12 Milyon Token Bağlam ve LLM Mimarilerinin Geleceği