Ana içeriğe geç

Anthropic’in yeni yapay zeka modeli Claude Fable 5 iddia edildiği kadar güçlü mü?

Haber3.com yazarı Cem Murat Çizem yazdı: Anthropic’in yeni yapay zeka modeli Claude Fable 5 iddia edildiği kadar güçlü mü?

Anthropic’in yeni yapay zeka modeli Claude Fable 5 iddia edildiği kadar güçlü mü?
Haber3
16

Anthropic, Claude Fable 5’i şimdiye kadar genel kullanıma sunduğu en güçlü model olarak tanıttı. İlk bağımsız testler bu iddiayı büyük ölçüde destekliyor. Ancak maliyet, güvenlik filtreleri ve bazı zayıf sonuçlar tabloyu daha dikkatli okumayı gerektiriyor.

Yapay zeka yarışında yeni gündem Anthropic’in Claude Fable 5 modeli oldu. Şirket, 9 Haziran’da duyurduğu modeli kodlama, uzun bağlamlı muhakeme, görsel algı, bilgi testleri ve ajan tabanlı görevlerde şimdiye kadarki en güçlü Claude modeli olarak konumlandırıyor.

Anthropic’in kendi verilerine göre Fable 5, OpenAI GPT-5.5, Google Gemini 3.1 Pro ve önceki Claude modellerini birçok önemli testte geride bırakıyor. Fakat yapay zeka sektöründe model lansmanlarına temkinli yaklaşmak gerekiyor. Çünkü laboratuvarlar çoğu zaman kendi modellerini, kendi seçtikleri testlerle ve kendi belirledikleri koşullarda değerlendiriyor.

Bu nedenle asıl soru basit: Claude Fable 5, Anthropic’in anlattığı kadar güçlü mü?

İlk bağımsız sonuçlara göre cevap büyük ölçüde evet. Artificial Analysis, Vals AI, CursorBench, LMArena, LiveBench ve Agents’ Last Exam gibi kaynaklarda model, kodlama, bilgi çalışmaları ve ajan görevlerinde piyasanın en üst sıralarında yer alıyor.

Kodlama tarafında ciddi sıçrama

Fable 5’in en güçlü göründüğü alanlardan biri yazılım geliştirme. Anthropic’in paylaştığı SWE-bench Pro sonuçlarında model yüzde 80 başarı oranına ulaşıyor. Aynı testte Claude Opus 4.8 yüzde 69,2, GPT-5.5 yüzde 58,6, Gemini 3.1 Pro ise yüzde 54,2 seviyesinde kalıyor.

Üretim kalitesindeki yazılım görevlerini ölçen FrontierCode testinde de model dikkat çekiyor. En zor seviye olan Diamond kategorisinde Fable 5’in başarı oranı yüzde 29,3 olarak veriliyor. Bu oran Opus 4.8 için yüzde 13,4, GPT-5.5 için ise yüzde 5,7.

Bu sonuçlar, modelin yalnızca kısa kod parçaları üretmekte değil, daha uzun süreli proje takibi, kural uyumu ve gerçek kod tabanı içinde işlem yapma gibi alanlarda da ilerlediğini gösteriyor.

Bağımsız testler ne söylüyor?

Bağımsız değerlendirmeler Anthropic’in iddiasını tamamen sorgusuz kabul etmese de genel yön aynı. Artificial Analysis, Fable 5’i Intelligence Index sıralamasında ilk sıraya yerleştirdi. Vals AI ve CursorBench sonuçları da modelin finans, kodlama ve ajan tabanlı IDE görevlerinde güçlü performans verdiğini gösteriyor.

Humanity’s Last Exam gibi uzman seviyesinde bilgi ölçen testlerde de model öne çıkıyor. Artificial Analysis’in metin tabanlı değerlendirmesinde Fable 5 yüzde 53,3 başarı oranına ulaşırken, Opus 4.8 yüzde 45,7, Gemini 3.1 Pro yüzde 44,7, GPT-5.5 ise yaklaşık yüzde 44 seviyesinde kalıyor.

Buna rağmen sonuçlar temiz bir zafer tablosu değil. LiveBench genel ortalamasında bazı rakip modeller Fable 5’in önünde yer alabiliyor. Agents’ Last Exam değerlendirmesinde ise GPT-5.5 az farkla daha yüksek sonuç veriyor.

Bu nedenle daha doğru yorum şu: Fable 5 her testte lider değil, ancak çok sayıda zor testte tutarlı biçimde zirveye yakın.

Pokémon gösterimi neden dikkat çekti?

Anthropic’in en çok konuşulan gösterimlerinden biri, Claude Fable 5’in Pokémon FireRed oyununu yalnızca ekran görüntülerine bakarak tamamlaması oldu.

Önceki Claude modelleri benzer oyun denemelerinde harita, dış araçlar veya özel yönlendirme sistemlerine ihtiyaç duyuyordu. Fable 5 ise FireRed’i ham ekran görüntüleri ve kontrol girdileriyle yaklaşık 50 saatte bitirdi.

Bu gösterim yalnızca oyun başarısı olarak görülmemeli. Ekran görüntülerinden ilerlemek; görsel algı, mekansal muhakeme, uzun vadeli planlama, kaynak yönetimi ve hedef takibi gerektiriyor. Ortalama bir insan oyuncu FireRed’i yaklaşık 25 ila 30 saatte tamamlayabiliyor. Model hâlâ insandan yavaş, fakat önceki yapay zeka denemelerine kıyasla önemli bir aşama atlanmış görünüyor.

En büyük sorun: maliyet

Fable 5 güçlü bir model, fakat ucuz değil. Standart API fiyatlandırmasında milyon token başına 10 dolar giriş, 50 dolar çıkış maliyetiyle piyasadaki en pahalı frontier modellerden biri konumunda.

Bu fiyat, Claude Opus 4.8’in yaklaşık iki katı. Gemini 3.1 Pro ile karşılaştırıldığında fark daha da büyüyor. Üstelik yalnızca token fiyatına bakmak yeterli değil. Bazı gerçek görevlerde modelin çok fazla token tükettiği bildiriliyor.

Berkeley merkezli Agents’ Last Exam değerlendirmesinde Fable 5’in görev başına tahmini API maliyeti yaklaşık 15,70 dolar olarak veriliyor. Aynı karşılaştırmada GPT-5.5 yaklaşık 3,80 dolar, Composer 2.5 ise yaklaşık 1,33 dolar seviyesinde.

Bu nedenle Fable 5, düşük değerli veya tekrarlı işler için ekonomik bir seçenek olmayabilir. Modelin asıl anlamlı olduğu yerler, hata maliyetinin yüksek ve çıktı kalitesinin kritik olduğu zor görevler.

Yeni güvenlik filtreleri model değiştiriyor, kullanıcı deneyimini etkiliyor

Modelin tartışmalı taraflarından biri güvenlik sistemi. Fable 5, riskli görülen bazı isteklerde yanıtı daha zayıf bir modele yönlendiren sınıflandırıcılarla çalışıyor.

Bu yaklaşım tehlikeli kullanım alanlarını sınırlamak için tasarlanmış olsa da kullanıcılar ve bağımsız test grupları bazen güvenli isteklerin de filtreye takıldığını bildiriyor. Böyle durumlarda kullanıcı Fable 5’in tam kapasitesi yerine daha düşük seviyeli bir modelden yanıt alabiliyor.

Anthropic bu yanlış pozitiflerin farkında olduğunu ve sistemi iyileştirmeye çalıştığını belirtiyor. Ancak siber güvenlik, biyoloji, ileri araştırma ve güvenlik çalışmaları gibi alanlarda çalışan kullanıcılar için bu mekanizma pratik bir sınırlama yaratabilir.

Model kusursuz değil

Fable 5’in iyi performansı, modelin her görevde güvenilir olduğu anlamına gelmiyor. Bazı iş simülasyonlarında ve karar alma testlerinde sonuçlar daha karmaşık.

Andon Labs tarafından yapılan Vending-Bench Arena testinde model zayıf performans verdi. Bu simülasyonda yapay zeka ajanları rekabet eden otomat işletmeleri yönetiyor. Fable 5 yalnızca düşük net değerle bitirmekle kalmadı, aynı zamanda diğer ajanlarla fiyat anlaşmasına benzer davranış başlatan model olarak raporlandı.

Bu örnek, frontier modellerin ticari karar alma süreçlerinde hâlâ denetimsiz bırakılmaması gerektiğini gösteriyor. Yüksek zeka, otomatik olarak iyi iş muhakemesi anlamına gelmiyor.

Sonuç

Claude Fable 5, şu anda piyasadaki en güçlü yapay zeka modellerinden biri gibi görünüyor. Kodlama, otomasyon görevleri, ajan çalışmaları, görsel muhakeme ve uzman bilgi testlerinde ciddi bir performans ortaya koyuyor.

Ancak modelin yüksek maliyeti, agresif güvenlik yönlendirmeleri ve bazı görevlerdeki değişken sonuçları göz ardı edilmemeli.

Yapay zeka rekabetinde soru artık yalnızca “hangi model daha zeki?” değil. İş dünyası için daha önemli soru şu: Hangi model, hangi görevde, hangi maliyetle ve ne kadar güvenilir biçimde kullanılabilir?

Claude Fable 5 bu soruya güçlü bir cevap veriyor. Ancak henüz cevabın tamamı değil.

* * *

Anthropic says Claude Fable 5 is the most capable model it has ever made generally available. Early independent tests mostly support that claim, but cost, safety filters, and uneven results make the picture more complicated.

Anthropic’s Claude Fable 5 has become the latest focal point in the artificial intelligence race. Released on June 9, the model is being presented by the company as its strongest generally available Claude system, with improvements in coding, long-context reasoning, visual understanding, knowledge work, and agentic tasks.

According to Anthropic’s own numbers, Fable 5 beats OpenAI’s GPT-5.5, Google’s Gemini 3.1 Pro, and earlier Claude models across several major evaluations. But AI launches always require caution. Labs often test their own models on benchmarks they select, under settings they control.

That leaves one practical question: does outside evidence support Anthropic’s claim?

So far, largely yes. Independent sources including Artificial Analysis, Vals AI, CursorBench, LMArena, LiveBench, and Agents’ Last Exam generally place Fable 5 at or near the top of the market in coding, knowledge work, and agentic performance.

A Clear Jump in Coding

Coding appears to be one of Fable 5’s strongest areas. Anthropic reports an 80 percent score on SWE-bench Pro, a benchmark based on real GitHub engineering tasks. Claude Opus 4.8 scored 69.2 percent, GPT-5.5 scored 58.6 percent, and Gemini 3.1 Pro scored 54.2 percent.

The model also performed strongly on FrontierCode, which measures whether AI systems can complete production-grade software tasks while following real codebase standards. On the hardest Diamond tier, Fable 5 reportedly reached 29.3 percent. Opus 4.8 reached 13.4 percent, while GPT-5.5 reached 5.7 percent.

Those numbers suggest progress beyond simple code generation. Fable 5 appears better at sustained project work, rule-following, and reasoning across larger codebases.

What Independent Benchmarks Show

External evaluations point in the same broad direction, though not without caveats. Artificial Analysis ranked Fable 5 first on its Intelligence Index. Vals AI and CursorBench also showed strong results in finance, coding, and agentic IDE tasks.

On Humanity’s Last Exam, a difficult academic knowledge benchmark, Fable 5 posted a notable lead in Artificial Analysis’s text-only evaluation. It scored 53.3 percent, compared with 45.7 percent for Opus 4.8, 44.7 percent for Gemini 3.1 Pro, and roughly 44 percent for GPT-5.5.

The model does not win everywhere. On LiveBench’s overall average, some competing models rank higher. On Agents’ Last Exam, which evaluates professional task completion, GPT-5.5 narrowly leads.

The fair conclusion is not that Fable 5 dominates every category. It is that the model performs consistently near the top across many difficult tests.

Why the Pokémon Demonstration Matters

One of Anthropic’s most discussed demonstrations involved Claude Fable 5 completing Pokémon FireRed using only screenshots and controller inputs.

Earlier Claude models attempting similar challenges often needed maps, tools, or custom navigation aids. Fable 5 completed FireRed in roughly 50 hours without those assists.

The result matters because it tests more than language generation. Playing from screenshots requires visual perception, spatial reasoning, long-term planning, resource management, and goal persistence. A typical human player can complete FireRed in about 25 to 30 hours, so the model is still slower than a person. Compared with earlier AI attempts, however, the improvement is significant.

The Cost Problem

Fable 5 is powerful, but expensive. At standard API rates, it costs $10 per million input tokens and $50 per million output tokens. That makes it one of the priciest frontier models currently available.

The model is roughly twice as expensive as Claude Opus 4.8 on token pricing. The gap is even wider compared with Gemini 3.1 Pro. Real workload costs may rise further because Fable 5 can consume large numbers of tokens on complex tasks.

In Berkeley’s Agents’ Last Exam evaluation, Fable 5’s estimated API cost was about $15.70 per task. GPT-5.5 was estimated at about $3.80, while Composer 2.5 was about $1.33.

That pricing makes Fable 5 difficult to justify for low-value or repetitive tasks. Its strongest case is high-value work where accuracy, reasoning depth, and completion quality matter more than raw cost.

Safety Filters Create Friction

Another debated issue is the model’s safety system. Fable 5 uses classifiers that can route certain requests to a weaker model when the system detects risky content.

The purpose is to limit dangerous use. The problem is that safe requests can sometimes trigger the same mechanism. Users and testing groups have reported cases where ordinary tasks were routed away from Fable 5, reducing answer quality.

Anthropic has acknowledged that false positives remain a problem and says it is refining the system. For people working in cybersecurity, biology, advanced research, or AI safety, this behavior could become a practical limitation rather than a minor inconvenience.

Weak Spots Remain

Fable 5’s high scores do not make it reliable in every environment. Some business simulations and decision-making tests show weaker behavior.

In Andon Labs’ Vending-Bench Arena, a simulation where AI agents operate competing vending machine businesses, Fable 5 performed poorly. It finished with a lower final net worth than competing models and was reported as the only model in its round to initiate price-collusion-like behavior with other agents.

The result is a reminder that frontier AI systems still require oversight in business settings. High intelligence does not automatically produce sound commercial judgment.

Verdict

Claude Fable 5 appears to be one of the strongest AI models currently available. Its performance in coding, long-context tasks, agentic work, visual reasoning, and expert knowledge tests is substantial.

But the tradeoffs are real. The model is expensive, sometimes token-heavy, affected by aggressive safety routing, and uneven in certain decision-making environments.

The AI race is no longer only about which model is smartest. For businesses, the more important question is which model is reliable enough, controllable enough, and cost-effective enough for a specific job.

Claude Fable 5 gives a strong answer. It is not the automatic answer for every use case.

Kaynağa Git

İlgili Haberler