Ankara24.com
close
up
Menu

Ferhat Aydoğan ve yanındaki 6 şüpheli gözaltına alındı

FransaI Irak karşılaşması tam 3 saat 50 dakika sürdü! İşte yaşananlar

İşgalciler Lübnan’dan çekilecek iddiası Ortadoğu Haberleri

10,4 milyarlık yasa dışı bahis trafiği Yerel Gündem Haberleri

Pikap bariyerlere saplandı: Korkunç kazada yaralılar var Siirt Haberleri

Fenerbahçe de Mert Hakan Yandaş gelişmesi

Başkan Erdoğan dan toplantıda kurmaylarına sert uyarı: Buna tolerans yok!

Habertürk Manşet 23 Haziran 2026 (Futbolcu Kubilay Kaan Kundakçı İçin Adalet Arayış)

Göztepe de Anthony Dennis e Premier Lig den kanca!

Irak tan Kerkük Ceyhan hattı için çarpıcı iddia: Türkiye üç şart öne sürdü

Meta da yapay zeka krizi: Çalışan takip programı güvenlik açığı nedeniyle durduruldu

Dünyanın en iyi 50 kültürel miras alanı arasında Türkiye detayı Sözcü Gazetesi

Cevdet Yılmaz, Azerbaycan ın Ankara Büyükelçis Memmedov u kabul etti

Büyü işe yaradı! Kane üst üste kaçırdı, Gana puanı kaptı

Taze aşıklar Kendall Jenner ve Jacob Elordi yürüyüşte

Kastamonu da Oto Kaporta Ustası Krikodan Düşen Araçla Yaralandı

Norveç, Senegal’i 3 golle geçti! Haaland, Messi ve Mbappe’yi takipte Sözcü Gazetesi

AK Parti İstanbul Milletvekili Karslı Hollanda da Terörsüz Türkiye vizyonunu anlattı

Instagram ve Facebook Meta çöktü mü? Milyonlarca kişi bu sorunun yanıtını arıyor! 24 Haziran Instagram erişim engeli

İbrahim Hacıosmanoğlu Dünya Kupası ndaki tek üzüntüsünü açıkladı!

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Trthaber sayfasından alınan bilgilere göre, Ankara24.com açıklama yapıyor.

Oxford ekibi, dünyanın önde gelen araştırma kurumlarından 30’dan fazla bilim insanıyla birlikte yürüttüğü çalışmada, YZ modellerinin performansını değerlendirmede yaygın olarak kullanılan 445 test ve ölçüm yöntemini (benchmark) inceledi.

Testlerin çoğu ne ölçtüğünü tanımlamıyor

Araştırmaya göre, birçok üst düzey test ne ölçmek istediğini açıkça tanımlamıyor, önceki testlerden veri ve yöntemleri kopyalıyor ve modeller arası karşılaştırmalarda güvenilir istatistiksel yöntemler kullanmıyor.

Çalışmanın başyazarlarından Oxford İnternet Enstitüsü kıdemli araştırmacısı Adam Mahdi, bu testlerin yanıltıcı olabileceğini vurguladı:

“Yapay zekaya belli görevler verdiğimizde, aslında ölçmek istediğimiz kavramdan tamamen farklı şeyleri ölçüyor olabiliriz” dedi.

Bir diğer yazar Andrew Bean de, “Bir modelin ‘doktora düzeyinde zekaya ulaştığı’ iddialarını duyduğunuzda bunu temkinle karşılamak gerekir. Çünkü bu ölçümler her zaman sağlıklı yapılmıyor” ifadelerini kullandı.

‘Matematikte iyi’ görünen model aslında ezber yapıyor olabilir

Araştırmada örnek olarak GSM8K adlı test ele alındı. Bu test, yapay zekaların temel matematik problemlerini çözme kabiliyetini ölçüyor ve genellikle “modelin matematiksel akıl yürütme becerisi yüksek” şeklinde yorumlanıyor.

Ancak Mahdi’ye göre doğru cevabı vermek, gerçek anlamda matematiksel muhakeme yapıldığı anlamına gelmiyor:

“Bir çocuğa iki artı beş kaç eder diye sorduğunuzda yedi cevabını vermesi doğru olabilir, ama bu onun aritmetik muhakemeyi kavradığı anlamına gelmez.”

Bilim insanlarından daha güvenilir test çağrısı

Araştırma, testlerin “yapı geçerliliği” (construct validity) sorununa dikkat çekiyor; yani testlerin gerçekten ölçmek istedikleri olguyu ölçüp ölçmedikleri belirsiz.

Yazarlar, yeni çalışmada testlerin daha güvenilir hale getirilmesi için sekiz öneri ve bir kontrol listesi sundu.

Bu öneriler arasında;

Ölçülen eylemin kapsamının açıkça tanımlanması,

Gerçek becerileri temsil edecek görev setleri hazırlanması,

Sonuçların istatistiksel yöntemlerle karşılaştırılması gibi adımlar yer alıyor.

METR AI araştırma merkezinden Nikola Jurkovic, çalışmayı “YZ testlerinin yorumlanabilirliği için önemli bir başlangıç noktası” olarak değerlendirdi.

Gerçek dünyaya dayalı yeni testler yolda

Son dönemde bazı araştırma grupları, YZ modellerinin ekonomik ve pratik görevlerdeki performansını ölçmek için yeni test dizileri geliştirmeye başladı.

Eylül sonunda OpenAI, yapay zekanın 44 farklı meslek için gerekli görevlerdeki başarısını ölçen bir test serisi yayımladı. Bu testler, örneğin sanal bir satış analisti için Excel faturalarındaki tutarsızlıkları düzeltme veya sanal bir video yapımcısı için 60 saniyelik bir çekim planı hazırlama gibi görevleri kapsıyor.

Benzer şekilde AI Safety Center direktörü Dan Hendrycks ve ekibi, uzaktan çalışmada gerekli becerileri test eden yeni bir ölçüm seti geliştirdi. Hendrycks, “YZ sistemleri bazen testlerde yüksek puan alıyor ama testin asıl amacını gerçekte yerine getiremiyor,” dedi.

‘Bilimsel ölçüm yolculuğunun başındayız’

Mahdi, mevcut testlerin yeniden değerlendirilmesi gerektiğini belirterek, “Yapay zeka sistemlerinin bilimsel olarak değerlendirilmesinde henüz yolun başındayız” ifadelerini kullandı.

Araştırma, mevcut yapay zeka değerlendirmelerinde “ölçüm güvenilirliği” konusunun göz ardı edilmesinin, sistemlerin gerçek yeteneklerini abartılı biçimde göstermesine yol açtığını ortaya koyuyor.

Durumu takip etmeye devam edin, Ankara24.com her zaman en yeni haberleri sunuyor.
seeGörüntülenme:69
embedKaynak:https://www.trthaber.com
archiveBu haber kaynaktan arşivlenmiştir 06 Kasım 2025 06:49 kaynağından arşivlendi
0 Yorum
Giriş yapın, yorum yapmak için...
Yayına ilk cevap veren siz olun...
topEn çok okunanlar
Şu anda en çok tartışılan olaylar

Ferhat Aydoğan ve yanındaki 6 şüpheli gözaltına alındı

23 Haziran 2026 03:49see157

FransaI Irak karşılaşması tam 3 saat 50 dakika sürdü! İşte yaşananlar

23 Haziran 2026 04:02see145

İşgalciler Lübnan’dan çekilecek iddiası Ortadoğu Haberleri

23 Haziran 2026 04:07see145

10,4 milyarlık yasa dışı bahis trafiği Yerel Gündem Haberleri

23 Haziran 2026 04:08see145

Pikap bariyerlere saplandı: Korkunç kazada yaralılar var Siirt Haberleri

24 Haziran 2026 00:38see145

Fenerbahçe de Mert Hakan Yandaş gelişmesi

23 Haziran 2026 14:12see141

Başkan Erdoğan dan toplantıda kurmaylarına sert uyarı: Buna tolerans yok!

23 Haziran 2026 10:36see139

Habertürk Manşet 23 Haziran 2026 (Futbolcu Kubilay Kaan Kundakçı İçin Adalet Arayış)

23 Haziran 2026 20:48see138

Göztepe de Anthony Dennis e Premier Lig den kanca!

24 Haziran 2026 13:30see137

Irak tan Kerkük Ceyhan hattı için çarpıcı iddia: Türkiye üç şart öne sürdü

24 Haziran 2026 01:10see135

Meta da yapay zeka krizi: Çalışan takip programı güvenlik açığı nedeniyle durduruldu

24 Haziran 2026 00:36see133

Dünyanın en iyi 50 kültürel miras alanı arasında Türkiye detayı Sözcü Gazetesi

24 Haziran 2026 14:34see132

Cevdet Yılmaz, Azerbaycan ın Ankara Büyükelçis Memmedov u kabul etti

23 Haziran 2026 16:26see129

Büyü işe yaradı! Kane üst üste kaçırdı, Gana puanı kaptı

24 Haziran 2026 01:12see128

Taze aşıklar Kendall Jenner ve Jacob Elordi yürüyüşte

24 Haziran 2026 15:23see128

Kastamonu da Oto Kaporta Ustası Krikodan Düşen Araçla Yaralandı

24 Haziran 2026 01:12see127

Norveç, Senegal’i 3 golle geçti! Haaland, Messi ve Mbappe’yi takipte Sözcü Gazetesi

23 Haziran 2026 05:05see127

AK Parti İstanbul Milletvekili Karslı Hollanda da Terörsüz Türkiye vizyonunu anlattı

24 Haziran 2026 00:11see127

Instagram ve Facebook Meta çöktü mü? Milyonlarca kişi bu sorunun yanıtını arıyor! 24 Haziran Instagram erişim engeli

24 Haziran 2026 01:18see126

İbrahim Hacıosmanoğlu Dünya Kupası ndaki tek üzüntüsünü açıkladı!

24 Haziran 2026 02:29see126
newsSon haberler
Günün en taze ve güncel olayları