Ankara24.com
close
up
Menu

AKP li belediye elektrik borcunu krediyle ödeyecek

Gerek olursa her türlü imkandan faydalanacağız Dış Haberler

Huawei’den fiyat performans atağı: Huawei Enjoy 90 ve 90 Plus tanıtıldı! İşte özellikleri ve fiyatı Mobil Haberleri

Öğretmenlerin kesin kayıt sonuçları açıklandı

Suudi petrol devi duyurdu! Hürmüz deki krizin ardından kritik hamle

İran, Erbil de ve İsrail in güneyini hedef alan iki dalga halinde misilleme yaptı

Noa Lang paylaştı! İşte parmağının son hali

Ankara da altı liralık bayat ekmek satılıyor iddiasına Ticaret Bakanlığından açıklama Gündem Haberleri

Banyoya kapandı, gizlice ibadet etti: Alman yazılımcının İslam la imtihanı

Elazığ daki zincirleme kazada 4 araç hasar gördü Elazığ Haberleri

Erol Köse nin eski çalışanından eleştirilere tepki: Kötü konuşanların hepsini evinde gördüm

Pakistan Dışişleri Bakanlığı yetkilileri: ABD heyeti, İran ile görüşmeler için birkaç gün içinde ülkeye gelecek

Pendik te gişelere çarpan otomobil devrildi: 2 yaralı

Milli Eğitim Akademisi hazırlık eğitimi kesin kayıt sonuçları açıklandı

İran Dışişleri Bakanı Arakçi: Uluslararası hukuk ölmüştür

6 Arap ülkesinde fırtına ve sel uyarısı yapıldı

ABD İsrail den İran a enerji darbesi: İki kentte tesisler hedef alındı

ABD istihbaratı duyurdu: Hürmüz Boğazı nda 12 adet mayın tespit edildi!

Batman da Aileler Arası Silahlı Kavga

Oto şarjında ortak sistem dönemi başladı Ekonomi Haberleri

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Trthaber sayfasından alınan bilgilere göre, Ankara24.com açıklama yapıyor.

Oxford ekibi, dünyanın önde gelen araştırma kurumlarından 30’dan fazla bilim insanıyla birlikte yürüttüğü çalışmada, YZ modellerinin performansını değerlendirmede yaygın olarak kullanılan 445 test ve ölçüm yöntemini (benchmark) inceledi.

Testlerin çoğu ne ölçtüğünü tanımlamıyor

Araştırmaya göre, birçok üst düzey test ne ölçmek istediğini açıkça tanımlamıyor, önceki testlerden veri ve yöntemleri kopyalıyor ve modeller arası karşılaştırmalarda güvenilir istatistiksel yöntemler kullanmıyor.

Çalışmanın başyazarlarından Oxford İnternet Enstitüsü kıdemli araştırmacısı Adam Mahdi, bu testlerin yanıltıcı olabileceğini vurguladı:

“Yapay zekaya belli görevler verdiğimizde, aslında ölçmek istediğimiz kavramdan tamamen farklı şeyleri ölçüyor olabiliriz” dedi.

Bir diğer yazar Andrew Bean de, “Bir modelin ‘doktora düzeyinde zekaya ulaştığı’ iddialarını duyduğunuzda bunu temkinle karşılamak gerekir. Çünkü bu ölçümler her zaman sağlıklı yapılmıyor” ifadelerini kullandı.

‘Matematikte iyi’ görünen model aslında ezber yapıyor olabilir

Araştırmada örnek olarak GSM8K adlı test ele alındı. Bu test, yapay zekaların temel matematik problemlerini çözme kabiliyetini ölçüyor ve genellikle “modelin matematiksel akıl yürütme becerisi yüksek” şeklinde yorumlanıyor.

Ancak Mahdi’ye göre doğru cevabı vermek, gerçek anlamda matematiksel muhakeme yapıldığı anlamına gelmiyor:

“Bir çocuğa iki artı beş kaç eder diye sorduğunuzda yedi cevabını vermesi doğru olabilir, ama bu onun aritmetik muhakemeyi kavradığı anlamına gelmez.”

Bilim insanlarından daha güvenilir test çağrısı

Araştırma, testlerin “yapı geçerliliği” (construct validity) sorununa dikkat çekiyor; yani testlerin gerçekten ölçmek istedikleri olguyu ölçüp ölçmedikleri belirsiz.

Yazarlar, yeni çalışmada testlerin daha güvenilir hale getirilmesi için sekiz öneri ve bir kontrol listesi sundu.

Bu öneriler arasında;

Ölçülen eylemin kapsamının açıkça tanımlanması,

Gerçek becerileri temsil edecek görev setleri hazırlanması,

Sonuçların istatistiksel yöntemlerle karşılaştırılması gibi adımlar yer alıyor.

METR AI araştırma merkezinden Nikola Jurkovic, çalışmayı “YZ testlerinin yorumlanabilirliği için önemli bir başlangıç noktası” olarak değerlendirdi.

Gerçek dünyaya dayalı yeni testler yolda

Son dönemde bazı araştırma grupları, YZ modellerinin ekonomik ve pratik görevlerdeki performansını ölçmek için yeni test dizileri geliştirmeye başladı.

Eylül sonunda OpenAI, yapay zekanın 44 farklı meslek için gerekli görevlerdeki başarısını ölçen bir test serisi yayımladı. Bu testler, örneğin sanal bir satış analisti için Excel faturalarındaki tutarsızlıkları düzeltme veya sanal bir video yapımcısı için 60 saniyelik bir çekim planı hazırlama gibi görevleri kapsıyor.

Benzer şekilde AI Safety Center direktörü Dan Hendrycks ve ekibi, uzaktan çalışmada gerekli becerileri test eden yeni bir ölçüm seti geliştirdi. Hendrycks, “YZ sistemleri bazen testlerde yüksek puan alıyor ama testin asıl amacını gerçekte yerine getiremiyor,” dedi.

‘Bilimsel ölçüm yolculuğunun başındayız’

Mahdi, mevcut testlerin yeniden değerlendirilmesi gerektiğini belirterek, “Yapay zeka sistemlerinin bilimsel olarak değerlendirilmesinde henüz yolun başındayız” ifadelerini kullandı.

Araştırma, mevcut yapay zeka değerlendirmelerinde “ölçüm güvenilirliği” konusunun göz ardı edilmesinin, sistemlerin gerçek yeteneklerini abartılı biçimde göstermesine yol açtığını ortaya koyuyor.

Durumu takip etmeye devam edin, Ankara24.com her zaman en yeni haberleri sunuyor.
seeGörüntülenme:51
embedKaynak:https://www.trthaber.com
archiveBu haber kaynaktan arşivlenmiştir 06 Kasım 2025 06:49 kaynağından arşivlendi
0 Yorum
Giriş yapın, yorum yapmak için...
Yayına ilk cevap veren siz olun...
topEn çok okunanlar
Şu anda en çok tartışılan olaylar

AKP li belediye elektrik borcunu krediyle ödeyecek

24 Mart 2026 11:33see206

Gerek olursa her türlü imkandan faydalanacağız Dış Haberler

24 Mart 2026 01:12see196

Huawei’den fiyat performans atağı: Huawei Enjoy 90 ve 90 Plus tanıtıldı! İşte özellikleri ve fiyatı Mobil Haberleri

24 Mart 2026 00:34see190

Öğretmenlerin kesin kayıt sonuçları açıklandı

24 Mart 2026 00:51see173

Suudi petrol devi duyurdu! Hürmüz deki krizin ardından kritik hamle

24 Mart 2026 00:20see170

İran, Erbil de ve İsrail in güneyini hedef alan iki dalga halinde misilleme yaptı

24 Mart 2026 00:41see170

Noa Lang paylaştı! İşte parmağının son hali

24 Mart 2026 00:40see162

Ankara da altı liralık bayat ekmek satılıyor iddiasına Ticaret Bakanlığından açıklama Gündem Haberleri

24 Mart 2026 00:49see160

Banyoya kapandı, gizlice ibadet etti: Alman yazılımcının İslam la imtihanı

24 Mart 2026 20:55see158

Elazığ daki zincirleme kazada 4 araç hasar gördü Elazığ Haberleri

24 Mart 2026 00:25see157

Erol Köse nin eski çalışanından eleştirilere tepki: Kötü konuşanların hepsini evinde gördüm

24 Mart 2026 19:28see153

Pakistan Dışişleri Bakanlığı yetkilileri: ABD heyeti, İran ile görüşmeler için birkaç gün içinde ülkeye gelecek

24 Mart 2026 00:15see152

Pendik te gişelere çarpan otomobil devrildi: 2 yaralı

24 Mart 2026 01:56see152

Milli Eğitim Akademisi hazırlık eğitimi kesin kayıt sonuçları açıklandı

24 Mart 2026 02:42see150

İran Dışişleri Bakanı Arakçi: Uluslararası hukuk ölmüştür

25 Mart 2026 00:00see140

6 Arap ülkesinde fırtına ve sel uyarısı yapıldı

25 Mart 2026 00:34see138

ABD İsrail den İran a enerji darbesi: İki kentte tesisler hedef alındı

24 Mart 2026 04:19see137

ABD istihbaratı duyurdu: Hürmüz Boğazı nda 12 adet mayın tespit edildi!

24 Mart 2026 00:15see134

Batman da Aileler Arası Silahlı Kavga

25 Mart 2026 00:10see134

Oto şarjında ortak sistem dönemi başladı Ekonomi Haberleri

24 Mart 2026 04:03see134
newsSon haberler
Günün en taze ve güncel olayları