Ankara24.com
close
up
Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Trthaber sayfasından alınan bilgilere göre, Ankara24.com açıklama yapıyor.

Oxford ekibi, dünyanın önde gelen araştırma kurumlarından 30’dan fazla bilim insanıyla birlikte yürüttüğü çalışmada, YZ modellerinin performansını değerlendirmede yaygın olarak kullanılan 445 test ve ölçüm yöntemini (benchmark) inceledi.

Testlerin çoğu ne ölçtüğünü tanımlamıyor

Araştırmaya göre, birçok üst düzey test ne ölçmek istediğini açıkça tanımlamıyor, önceki testlerden veri ve yöntemleri kopyalıyor ve modeller arası karşılaştırmalarda güvenilir istatistiksel yöntemler kullanmıyor.

Çalışmanın başyazarlarından Oxford İnternet Enstitüsü kıdemli araştırmacısı Adam Mahdi, bu testlerin yanıltıcı olabileceğini vurguladı:

“Yapay zekaya belli görevler verdiğimizde, aslında ölçmek istediğimiz kavramdan tamamen farklı şeyleri ölçüyor olabiliriz” dedi.

Bir diğer yazar Andrew Bean de, “Bir modelin ‘doktora düzeyinde zekaya ulaştığı’ iddialarını duyduğunuzda bunu temkinle karşılamak gerekir. Çünkü bu ölçümler her zaman sağlıklı yapılmıyor” ifadelerini kullandı.

‘Matematikte iyi’ görünen model aslında ezber yapıyor olabilir

Araştırmada örnek olarak GSM8K adlı test ele alındı. Bu test, yapay zekaların temel matematik problemlerini çözme kabiliyetini ölçüyor ve genellikle “modelin matematiksel akıl yürütme becerisi yüksek” şeklinde yorumlanıyor.

Ancak Mahdi’ye göre doğru cevabı vermek, gerçek anlamda matematiksel muhakeme yapıldığı anlamına gelmiyor:

“Bir çocuğa iki artı beş kaç eder diye sorduğunuzda yedi cevabını vermesi doğru olabilir, ama bu onun aritmetik muhakemeyi kavradığı anlamına gelmez.”

Bilim insanlarından daha güvenilir test çağrısı

Araştırma, testlerin “yapı geçerliliği” (construct validity) sorununa dikkat çekiyor; yani testlerin gerçekten ölçmek istedikleri olguyu ölçüp ölçmedikleri belirsiz.

Yazarlar, yeni çalışmada testlerin daha güvenilir hale getirilmesi için sekiz öneri ve bir kontrol listesi sundu.

Bu öneriler arasında;

Ölçülen eylemin kapsamının açıkça tanımlanması,

Gerçek becerileri temsil edecek görev setleri hazırlanması,

Sonuçların istatistiksel yöntemlerle karşılaştırılması gibi adımlar yer alıyor.

METR AI araştırma merkezinden Nikola Jurkovic, çalışmayı “YZ testlerinin yorumlanabilirliği için önemli bir başlangıç noktası” olarak değerlendirdi.

Gerçek dünyaya dayalı yeni testler yolda

Son dönemde bazı araştırma grupları, YZ modellerinin ekonomik ve pratik görevlerdeki performansını ölçmek için yeni test dizileri geliştirmeye başladı.

Eylül sonunda OpenAI, yapay zekanın 44 farklı meslek için gerekli görevlerdeki başarısını ölçen bir test serisi yayımladı. Bu testler, örneğin sanal bir satış analisti için Excel faturalarındaki tutarsızlıkları düzeltme veya sanal bir video yapımcısı için 60 saniyelik bir çekim planı hazırlama gibi görevleri kapsıyor.

Benzer şekilde AI Safety Center direktörü Dan Hendrycks ve ekibi, uzaktan çalışmada gerekli becerileri test eden yeni bir ölçüm seti geliştirdi. Hendrycks, “YZ sistemleri bazen testlerde yüksek puan alıyor ama testin asıl amacını gerçekte yerine getiremiyor,” dedi.

‘Bilimsel ölçüm yolculuğunun başındayız’

Mahdi, mevcut testlerin yeniden değerlendirilmesi gerektiğini belirterek, “Yapay zeka sistemlerinin bilimsel olarak değerlendirilmesinde henüz yolun başındayız” ifadelerini kullandı.

Araştırma, mevcut yapay zeka değerlendirmelerinde “ölçüm güvenilirliği” konusunun göz ardı edilmesinin, sistemlerin gerçek yeteneklerini abartılı biçimde göstermesine yol açtığını ortaya koyuyor.

Durumu takip etmeye devam edin, Ankara24.com her zaman en yeni haberleri sunuyor.
seeGörüntülenme:18
embedKaynak:https://www.trthaber.com
archiveBu haber kaynaktan arşivlenmiştir 06 Kasım 2025 06:49 kaynağından arşivlendi
0 Yorum
Giriş yapın, yorum yapmak için...
Yayına ilk cevap veren siz olun...
topEn çok okunanlar
Şu anda en çok tartışılan olaylar

Putin den nükleer deneme için hazırlık emri Dış Haberler

05 Kasım 2025 19:17see210

Herkesin dünyanın en şanslı insanı dediği adam konuştu: Acı çekiyorum

04 Kasım 2025 10:43see111

İktidara yakın Türk İş ten asgari ücrette komisyon kararı Sözcü Gazetesi

04 Kasım 2025 12:53see110

ING küresel piyasalar raporunu açıkladı: Euro da yükseliş tahmini

04 Kasım 2025 12:51see109

BİGA 3. ASLİYE HUKUK MAHKEMESİ HAKİMLİĞİ

06 Kasım 2025 00:02see109

Bakan Fidan, Finlandiya İslam Cemaati temsilcilerini kabul etti

04 Kasım 2025 22:11see109

Kayserispor Fenerbahçe maçı öncesi moral buldu Futbol Haberleri

04 Kasım 2025 11:28see108

Kocaeli de 38 bin 208 taklit araç parçası ele geçirildi Kocaeli Haberleri

05 Kasım 2025 12:02see106

SON DAKİKA: Bursa da vahşet! Sevgilisini 75 bıçak darbesiyle katletmişti! Çocuklara bak deyince...

04 Kasım 2025 14:22see106

Galatasaray da Yunus Akgün şoku! Ajax kafilesine alınmadı

04 Kasım 2025 16:20see106

Gaziantep’te pamuk hasadı hasat başladı

04 Kasım 2025 13:39see106

Edirne, yoğun sis altında kayboldu

04 Kasım 2025 12:28see106

Hakkari de şaşırtan anlar gündem oldu: Kameraya poz bile verdi

04 Kasım 2025 16:47see106

Makarnada Listeria bakterisi alarmı! Çok sayı ölü var

04 Kasım 2025 12:34see106

Hastalığı bile güzel gülüşünü elinden alamamıştı... Türk sinemasının Gamzeli güzeli artık filmlerde yaşıyor

04 Kasım 2025 18:33see105

Eski Bakan Kaşif olarak görevlendirildi Sözcü Gazetesi

04 Kasım 2025 23:37see105

İngiltere Savunma Bakanlığının hesaplarında milyarlarca sterlinlik açıklanamayan harcama tespit edildi

05 Kasım 2025 00:17see104

Kerem Aktürkoğlu gönülleri fethetti! ilkokul öğrencisinin dileğini yerine getirdi

05 Kasım 2025 11:56see104

Google, uzaya yapay zeka veri merkezleri kurmayı planladığını açıkladı

05 Kasım 2025 18:27see104

Römork halatı koptu, demir parçası yüzüne saplandı Bursa Haberleri

04 Kasım 2025 22:04see103
newsSon haberler
Günün en taze ve güncel olayları