Ankara24.com
close
up
Menu

TBMM Genel Kurulu nda bütçe oylaması öncesi gerginlik: CHP ve AK Partili vekiller yumruklaştı

Uzak Şehir in 43. bölümünde neler oldu? Alya, çiftliğe yerleşti... İşte yeni evi!

Osimhen in yokluğunda Galatasaray ın en büyük kozu Leroy Sane

Varank tan meclis arbedesi sonrası açıklama: Gerçeklerden korkmayın

3 aydır maaş alamayan futbolcular isyan bayrağını çekti! Yönetim ceza kesecek

Son dakika: TBMM de kavga çıktı! 2026 yılı bütçesi kabul edildi

Kayıp öğretmenden 1 haftadır haber alınamıyor

Saldırdı, aynayı kırıp hakaretler savurdu

Samsung Exynos 2600 resmen duyuruldu: Dünyanın ilk 2nm mobil işlemcisi hangi model telefonlarda kullanılacak? İşte yenilikler ve teknik detaylar Teknoloji Haberleri

Müslüman, dindar, AK Parti Aydın Ünal

İstanbul da mali müşavirlere yönelik operasyonda 21 kişi tutuklandı

Toplum olarak çürüyoruz, görmüyor musunuz? Yusuf Kaplan

Bodrum FK Amed Sportif Faaliyetler maçının ardından gerginlik Sözcü Gazetesi

Poco M8 ve M8 Pro sızdırıldı: Fiyat performans odaklı yeni modeller yolda! İşte beklenen özellikleri Mobil Haberleri

Meclis üyesini sıkıştırıp, aracı yumrukladı… O anlar kameraya yansıdı Öfkeli sürücü, meclis üyesine saldırdı, aynayı kırıp, hakaretler savurdu Bursa Haberleri

T.C. TEKİRDAĞ 2. SULH HUKUK MAHKEMESİ

Netanyahu: Kimseyle çatışma istemiyoruz

Rezan Epözdemir den Şamil Tayyar a yanıt: Magazinsel dürtüler ve sansasyonel iddialar Helin Avşar’dan miras kaldı galiba

Mudanya da Kayıp 80 Yaşındaki Mustafa Abi İçin Arama Çalışmaları Devam Ediyor

Joao Pereira: Bu galibiyetle öz güven kazanmış olduk!

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Trthaber sayfasından alınan bilgilere göre, Ankara24.com açıklama yapıyor.

Oxford ekibi, dünyanın önde gelen araştırma kurumlarından 30’dan fazla bilim insanıyla birlikte yürüttüğü çalışmada, YZ modellerinin performansını değerlendirmede yaygın olarak kullanılan 445 test ve ölçüm yöntemini (benchmark) inceledi.

Testlerin çoğu ne ölçtüğünü tanımlamıyor

Araştırmaya göre, birçok üst düzey test ne ölçmek istediğini açıkça tanımlamıyor, önceki testlerden veri ve yöntemleri kopyalıyor ve modeller arası karşılaştırmalarda güvenilir istatistiksel yöntemler kullanmıyor.

Çalışmanın başyazarlarından Oxford İnternet Enstitüsü kıdemli araştırmacısı Adam Mahdi, bu testlerin yanıltıcı olabileceğini vurguladı:

“Yapay zekaya belli görevler verdiğimizde, aslında ölçmek istediğimiz kavramdan tamamen farklı şeyleri ölçüyor olabiliriz” dedi.

Bir diğer yazar Andrew Bean de, “Bir modelin ‘doktora düzeyinde zekaya ulaştığı’ iddialarını duyduğunuzda bunu temkinle karşılamak gerekir. Çünkü bu ölçümler her zaman sağlıklı yapılmıyor” ifadelerini kullandı.

‘Matematikte iyi’ görünen model aslında ezber yapıyor olabilir

Araştırmada örnek olarak GSM8K adlı test ele alındı. Bu test, yapay zekaların temel matematik problemlerini çözme kabiliyetini ölçüyor ve genellikle “modelin matematiksel akıl yürütme becerisi yüksek” şeklinde yorumlanıyor.

Ancak Mahdi’ye göre doğru cevabı vermek, gerçek anlamda matematiksel muhakeme yapıldığı anlamına gelmiyor:

“Bir çocuğa iki artı beş kaç eder diye sorduğunuzda yedi cevabını vermesi doğru olabilir, ama bu onun aritmetik muhakemeyi kavradığı anlamına gelmez.”

Bilim insanlarından daha güvenilir test çağrısı

Araştırma, testlerin “yapı geçerliliği” (construct validity) sorununa dikkat çekiyor; yani testlerin gerçekten ölçmek istedikleri olguyu ölçüp ölçmedikleri belirsiz.

Yazarlar, yeni çalışmada testlerin daha güvenilir hale getirilmesi için sekiz öneri ve bir kontrol listesi sundu.

Bu öneriler arasında;

Ölçülen eylemin kapsamının açıkça tanımlanması,

Gerçek becerileri temsil edecek görev setleri hazırlanması,

Sonuçların istatistiksel yöntemlerle karşılaştırılması gibi adımlar yer alıyor.

METR AI araştırma merkezinden Nikola Jurkovic, çalışmayı “YZ testlerinin yorumlanabilirliği için önemli bir başlangıç noktası” olarak değerlendirdi.

Gerçek dünyaya dayalı yeni testler yolda

Son dönemde bazı araştırma grupları, YZ modellerinin ekonomik ve pratik görevlerdeki performansını ölçmek için yeni test dizileri geliştirmeye başladı.

Eylül sonunda OpenAI, yapay zekanın 44 farklı meslek için gerekli görevlerdeki başarısını ölçen bir test serisi yayımladı. Bu testler, örneğin sanal bir satış analisti için Excel faturalarındaki tutarsızlıkları düzeltme veya sanal bir video yapımcısı için 60 saniyelik bir çekim planı hazırlama gibi görevleri kapsıyor.

Benzer şekilde AI Safety Center direktörü Dan Hendrycks ve ekibi, uzaktan çalışmada gerekli becerileri test eden yeni bir ölçüm seti geliştirdi. Hendrycks, “YZ sistemleri bazen testlerde yüksek puan alıyor ama testin asıl amacını gerçekte yerine getiremiyor,” dedi.

‘Bilimsel ölçüm yolculuğunun başındayız’

Mahdi, mevcut testlerin yeniden değerlendirilmesi gerektiğini belirterek, “Yapay zeka sistemlerinin bilimsel olarak değerlendirilmesinde henüz yolun başındayız” ifadelerini kullandı.

Araştırma, mevcut yapay zeka değerlendirmelerinde “ölçüm güvenilirliği” konusunun göz ardı edilmesinin, sistemlerin gerçek yeteneklerini abartılı biçimde göstermesine yol açtığını ortaya koyuyor.

Durumu takip etmeye devam edin, Ankara24.com her zaman en yeni haberleri sunuyor.
seeGörüntülenme:37
embedKaynak:https://www.trthaber.com
archiveBu haber kaynaktan arşivlenmiştir 06 Kasım 2025 06:49 kaynağından arşivlendi
0 Yorum
Giriş yapın, yorum yapmak için...
Yayına ilk cevap veren siz olun...
topEn çok okunanlar
Şu anda en çok tartışılan olaylar

TBMM Genel Kurulu nda bütçe oylaması öncesi gerginlik: CHP ve AK Partili vekiller yumruklaştı

22 Aralık 2025 00:22see177

Uzak Şehir in 43. bölümünde neler oldu? Alya, çiftliğe yerleşti... İşte yeni evi!

23 Aralık 2025 00:44see171

Osimhen in yokluğunda Galatasaray ın en büyük kozu Leroy Sane

21 Aralık 2025 08:33see167

Varank tan meclis arbedesi sonrası açıklama: Gerçeklerden korkmayın

22 Aralık 2025 00:51see164

3 aydır maaş alamayan futbolcular isyan bayrağını çekti! Yönetim ceza kesecek

21 Aralık 2025 21:11see159

Son dakika: TBMM de kavga çıktı! 2026 yılı bütçesi kabul edildi

22 Aralık 2025 00:03see155

Kayıp öğretmenden 1 haftadır haber alınamıyor

22 Aralık 2025 02:10see148

Saldırdı, aynayı kırıp hakaretler savurdu

22 Aralık 2025 00:46see129

Samsung Exynos 2600 resmen duyuruldu: Dünyanın ilk 2nm mobil işlemcisi hangi model telefonlarda kullanılacak? İşte yenilikler ve teknik detaylar Teknoloji Haberleri

22 Aralık 2025 00:39see125

Müslüman, dindar, AK Parti Aydın Ünal

22 Aralık 2025 04:05see124

İstanbul da mali müşavirlere yönelik operasyonda 21 kişi tutuklandı

23 Aralık 2025 00:34see121

Toplum olarak çürüyoruz, görmüyor musunuz? Yusuf Kaplan

22 Aralık 2025 04:05see120

Bodrum FK Amed Sportif Faaliyetler maçının ardından gerginlik Sözcü Gazetesi

23 Aralık 2025 01:01see119

Poco M8 ve M8 Pro sızdırıldı: Fiyat performans odaklı yeni modeller yolda! İşte beklenen özellikleri Mobil Haberleri

22 Aralık 2025 00:55see119

Meclis üyesini sıkıştırıp, aracı yumrukladı… O anlar kameraya yansıdı Öfkeli sürücü, meclis üyesine saldırdı, aynayı kırıp, hakaretler savurdu Bursa Haberleri

22 Aralık 2025 00:33see119

T.C. TEKİRDAĞ 2. SULH HUKUK MAHKEMESİ

23 Aralık 2025 00:02see119

Netanyahu: Kimseyle çatışma istemiyoruz

23 Aralık 2025 01:24see118

Rezan Epözdemir den Şamil Tayyar a yanıt: Magazinsel dürtüler ve sansasyonel iddialar Helin Avşar’dan miras kaldı galiba

22 Aralık 2025 00:03see118

Mudanya da Kayıp 80 Yaşındaki Mustafa Abi İçin Arama Çalışmaları Devam Ediyor

23 Aralık 2025 00:20see118

Joao Pereira: Bu galibiyetle öz güven kazanmış olduk!

21 Aralık 2025 17:54see116
newsSon haberler
Günün en taze ve güncel olayları