Ankara24.com
close
up
Menu

Kayısının kilo fiyatı da tane fiyatı da ağızları açık bıraktı

İlişkisini bitirmek istedi darbedilip burnu kırıldı: Yaşamak istiyorum

Filistin’in demografisini değiştirme planı: Putin den bir milyon Yahudi istemiş Gündem Haberleri

Eski kocasının sözleri Müge Anlı yı küplere bindirdi: Yakamızdan düşün artık

SGK prim borçlarının ödenmesine ilişkin yeni düzenlemenin detayları nelerdir?

Galatasaray’ın UEFA Şampiyonlar Ligi kadrosu belli oldu! Yeni transferler dahil edilmedi

CHP li Zeybek ten 6 Şubat ve Zeydan Karalar açıklaması

Önce sağlam zemin etüdü sonra konut inşası Ekonomi Haberleri

Asrın inşasına 90 milyar dolar harcandı Gündem Haberleri

Bakan Yerlikaya depremde hayatını kaybedenler için düzenlenen sessiz yürüyüş e katıldı

Epstein in intihar ettiği iddia edilen gecenin kamera kayıtlarında yeni bir kişi tespit edildi Sözcü Gazetesi

TBMM Başkanı Kurtulmuş tan 6 Şubat mesajı: Acınız acımız, yasınız yasımızdır

Kök maaşa beş aşamalı çözüm Ekonomi Haberleri

Büyükşehir ile geleceğe sağlıklı bakış Bursa Haberleri

Cumhurbaşkanı Erdoğan dan 6 Şubat paylaşımı: Birlikte başardık yine başaracağız VİDEO İZLE

ABD den Netflix e çok ağır eleştiri: Çocuklarımızı korumalıyız

Darbettikleri öğrencinin omuriliğini ve çenesini kıran 4 şüpheli tutuklandı

6 Şubat’ın iki yüzü Sözcü Gazetesi

Juventus tan İtalya Kupası na veda

PFDK dan Milan Skriniar a ceza! Fenerbahçe Haberleri

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Trthaber sayfasından alınan bilgilere göre, Ankara24.com açıklama yapıyor.

Oxford ekibi, dünyanın önde gelen araştırma kurumlarından 30’dan fazla bilim insanıyla birlikte yürüttüğü çalışmada, YZ modellerinin performansını değerlendirmede yaygın olarak kullanılan 445 test ve ölçüm yöntemini (benchmark) inceledi.

Testlerin çoğu ne ölçtüğünü tanımlamıyor

Araştırmaya göre, birçok üst düzey test ne ölçmek istediğini açıkça tanımlamıyor, önceki testlerden veri ve yöntemleri kopyalıyor ve modeller arası karşılaştırmalarda güvenilir istatistiksel yöntemler kullanmıyor.

Çalışmanın başyazarlarından Oxford İnternet Enstitüsü kıdemli araştırmacısı Adam Mahdi, bu testlerin yanıltıcı olabileceğini vurguladı:

“Yapay zekaya belli görevler verdiğimizde, aslında ölçmek istediğimiz kavramdan tamamen farklı şeyleri ölçüyor olabiliriz” dedi.

Bir diğer yazar Andrew Bean de, “Bir modelin ‘doktora düzeyinde zekaya ulaştığı’ iddialarını duyduğunuzda bunu temkinle karşılamak gerekir. Çünkü bu ölçümler her zaman sağlıklı yapılmıyor” ifadelerini kullandı.

‘Matematikte iyi’ görünen model aslında ezber yapıyor olabilir

Araştırmada örnek olarak GSM8K adlı test ele alındı. Bu test, yapay zekaların temel matematik problemlerini çözme kabiliyetini ölçüyor ve genellikle “modelin matematiksel akıl yürütme becerisi yüksek” şeklinde yorumlanıyor.

Ancak Mahdi’ye göre doğru cevabı vermek, gerçek anlamda matematiksel muhakeme yapıldığı anlamına gelmiyor:

“Bir çocuğa iki artı beş kaç eder diye sorduğunuzda yedi cevabını vermesi doğru olabilir, ama bu onun aritmetik muhakemeyi kavradığı anlamına gelmez.”

Bilim insanlarından daha güvenilir test çağrısı

Araştırma, testlerin “yapı geçerliliği” (construct validity) sorununa dikkat çekiyor; yani testlerin gerçekten ölçmek istedikleri olguyu ölçüp ölçmedikleri belirsiz.

Yazarlar, yeni çalışmada testlerin daha güvenilir hale getirilmesi için sekiz öneri ve bir kontrol listesi sundu.

Bu öneriler arasında;

Ölçülen eylemin kapsamının açıkça tanımlanması,

Gerçek becerileri temsil edecek görev setleri hazırlanması,

Sonuçların istatistiksel yöntemlerle karşılaştırılması gibi adımlar yer alıyor.

METR AI araştırma merkezinden Nikola Jurkovic, çalışmayı “YZ testlerinin yorumlanabilirliği için önemli bir başlangıç noktası” olarak değerlendirdi.

Gerçek dünyaya dayalı yeni testler yolda

Son dönemde bazı araştırma grupları, YZ modellerinin ekonomik ve pratik görevlerdeki performansını ölçmek için yeni test dizileri geliştirmeye başladı.

Eylül sonunda OpenAI, yapay zekanın 44 farklı meslek için gerekli görevlerdeki başarısını ölçen bir test serisi yayımladı. Bu testler, örneğin sanal bir satış analisti için Excel faturalarındaki tutarsızlıkları düzeltme veya sanal bir video yapımcısı için 60 saniyelik bir çekim planı hazırlama gibi görevleri kapsıyor.

Benzer şekilde AI Safety Center direktörü Dan Hendrycks ve ekibi, uzaktan çalışmada gerekli becerileri test eden yeni bir ölçüm seti geliştirdi. Hendrycks, “YZ sistemleri bazen testlerde yüksek puan alıyor ama testin asıl amacını gerçekte yerine getiremiyor,” dedi.

‘Bilimsel ölçüm yolculuğunun başındayız’

Mahdi, mevcut testlerin yeniden değerlendirilmesi gerektiğini belirterek, “Yapay zeka sistemlerinin bilimsel olarak değerlendirilmesinde henüz yolun başındayız” ifadelerini kullandı.

Araştırma, mevcut yapay zeka değerlendirmelerinde “ölçüm güvenilirliği” konusunun göz ardı edilmesinin, sistemlerin gerçek yeteneklerini abartılı biçimde göstermesine yol açtığını ortaya koyuyor.

Durumu takip etmeye devam edin, Ankara24.com her zaman en yeni haberleri sunuyor.
seeGörüntülenme:44
embedKaynak:https://www.trthaber.com
archiveBu haber kaynaktan arşivlenmiştir 06 Kasım 2025 06:49 kaynağından arşivlendi
0 Yorum
Giriş yapın, yorum yapmak için...
Yayına ilk cevap veren siz olun...
topEn çok okunanlar
Şu anda en çok tartışılan olaylar

Kayısının kilo fiyatı da tane fiyatı da ağızları açık bıraktı

05 Şubat 2026 19:37see164

İlişkisini bitirmek istedi darbedilip burnu kırıldı: Yaşamak istiyorum

05 Şubat 2026 10:24see157

Filistin’in demografisini değiştirme planı: Putin den bir milyon Yahudi istemiş Gündem Haberleri

06 Şubat 2026 04:22see152

Eski kocasının sözleri Müge Anlı yı küplere bindirdi: Yakamızdan düşün artık

06 Şubat 2026 16:11see147

SGK prim borçlarının ödenmesine ilişkin yeni düzenlemenin detayları nelerdir?

06 Şubat 2026 05:04see147

Galatasaray’ın UEFA Şampiyonlar Ligi kadrosu belli oldu! Yeni transferler dahil edilmedi

06 Şubat 2026 01:50see144

CHP li Zeybek ten 6 Şubat ve Zeydan Karalar açıklaması

06 Şubat 2026 00:30see140

Önce sağlam zemin etüdü sonra konut inşası Ekonomi Haberleri

06 Şubat 2026 04:04see138

Asrın inşasına 90 milyar dolar harcandı Gündem Haberleri

05 Şubat 2026 05:05see132

Bakan Yerlikaya depremde hayatını kaybedenler için düzenlenen sessiz yürüyüş e katıldı

06 Şubat 2026 05:39see126

Epstein in intihar ettiği iddia edilen gecenin kamera kayıtlarında yeni bir kişi tespit edildi Sözcü Gazetesi

06 Şubat 2026 04:38see126

TBMM Başkanı Kurtulmuş tan 6 Şubat mesajı: Acınız acımız, yasınız yasımızdır

06 Şubat 2026 05:21see125

Kök maaşa beş aşamalı çözüm Ekonomi Haberleri

06 Şubat 2026 04:04see124

Büyükşehir ile geleceğe sağlıklı bakış Bursa Haberleri

05 Şubat 2026 18:16see124

Cumhurbaşkanı Erdoğan dan 6 Şubat paylaşımı: Birlikte başardık yine başaracağız VİDEO İZLE

06 Şubat 2026 20:39see123

ABD den Netflix e çok ağır eleştiri: Çocuklarımızı korumalıyız

06 Şubat 2026 01:37see122

Darbettikleri öğrencinin omuriliğini ve çenesini kıran 4 şüpheli tutuklandı

06 Şubat 2026 03:02see121

6 Şubat’ın iki yüzü Sözcü Gazetesi

06 Şubat 2026 05:01see121

Juventus tan İtalya Kupası na veda

06 Şubat 2026 01:05see120

PFDK dan Milan Skriniar a ceza! Fenerbahçe Haberleri

05 Şubat 2026 20:33see120
newsSon haberler
Günün en taze ve güncel olayları