ChatGPT’nin Yeni Sürümlerinin Eskiye Nazaran Daha Makus Karşılıklar Verdiği Ortaya Çıktı

OpenAI’ın Kasım 2022’de piyasaya sürdüğü sohbet botu ChatGPT, yapabildikleriyle tüm dünyada viral olmayı başarmıştı. ChatGPT, günümüzde birçok taşınabilir uygulamada kullanılmaya, bilhassa müşteri temsilciliğinde aktör olarak yer almaya başladı.

ChatGPT’nin her güncellemeyle birlikte geliştiğini varsayıyor olsak da 18 Temmuz’da yayınlanan bir araştırma, ortaya farklı sonuçlar koydu. Stanford ve Kaliforniya Üniversitelerinden bilim insanları, ChatGPT’nin her yeni lisan modeliyle daha berbat karşılıklar vermeye başladığını açıkladı.

Son sürüm GPT modellerinde başarısızlık oranı daha yüksek:

Araştırma grubunda yer alan Lingjiao Chen, Matei Zaharia ve James Zou, ChatGPT’yi oluşturan lisan modeli GPT’nin iki farklı versiyonunu ve ikişer sürümünü teste soktu: GPT-3.5 Mart/Haziran ve GPT-4 Mart/Haziran.

Testte, lisan modeline birkaç matematik sorunu ile hassas sorular soruldu. Kod yazımı ve girdiye yönelik muhakeme yürütmesi istendi. Bilhassa sürümler ortasındaki fark, ziyadesiyle şaşırtıcıydı.

GPT-4’ün Mart sürümü, kendisine sunulan bir sayının asal sayı olup olmadığını %97,6 doğruluk oranıyla bilmeyi başardı. Birebir versiyonun Haziran sürümünde ise bu oran sadece %2,4 ile sonlu kaldı.

Asal sayılarda GPT-3.5’in başarısı ise GPT-4 Mart’tan da daha düzgündü. GPT-3.5 Mart sürümü, asal sayıları birebir mühlet içinde daha yüksek doğrulukta biliyordu. Geliştikçe yaşanan emsal düşüşler kod yazımında da kendisini gösterdi.

İş hassas sorulara geldiğinde ise garip bir tablo oluştu. Mart sürümlerinde bot, kullanıcıya bir soruyu neden cevaplayamayacağını detaylı bir halde anlatıyordu. Haziran sürümlerinde ise yalnızca kullanıcıdan özür diliyor ve soruyu cevaplayamayacağını söylüyor.

ChatGPT’nin kabiliyetlerindeki düşüşün arkasındaki nedeni, araştırmayı yapan grup de belirleyemedi.