ChatGPT, Görmeye Başladı [Video]

Üretken yapay zekâlar ortasında en ön plana çıkanlardan birisi olan ChatGPT, ne yazık ki bize açılan sürümünde şimdi görselleri ve görüntüleri tahlil edemiyor. Pekala, edebilseydi neler yapabilirdi?

İşte bu sorunun yanıtı, yapay zekâ geliştiricisi Mckay Wrigley tarafından verildi. Wrigley, iPhone ve MacBook kullanarak, yazdığı yazılım sayesinde ChatGPT’ye ‘göz’ verdi. ChatGPT, etraftaki objelere nazaran teklifler de yaptı.

ChatGPT’nin gözlere sahip olduğu görüntü:

Wrigley’nin etrafındaki tüm objeler ve buzdolabındaki yiyecek ve içecekler, farklı bir yapay zekâ ile tanınıyor. Daha sonrasında bu datalar ChatGPT’ye sunuluyor. ChatGPT, bir soruyla evvel hangi objelerin etrafta olduğunu öğreniyor, akabinde bu objelere ait bir öbür soruyu da cevaplıyor.

Wrigley, bu sistem ile ChatGPT’ye buzdolabındaki objeleri gösteriyor, öğretiyor. Sonrasında ise ChatGPT’den buzdolabındaki içeriklere uygun bir tanım vermesini istiyor. ChatGPT, internette kısa bir arama yaptıktan sonra uygun tanımı anlatıyor.

Videodaki sesli konuşma da elbette ChatGPT’nin yapabildiği bir şey değil. Wrigley, yazının anlık olarak sese dönüştürülmesi için OpenAI’ın Whisper yapay zekâsından faydalanıyor. Kendisinin kullandığı tüm yapay zekâlar ve kullanım emelleri ise şu biçimde:

GPT-4: ChatGPT’yi oluşturan lisan modeli
YoloV8: Kameraya gözüken objeleri tanımlayan yapay zekâ
Whisper: Metnin sese dönüştürülmesi
Google Custom Search Engine: ChatGPT’nin internette arama yapmasını sağlayan araç

Wrigley, bu yapay zekâları Python ile yazdığı kodlar ile bir ortada çalıştırıyor ve ortaya bu türlü bir sonuç çıkıyor. Wrigley, Apple’ın piyasaya sürmeye hazırlandığı artırılmış gerçeklik gözlükleri için de araçlar geliştirmeye hazırlandığını söylüyor.

Bir öteki deyişle üstteki görüntü, artırılmış gerçeklik gözlüklerinin halihazırda bildiğimiz bir potansiyelinin somut bir halde sunumu.