Günümüzde insanlar sağlıkla ilgili sorularını yanıtlamak için ChatGPT, Gemini gibi yapay zeka destekli sohbet botlarına yöneliyor. Ancak, BMJ Open dergisinde yayımlanan yeni bir araştırma, bu yaklaşımın beklenenden daha fazla risk barındırabileceğini ortaya koydu. Araştırmacılar ChatGPT, Gemini, Grok, Meta AI ve DeepSeek gibi yapay zeka sistemlerini, toplamda 250 sağlık istemi ile test etti ve yanıtların yaklaşık yüzde 50’sinin sorunlu olduğunu belirledi.
Özellikle, yanıtların akıcı ve kendinden emin bir şekilde sunulması, kullanıcıda güven hissi yaratırken, bu durumun tehlikeleri göz ardı edilemez. Çalışma ekibi, yanıtları kanser, aşılar, kök hücre terapileri, beslenme ve atletik performans gibi yanlış bilginin yaygın olduğu beş başlık altında toplayarak inceledi. Hem kapalı uçlu hem de açık uçlu sorularla yapılan testlerde, yanıtların yüzde 49,6’sının sorunlu olduğu belirlendi. Bu sorunlu yanıtların yüzde 30’u kısmen, yüzde 19,6’sı ise yüksek derecede problemli olarak sınıflandırıldı.
Araştırmacılar, özellikle açık uçlu soruların, yapay zeka yanıtlarını daha riskli hale getirdiğini belirtiyor. Gerçek hayatta insanlar genellikle “Bu tedavi işe yarar mı?” veya “Aşı güvenli mi?” gibi belirsiz ve bağlama açık sorular yöneltiyor. Çalışma, bu tür soruların yanıtlarında en büyük açıkların ortaya çıktığını gösteriyor. Açık uçlu sorulardan elde edilen 40 yanıt yüksek derecede problemli iken, güvenilir yanıt sayısı oldukça düşüktü. Kapalı uçlu sorularda ise durum tersine döndü.
Performans açısından aşılar ve kanser alanları daha başarılı bulunurken, kök hücreler, atletik performans ve beslenme konularında daha fazla sorun yaşandı. Araştırmada, botlar arasında belirgin bir kalite farkı görülmemekle birlikte, Grok modelinin 50 yanıtın 29’unun yüksek derecede problemli olduğu tespit edildi. Diğer yandan, Gemini, en az sayıda sorunlu yanıt veren model olarak dikkati çekti. Ancak asıl sorun, bu beş büyük modelin de sağlık gibi kritik bir konuda tutarlı bir güvenilirlik sunamamasıdır. Günlük hayatta kullanıcılar için hoş görünen yanıtlar ile gerçekten güvenilir yanıtların birbirinden farklı olduğunu unutmamak gerekiyor.
Araştırmanın dikkate değer bir diğer bulgusu ise kaynak kalitesi üzerine. Yapay zeka botları, referans vermiş gibi görünen yanıtlar sunsa da bu referansların ortalama doğruluk oranı sadece yüzde 40 seviyesinde kalmış durumda. Hiçbir model, tamamen doğru bir kaynakça oluşturmayı başaramadı. Uydurma atıflar ve yanıltıcı bilgiler de tespit edildi. Meta AI’dan gelen iki örnek dışında, diğer botların çoğu yüksek özgüvenle yanıt verdi, ancak bu durum tıbbi konularda yanlış bir güven hissi yaratabilir.
Araştırmacılar, bu çalışmanın sınırlamalarına dikkat çekiyor. Test edilen botlar yalnızca beş farklı modeli kapsıyor ve sürekli güncelleniyorlar. Kullanılan soruların zorlayıcı olması, günlük kullanımda hata oranını artırmış olabilir. Ancak, sağlık ile ilgili kanıta dayalı konuların hâlâ zayıf sonuçlar vermesi, bu yapay zeka botlarının sağlık bilgisi sağlama noktasında güvenilir olmadığını gösteriyor. Sonuç olarak, yapay zeka sistemleri henüz sağlık bilgisini özetlemek ya da doktor randevularında sorulacak soruları şekillendirmek için yeterli güvenilirliğe sahip değil.