OpenAI'nin en son geliştirdiği yapay zekâ muhakeme modelleri o3 ve o4-mini, önceki modellere kıyasla daha yüksek oranda halüsinasyon üretme eğiliminde. Bu durum, özellikle doğruluk gerektiren alanlarda endişe yaratıyor.

OpenAI, yakın zamanda o3 ve o4-mini adını verdiği yeni muhakeme yetenekli yapay zekâ modellerini tanıttı. Bu modeller, özellikle kodlama ve matematik gibi alanlarda üstün performans sergilemekle birlikte, önceki modellere göre daha fazla halüsinasyon üretme eğiliminde. Halüsinasyon, yapay zekâ modellerinin gerçek olmayan veya yanlış bilgiler üretmesi anlamına geliyor.
OpenAI'nin dahili testlerine göre, o3 modeli, şirketin insanlarla ilgili bilgi doğruluğunu ölçen PersonQA testinde %33 oranında halüsinasyon üretti. Bu oran, önceki modeller olan o1 ve o3-mini'nin sırasıyla %16 ve %14,8'lik oranlarının yaklaşık iki katı. Daha da çarpıcı olanı, o4-mini modelinin aynı testte %48 oranında halüsinasyon üretmesi.
OpenAI, bu artan halüsinasyon oranlarının nedenlerini tam olarak anlayamadığını belirtiyor. Şirketin teknik raporunda, "daha fazla araştırmaya ihtiyaç var" ifadesi yer alıyor. Modellerin daha fazla iddiada bulunma eğilimi, hem doğru hem de yanlış bilgilerin artmasına neden olabilir.
Bağımsız bir yapay zekâ araştırma laboratuvarı olan Transluce'un testleri de benzer sonuçlar ortaya koydu. Transluce, o3 modelinin, cevaplarını oluştururken gerçekte yapmadığı işlemleri gerçekleştirdiğini iddia ettiğini gözlemledi. Örneğin, o3 modeli, bir 2021 MacBook Pro'da kod çalıştırdığını ve sonuçları yanıtına eklediğini belirtti. Ancak, modelin böyle bir işlem yapma yeteneği bulunmuyor.
Transluce araştırmacısı Neil Chowdhury, o-serisi modellerde kullanılan pekiştirmeli öğrenme yönteminin, genellikle son eğitim aşamalarında azaltılan sorunları artırabileceğini belirtti. Transluce'un kurucu ortağı Sarah Schwettmann ise, o3 modelinin halüsinasyon oranının, modelin potansiyel faydasını azaltabileceğini ifade etti.
Stanford Üniversitesi'nde yardımcı doçent ve Workera adlı eğitim teknolojisi şirketinin CEO'su olan Kian Katanforoosh, ekibinin o3 modelini kodlama iş akışlarında test ettiğini ve modelin rakiplerinden bir adım önde olduğunu belirtti. Ancak, o3 modelinin bozuk web bağlantıları üretme eğiliminde olduğunu da ekledi.
Halüsinasyonlar, modellerin yaratıcı fikirler üretmesine yardımcı olabilir, ancak doğruluk gerektiren alanlarda ciddi sorunlara yol açabilir. Örneğin, bir hukuk firması, müşteri sözleşmelerine yanlış bilgiler ekleyen bir modelden memnun kalmayacaktır.
OpenAI, bu sorunu çözmek için daha fazla araştırma ve geliştirme çalışmaları yapmayı planlıyor. Ancak, halüsinasyonların azaltılması, yapay zekâ modellerinin güvenilirliği ve ticari kullanımı açısından kritik bir öneme sahip.

OpenAI, yakın zamanda o3 ve o4-mini adını verdiği yeni muhakeme yetenekli yapay zekâ modellerini tanıttı. Bu modeller, özellikle kodlama ve matematik gibi alanlarda üstün performans sergilemekle birlikte, önceki modellere göre daha fazla halüsinasyon üretme eğiliminde. Halüsinasyon, yapay zekâ modellerinin gerçek olmayan veya yanlış bilgiler üretmesi anlamına geliyor.
OpenAI'nin dahili testlerine göre, o3 modeli, şirketin insanlarla ilgili bilgi doğruluğunu ölçen PersonQA testinde %33 oranında halüsinasyon üretti. Bu oran, önceki modeller olan o1 ve o3-mini'nin sırasıyla %16 ve %14,8'lik oranlarının yaklaşık iki katı. Daha da çarpıcı olanı, o4-mini modelinin aynı testte %48 oranında halüsinasyon üretmesi.
OpenAI, bu artan halüsinasyon oranlarının nedenlerini tam olarak anlayamadığını belirtiyor. Şirketin teknik raporunda, "daha fazla araştırmaya ihtiyaç var" ifadesi yer alıyor. Modellerin daha fazla iddiada bulunma eğilimi, hem doğru hem de yanlış bilgilerin artmasına neden olabilir.
Bağımsız bir yapay zekâ araştırma laboratuvarı olan Transluce'un testleri de benzer sonuçlar ortaya koydu. Transluce, o3 modelinin, cevaplarını oluştururken gerçekte yapmadığı işlemleri gerçekleştirdiğini iddia ettiğini gözlemledi. Örneğin, o3 modeli, bir 2021 MacBook Pro'da kod çalıştırdığını ve sonuçları yanıtına eklediğini belirtti. Ancak, modelin böyle bir işlem yapma yeteneği bulunmuyor.
Transluce araştırmacısı Neil Chowdhury, o-serisi modellerde kullanılan pekiştirmeli öğrenme yönteminin, genellikle son eğitim aşamalarında azaltılan sorunları artırabileceğini belirtti. Transluce'un kurucu ortağı Sarah Schwettmann ise, o3 modelinin halüsinasyon oranının, modelin potansiyel faydasını azaltabileceğini ifade etti.
Stanford Üniversitesi'nde yardımcı doçent ve Workera adlı eğitim teknolojisi şirketinin CEO'su olan Kian Katanforoosh, ekibinin o3 modelini kodlama iş akışlarında test ettiğini ve modelin rakiplerinden bir adım önde olduğunu belirtti. Ancak, o3 modelinin bozuk web bağlantıları üretme eğiliminde olduğunu da ekledi.
Halüsinasyonlar, modellerin yaratıcı fikirler üretmesine yardımcı olabilir, ancak doğruluk gerektiren alanlarda ciddi sorunlara yol açabilir. Örneğin, bir hukuk firması, müşteri sözleşmelerine yanlış bilgiler ekleyen bir modelden memnun kalmayacaktır.
OpenAI, bu sorunu çözmek için daha fazla araştırma ve geliştirme çalışmaları yapmayı planlıyor. Ancak, halüsinasyonların azaltılması, yapay zekâ modellerinin güvenilirliği ve ticari kullanımı açısından kritik bir öneme sahip.