根据内外部测试,OpenAI 最新推理模型 o3 和 o4-mini 比该公司之前的模型出现幻觉的概率更高。在 OpenAI 的 PersonQA 测试中,o3 出现幻觉的概率高达 33%,两倍于旧模型 o1(16%)和 o3-mini(14.8%)。o4-mini 更糟糕出现幻觉的概率高达 48%。斯坦福大学兼职教授 Kian Katanforoosh 指出他的团队发现 o3 常生成无效网址。OpenAI 表示需要更多研究去理解为什么随着推理模型规模的扩大,幻觉现象会加剧。
前一篇:研究发现五成员工使用未批准的 AI 工具
后一篇:OpenAI要30亿美金买的公司,Windsurf创始人Varun:创业无需每门功课是A,但不分部门,每个员工都要会用AI写代码
要发表评论,您必须先登录。