公司动态

Operai发表了一篇罕见的文章:我们发现了AI的幻觉

编辑的机器中心报告:Pandaai最臭名昭著的错误是什么?这不是代码块,而是“幻想”。这些模型充满信心地创造了事实,这使得很难区分真实和错误。这一基本挑战是我们完全信任AI的关键障碍。大型模型具有幻觉,这几乎是常识,任何使用大型模型的人都应认真对待。 Openai还说:“ Chatgpt也可以产生幻觉。GPT-5将导致幻觉大大减少,尤其是在进行推论时,仍会产生幻觉。该学院提出了几种模型中减少幻觉的方法,但是没有很好地“批准”模型中幻觉的幻觉的好方法。 文档titleo:语言模型的幻觉文档地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef432ef4aaaa5/why-language-models.pdf什么是幻觉?幻觉显然是合理的,但语言模型产生的虚假陈述。即使看似简单的问题也会出乎意料地表现出来。当另一个广泛使用Adam Tauman Kalai博士学位论文标题的聊天机器人时,Operai举了例子,并充满信心地做出了三种不同的回答,这是不正确的。 学会尝试Openai表明幻觉持续存在。这是因为当前的评估方法错误地建立了激励机制。评估本身并没有直接导致幻觉,但是大多数评估是基于模型性能。一种方法鼓励模型猜想而不是面对诚实的不确定性。将其视为多重选择测试。我不知道答案,但请不要毫不犹豫地猜测,您可能很幸运能正确猜出它。将其留空,您一定会得到零积分。以同样的方式,如果模型仅根据精度资格(也就是说,回答正确正确的问题的百分比),它鼓励猜想而不是承认“我不知道”。让我举一个例子。我会假设问语言模型有关某人的生日,但我不知道。如果您猜到“ 9月10日”,则可以正确猜出1/365。 “我不知道,您肯定可以获得零点。从成千上万的试用问题中,基于猜想的模型在得分方面最有效。模型不想冒险猜测。打开指标优先确定模型,但错误的答案比弃权的回答更糟糕。 就精确度而言,Operai O4-Mini的先前模型效果更好。但是,其错误率(即幻觉率)明显更高。 简单的简单评估在某些模型中几乎具有100%的精度,从而消除了幻觉。但是,最具挑战性的评估和实际用途使信息可用;精度是设置为不到100%,因为由于几个原因,我们无法确定某些问题的答案,例如小型模型的思维能力有限,需要清晰度等等的歧义。但是,由自己衡量的估值指标仍然主导了分类和模型卡,因此开发人员Athey必须构建可以推断而不是退休的模型。即使模型更高级,这也会引起幻觉。原因之一是他们倾向于信心做出错误的反应,而不是认识到不确定性。在这方面,Operai指出了一个简单的解决方案。对机密错误的惩罚大于对不确定性的惩罚,并且对适当表达不确定性的行动赋予了几点。这个想法并不是什么新鲜事。一些标准化的测试长期以来使用方法来消极地评估错误的答案或给左派问题的部分奖励点以避免盲目占卜。一些研究人员也是研究评估方法,考虑到不确定性和校准。但是,Openai表示,增加不确定性的新证据还不够。评估方法必须基于广泛用于评估的准确性以避免推断。如果主要评估指标继续奖励模型模型的假设,则该模型将继续学习谜语。不断变化的评估指标可以扩大采用减少的幻觉技术,包括新开发和先前研究的技术。以前已经讨论了为什么出现以下单词的预测的幻觉是如何变得如此困难的幻觉,但是这些事实上的特定错误来自哪里?毕竟,大型且预备的模型很少会遇到其他类型的错误,例如拼写错误和支持不匹配。歌剧说区别必须是数据中有模式。为F学习了语言模型第一次通过以前的培训。这是在大文本中预测以下单词的过程。与DAND传统自动学习问题不同,每个语句都没有“ true/false”标签。该模型仅分析软语言的积极示例,必须近似一般分布。如果没有明显的示例,则很难区分有效语句和无效的陈述。但是,即使有标签,一些错误也是不可避免的。可以考虑更简单的类比来理解原因。在识别图像的情况下,如果将数百万只猫和狗的照片标记为“猫”或“狗”,则该算法可以学会可靠地对它们进行分类。但是,想象一下,如果我在宠物的生日那天给每个宠物标记。日本的诞生是定性的,因此算法进展的高级都无关紧要,此任务总是会产生错误。在培训前适用相同的原则。拼写和支持遵循一致的模式,这些错误消失了梨爬时。但是,诸如宠物生日之类的罕见事实都可能导致幻觉,因为它们不能仅通过模式预测。 OpenAI的分析解释了可以通过以下单词预测产生的幻觉:理想情况下,训练前的后阶段应该能够消除这些幻觉,但这并不能完全通过上一节中所述的原因实现。 Openai摘要“我希望本文的统计观点揭示了幻觉的性质,并驳斥了一些常见的错误概念”:有人认为提高精度可以消除幻觉,因为100%精确模型不会产生幻觉。发现:无论模型的大小,搜索或推理特征的大小如何,精度都不会达到100%,因为实际问题是必不可少的,没有响应。有人认为幻觉是不可避免的。发现:幻觉是不可避免的当语言模型不确定时可以放弃答案。有人认为,避免幻觉需要一定程度的智力,只能通过大型模型才能实现。发现:小型模型易于理解自己的局限性。例如,当被要求回答毛利人问题时,毛利人可以直接回答“我不知道”,但毛利人必须判断这一信任。如报纸上所述,“校准”所需的计算远远远远远远远远远远不算精确。有人认为幻觉是现代模型中的神秘失败。发现:了解通过评估获得的生产和幻觉奖励的统计机制。一些简单的人需要良好的幻觉评估来衡量幻觉。发现:一些研究人员发表了几种幻觉。但是,与数百种传统资格相比,较高的幻觉分类很少有效基于惩罚奖励的谦卑和推论的精确性。另一方面,必须重新设计所有关键指标,以奖励不确定性的表达。 “我们的最新模型的幻觉率低,并继续努力,以进一步降低语言模型生产的可靠性错误率。”顺便说一句,根据TechCrunch的说法,Openai正在重组他的模型动作团队。这是一个小型但有影响力的研究人员团队,他们决定了公司模型如何与人互动。目前,该团队将在培训后通知OpenAI主任Max Schwarzer。团队的创始负责人乔安妮·张(Joanne Jang)将与一家名为OAI Labs的公司一起启动一个新项目。根据她的推文说:“这是一支以研究为导向的团队,专注于人们与AI合作的新界面原型的发明和设计。” https://openai.com/index/why-laguage-models-hallucinate/https://techcrunch.com/2025/09/05/openai-reorganizan-readray-team-behind-chatgpts-personity/https://x.com/joannejang/status/1964107648296482964829648296482964829682968