产品

Operai发表了一篇罕见的文章:我们发现了AI的幻觉

编辑的机器中心报告:Pandaai最臭名昭著的错误是什么?这不是代码块,而是“幻想”。这些模型充满信心地创造了事实,这使得很难区分真实和错误。这一基本挑战是我们完全信任AI的关键障碍。大型模型具有幻觉,这几乎是常识,任何使用大型模型的人都应认真对待。 Openai还说:“ Chatgpt也可以产生幻觉。GPT-5将导致幻觉明显较小,尤其是在执行推断时,仍会产生幻觉。该学院提出了几种模型中减少幻觉的方法,但没有很好地“批准”模型中的幻觉。因此,为什么呢? D04913BE-3F6F-4D2B-B283-FF432EF4AAA5/WHYLING-LAGINAGE-MODELOS-HALLUCATE.PDFWHATS显然是合理的幻觉,这显然是合理的幻觉s。另一个广泛使用的聊天机器人亚当·陶曼·卡莱(Adam Tauman Kalai)的博士学位论文的标题,他充满信心地给出了三个不同的答案,这对他的生日没有正确的答案,给了三个不同的日期,都不好。这是为了建立SM。尽管评估本身并没有直接导致幻觉,但是评估模型性能的大多数方法都鼓励模型做出猜想,而不是面对诚实的不确定性。将其视为多重选择测试。我不知道答案,但请不要毫不犹豫地猜测,您可能很幸运能正确猜出它。将其留空,您一定会得到零积分。以同样的方式,如果该模型仅根据精度有资格(即,回答正确正确的问题的百分比),他鼓励猜想而不是承认“我不知道”。让我举一个例子。我会假设问语言模型有关某人的生日,但我不知道。如果你猜是epters 10“,您有1/365的机会正确猜测。如果您说“我不知道”,您肯定会得到零点。在成千上万的试用问题中,基于猜测的模型在记分牌上的工作效果更好,那些谨慎和公认的不确定性要比那些不确定性的问题。对于“正确的答案,可以回答”。说避免的答案是谦虚的指标,这是开放式的核心价值观之一。以前的型号Operai O4-Mini的工作略好。但是,其错误率(即幻觉率)明显更高。在不确定情况下做出战略猜想可以提高精度,但也增加了错误和幻觉。当平均数十个等级时,大多数参考点会消除精度指标,从而导致正确或不正确的二分法。简单的简单评估在某些模型中几乎具有100%的精度,已经消除了幻觉。但是,最具挑战性的评估和实际用途避免了由于多种原因而确定某些问题的确定,例如无法使用信息,小型模型的有限思维能力和需要清晰度的歧义,因此将精度设置为小于100%。但是,仅通过精确度来衡量的估值指标仍然主导分类和模型卡,因此开发人员鼓励他们构建可以推断的模型,而不是撤回g。即使模型更高级,这也会引起幻觉。原因之一是他们倾向于信心做出错误的反应,而不是认识到不确定性。在这方面,Operai指出了一个简单的解决方案。对机密错误的惩罚大于对不确定性的惩罚,并且对适当表达不确定性的行动赋予了几点。这个想法并不是什么新鲜事。一些标准化的测试长期以来使用方法来负面评估响应或对左派问题的部分奖励点,以避免盲目占卜。一些研究人员还正在研究考虑不确定性和校准的评估方法。但是,Openai表示,增加不确定性的新证据还不够。必须更新基于广泛使用精度的评估方法以避免推断。如果主要评估指标继续奖励模型模型的假设,则模型con学习谜语。不断变化的评估指标可以扩大采用减少的幻觉技术,包括新开发和先前研究的技术。以前出现的词的幻觉如何以前讨论过为什么幻觉如此难以消除?但是,这些错误来自镜子的事实上的城市?毕竟,大型且预备的模型很少会遇到其他类型的错误,例如拼写错误和支持不匹配。歌剧说区别必须是数据中有模式。语言模型是在先前的培训中首次学习的。这是在大文本中预测以下单词的过程。与自动学习的传统问题不同,每个语句都没有“ true/false”标签。该模型仅分析软语言的积极示例,必须近似一般分布。如果没有明显的示例,则更差以区分有效语句和无效的语句。但是,即使有标签,一些错误也是不可避免的。可以考虑更简单的类比来理解原因。在识别图像的情况下,如果将数百万只猫和狗的照片标记为“猫”或“狗”,则该算法可以将它们可靠地分类。但是,想象一下,如果我在宠物的生日那天给每个宠物标记。日本的诞生是定性的,因此算法进展的高级都无关紧要,此任务总是会产生错误。在培训前适用相同的原则。拼写和支撑遵循一致的模式,因此这些错误在爬升时消失了。但是,诸如宠物生日之类的罕见事实都可能导致幻觉,因为它们不能仅通过模式预测。 OpenAI的分析解释了可以通过以下单词预测产生的幻觉:理想情况下,训练前的后阶段应该能够消除这些幻觉,但这不是完整的Y通过上一节中解释的原因实现。 Openai摘要“我希望本文的统计观点揭示了幻觉的性质并驳斥了一些常见的错误概念”:有些人认为提高精度可以消除幻觉,因为100%精确模型不会产生幻觉。发现:无论模型的大小,搜索或推理的特征如何,精度都不会达到100%,因为实际问题基本上没有解决。有人认为幻觉是不可避免的。幻觉是不可避免的,因为语言模型在不确定的情况下可以放弃答案。如文档中所述,“校准”所需的计算要比精确的要小得多。有人认为幻觉是现代模型中的神秘失败。发现:了解通过EVA获得的生产和幻觉奖励的统计机制诱惑。有些人只需要进行良好的幻觉评估即可测量幻觉。发现:一些研究人员发表了几种幻觉。但是,与数百种传统资格相比,基于惩罚奖励的谦卑和推断的数百种传统资格,较高的幻觉分类很少有效。相反,必须重新设计所有主要指标,以奖励不确定性的表达。 “我们的最新模型的幻觉率低,并继续努力,以进一步降低语言模型生产的可偿债错误率。”顺便说一句,根据TechCrunch的说法,OpenAI正在重组其模型动作团队。这是一个小型但有影响力的研究人员团队,他们决定了公司的IA模型与人的互动方式。在团队中,将与一家名为OAI Labs的公司启动一个新项目。根据它的推文:“这是一个面向研究的团队,专注于新接口原始的发明和设计人们与AI合作的地方。 //X.com/JOANNEJANG/STATUS/196410764829648296482964829682 969696969696969696969696969696969696969696969696969696969696969696969696 969696969696969696969696969696969696969696969696969696969696969696969699 69696969696969696969696969696969696969696969696969696969696969696969696969696 9696969696969696969696969696969696969696969696969696969696969696969696969999 69696969696969696969696969696969696969696969696969696969696969696969696969 特殊声明:先前的内容(包括照片和视频(如果有),则可以在自动媒体平台“ Netesubid”上使用,并由“ ASE”用户发布。此平台仅提供信息存储服务。 注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。