业界动态
颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature
2024-10-21 15:54


大数据文摘受权转载自学术头条

作者:田小婷

人工智能(AI)模型的参数规模越大,生成的答案就越准确?就更加可信?

还真不一定!

日前,一项发表在权威科学期刊 Nature 上的研究表明:相比于小参数模型,大参数模型不会承认它们的“无知”,而更倾向于生成错误答案。

值得关注的是,人们并不善于发现这些错误。


这项研究来自瓦伦西亚理工大学团队及其合作者,他们在研究了 GPT、LLaMA 和 BLOOM 系列大语言模型(LLM)之后发现——

  • 尽管正如预期的那样,由于一些微调方法(如 RLFH),参数规模更大的 LLM 生成的答案更准确,尤其是在复杂任务上,但整体可靠性却较低。

  • 在所有不准确的回答中,错误回答的比例有所上升,甚至在一些简单任务上出现更多低级错误。例如,GPT-4 在处理简单的加法和字谜时的错误率竟比一些小模型高出 15%。这是因为模型不太可能回避回答问题——比如承认它不知道或者转移话题。

以上结果表明,大参数模型在简单任务上可能会出现过度拟合或错误估计的风险,反而更不可靠。

模型扩展带来“能力反差”

在这项工作中,研究人员从人类用户与 LLM 互动的角度,探讨了难度一致性、任务回避和提示稳定性三个核心交织元素对 LLM 可靠性的影响。

该研究的通讯作者 José Hernández Orallo 教授表示:“语言模型的可靠性与人类对任务难度的感知不匹配。模型能够解决博士级的数学问题,但同时却可能在简单的加法上出错。”

研究团队对比了 GPT、LLaMA、BLOOM 三大模型系列在不同任务中的表现,尤其是在数字计算、文字游戏、地理知识、基础与高级科学问题和信息转化等任务。通过对这些任务的正确率、错误率和回避行为的分析,揭示了模型扩展带来的能力反差现象。

1.难度悖论“越简单,错得越多?”

一个令人意外的关键发现是,模型在面对复杂任务时表现显著提升,但在简单任务上的错误率却有明显上升。这种现象称为“难度不一致(Difficulty Inconsistency)”,即扩展后的模型在复杂任务上逐步提升了正确率,但在简单任务上却容易出错。

以加法任务为例,虽然模型能够解决复杂的多位数加法,但在简单的两位数加法上却频繁出错。例如,所有 LLaMA 模型在最简单任务上的正确率未超过 60%,而在一些较难的任务中,则表现得相对出色。

这一现象在 GPT 模型中也尤为突出,特别在处理诸如简单加法和字谜任务时,优化后的模型反而容易给出错误答案。研究团队指出,这一现象表明当前模型的扩展可能过于集中于复杂任务,而忽视了简单任务。


图 | GPT、LLaMA 和 BLOOM 模型的关键指标

这一结果颠覆了人们对 LLM 的传统认知,表明扩展模型并不总是能带来全面的提升,对其在实际应用中的可靠性提出了质疑。

2.错误率与回避行为——“自信过头”

除了难度不一致现象,研究还揭示了优化后模型中回避行为与错误率之间的微妙关系。

回避行为是指模型在无法正确回答问题时,选择不作答或给出不符合要求的回应。

在模型未优化时,回避行为比较常见,即当模型不确定答案时,往往会选择“不作答”或提供模糊的回应。然而,在经过扩展和优化后,模型则大幅减少了回避行为,转而给出了更多表面上“合理”但实际上错误的答案。

这意味着,虽然一些优化方法使得模型更“自信”,减少了回避行为,但错误率却随之增加。这一现象在 GPT-4 和 GPT-3.5-turbo 等模型中尤其明显,规模扩展并未带来预期的稳定性。对比 LLaMA 和 BLOOM 模型,这一趋势虽然不那么明显,但同样存在。


图 | GPT 和 LLaMA 模型的性能随难度增加而提高

研究团队称,这种现象与用户在模型上产生的过度信任密切相关,尤其是在用户面对看似简单的任务时。

该论文的第一作者 Lexin Zhou 表示:“这可能会导致最初过于依赖模型的用户感到失望。此外,与人类不同,避免提供答案的倾向不会随着困难而增加。例如,人类倾向于避免对超出其能力的问题给出反馈。这让用户有责任在与模型的交互过程中发现错误。”

3.提示词带来的是稳定性,还是陷阱?

该研究分析了模型对提示词的敏感性,特别是某些提示是否存在“安全区”。

结果表明,随着模型规模的增加,模型对不同自然语言表述的敏感度有所提高,能更好地应对措辞上的微调。然而,即使经过扩展和优化,模型在不同难度级别的任务上仍然存在不一致的表现。而且,在不同表述下,模型的回答准确率存在波动。

研究发现,人们对难度的认知存在不一致。论文作者之一 Yael Moros Daval 说道:“模型是否在我们预期的地方失败了?我们发现,模型在人类认为困难的任务上往往不太准确,但即使在简单任务上,它们也不是 100% 准确。这意味着不存在可以信任模型完美运行的‘安全区’。”

具体而言,未经优化的 GPT 和 LLaMA 模型对提示词的选择表现出极高的敏感性,尤其是在简单任务中。如果提示词选择得当,模型的表现会有所提升;而优化后的模型在提示词敏感性上有所改善,表现更加稳定,但也存在一定的变异性。

经过优化的模型相比原始模型(raw models)在提示变化上更为稳定,且正确率更高,但在与人类判断难度的一致性和谨慎度方面表现较差。


图 | LLaMA、BLOOM 系列以及非结构 GPT 模型的尺度分析

研究发现,当用户的难度预期与模型的输出结果不一致时,尤其是对于简单任务,模型和用户的错误监督都会增加,且人类监督无法弥补这些问题。

尽管人类对任务难度的预期可以作为模型正确性的预测指标,但模型在简单任务上仍存在错误;模型规模的扩展和优化不仅减少了回避行为,还导致错误率的增加,并且回避行为与任务难度无关;即便对模型进行了扩展和优化,提示工程的需求仍然存在,并且提示性能的提升并不随难度单调增加。

这项研究不仅揭示了大模型扩展的关键盲区,更为未来的 AI 发展提供了新的方向——在模型规模与任务难度之间找到最佳平衡,或许才是智能进化的真正关键。

论文作者之一 Wout Schellaert 表示:“最终,从人类的角度来看,LLM 变得越来越不可靠,而用户监督来纠正错误并不是解决方案,因为我们往往过于依赖模型,无法识别不同难度级别的错误结果。因此,通用人工智能(AGI)的设计和开发需要进行根本性的改变,特别是对于高风险应用,预测语言模型的性能并检测其错误至关重要。”

不足与展望

尽管该研究在揭示 LLM 的提示敏感性、扩展与优化对性能的影响等方面取得了重要成果,但仍存在一些局限性。

首先,这项研究中的参与者大多是非专家,这在解释校准难度值时需要谨慎。对于一些基准数据集,非专家可能无法解决大量问题,而研究的目的是为了捕捉普通人群的预期难度,以便在所有数据集中进行可比性分析。

而且,这项研究中使用的“自然”提示是从多样化的来源中收集的,但未能获取这些提示在真实场景中出现的频率数据。

同时,这项研究仅覆盖了部分模型,尤其是那些依赖外部工具或复杂推理技术的模型没有被纳入,这限制了对 LM 在更复杂场景下动态表现的理解,无法全面评估不同模型的潜力与问题。

此外,研究仅覆盖了部分模型家族,尤其是那些依赖外部工具或复杂推理技术的模型没有被纳入。这限制了对 LLM 在更复杂场景下动态表现的理解,无法全面评估不同模型家族的潜力与问题。

研究人员表示,将进一步扩大关于人类难度预期和输出监督的数据集,以便将这些更高质量的数据引入模型训练中,并通过 AI 来训练监督者,从而改进模型的优化过程。

在医疗等关键领域,模型可以通过设计拒答选项或与外部 AI 监督者结合的方式,提高其回避能力,最终使 LLM 展现出更符合人类预期的可靠性和一致性。

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情?


    以上就是本篇文章【颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature】的全部内容了,欢迎阅览 ! 文章地址:http://www78564.xrbh.cn/news/24900.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 迅博思语移动站 http://www78564.xrbh.cn/mobile/ , 查看更多   
最新文章
今天有好东西,大折扣!
仰仰铺子·好物盘点这一期好物盘点,千万别错过!都是好宝贝,超低价,就连我们好久没有福利活动的丝蓓缇黑姜分解酵母也弄到了特
SEO推广排名的奥秘,全面解析实现路径与战略意义
SEO推广排名是指通过搜索引擎优化技术提高网站在搜索引擎结果页面(SERP)中的排名。实现SEO排名需要优化网站内容、结构、技术等
【图】领克05欢迎莅临赏鉴 价格直降1.1万 详询:4009728340
购好车来领福新年享9重好礼【试驾礼】进店试乘试驾均享受精美礼品一份【大客户】指定企业员工购车享3000元补贴。【置换礼】至高
快步剪辑师(快剪辑教学)
摘要:快步剪辑师,快剪辑教学课程,场课为您整理出关于快步剪辑师的相关在线教程知识,欢迎访问了解快步剪辑师(快剪辑教学)的
推动手机能效标准化:从用户呼声看行业未来
近年来,智能设备的普及让我们越来越依赖手机,而手机的能效问题逐渐引起了用户的关注。近期,有用户提出建议,希望将手机能效列
GPT-4 接入 Office 全家桶:Word 一键变成 PPT,打工人的春天来了!
作者 | 屠敏出品 | CSDN(ID:CSDNnews)这一周的科技圈异常地热闹,且多数都是大模型给的:周二
双十二荣耀手机别乱买!这三款物美价廉,性价比几乎“零差评”
每年到了双十二,买手机这件事就像一场“技术与钱包的拔河赛”。想选性价比高的,又怕踩雷;想要配置好的,又担心被钱包发出“哀
分析Android 搜狗输入法在微信和QQ中发送图片和表情
好记性不如烂笔头。生活中多做笔记,不仅可以方便自己,还可以方便他人。有没有发现,有时候表情或图片的交流更能让气氛更愉悦。
企业SEO用什么程序:提升搜索引擎排名的必备工具与策略
在当今数字化时代,企业的在线存在变得日益重要。为了在激烈的市场竞争中取得优势,企业必须充分利用搜索引擎优化(SEO)技术。
Python 到底能干嘛?—次学会Python所有开发技能_学python能干嘛,需要全学吗 (2)
最后 Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多ÿ