当前位置：首页 > 新闻中心 > 新闻详情

推算可得：专家认为ChatGPT能力也有极限

2023 / 06 / 02

亚利桑那州立大学（ASU）教授的论文检验了该产品解决数学文字问题的能力。

最近，保罗·沙卡里安(Paulo Shakarian)的儿子想和自然语言处理工具ChatGPT互动一下，于是他生成了一个科幻类电影剧本，剧中阿诺·施瓦辛格将与尚格·云顿互博。

欢迎来到人工智能的世界。

ChatGPT由一家旧金山的小公司OpenAI设计而成。这个产品与其他大语言模型不同的是，它可以直接和大众进行沟通交互。

不知道孩子的生日该怎么庆祝？可以问ChatGPT。

想要写一首莎士比亚式的诗歌？ChatGPT可以为你创作。

作为亚利桑那州立大学Ira A.富尔顿科技工程学院的副教授，沙卡里安负责的Lab V-2主要研究人工智能领域的各种挑战。沙卡里安对ChatGPT高阶推理能力并不完全信服。在一篇人工智能促进会春季研讨会收录的论文中，沙卡里安详细列举了他对ChatGPT进行的1000个数学应用题的研究结果。

“我们一月初在ChatGPT上进行的初步测试显示，其表现明显不如最先进的数学应用算法，准确率不及后者的60%。我们正在进行一项新的实验，因为OpenAI称他们发布了ChatGPT的新版本，优化了数学解决能力。”

ASU新闻采访了沙卡里安，就这篇论文进行了解，并谈论了ChatGPT作为一项产品的功用。

Q：你会如何向对ChatGPT还不熟悉的人介绍这款产品？

A：它是围绕着一个预测下一个词的概念展开设计的，你可以随时对它进行提问，它将根据语料库（文本和语音）数据来预测相关的词是什么。它背后的支撑技术就叫“Transformer”。这一块非常关键，因为早期技术只能针对非常短的问题提供有效回答；但如果内容长一些，或是更偏日常化，回答起来就有难度。

Q:那么，大家可以用ChatGPT做什么？

A：在我看来，这款产品可能在创意或艺术领域，以及娱乐行业，更能充分得到应用。准确率对于这些行业来说并不是最重要的。比如说创意写作类，可能会非常有意思。最近《纽约时报》的记者发表了一个关于他和聊天功能进行对话的故事。整个对话又长又奇怪，话题的走向也渐渐不太对。但从另一个角度来考虑……确实给人一种另一端有人（操作）的感觉，可能会有人从中找到娱乐的价值。话虽如此，这其中也有一些道德隐患，毕竟这些模型表现得非常像真人，并以此取得用户的信任。但设计师很难控制他们与单纯又脆弱的个人所交流的内容。这些问题与社会工程的问题相关。

Q: ChatGPT的局限有哪些？

A：众所周知的一个局限就是它的信息仅更新到2021年底。这是由于ChatGPT用的是所谓的“训练模型”，也就是说它是通过语料库来进行训练的。数据总有截至的时间，就停在了2021年底。所以如果你要添加新的数据，这个过程通常只能从零开始。这是个大工程，因为对计算成本的估计，仅仅是计算机和电力成本……就在四到五百万美元左右。因此，要做到这一点花费是巨大的。这就是为什么用于纳入其中的数据的局限是很大的。

Q：也就是说我无法对2022年发生的任何事情进行提问，对吗？

A：是的。最近微软宣布使用OpenAI创建的类似模型来提升Bing（微软的网站搜索引擎）。它不再是提供一个答案。你可以输入你的问题，它在幕后生成搜索查询，然后将这些搜索结果转化为语言模型，并以此为你提供解答。

Q:听起来和谷歌很像。

A：确实很像，但它是把语言模型作为人类和搜索引擎之间的沟通层。比如说你想咨询买车的事情，而你对车子的大小有很具体的要求，可能因为你的车库很小或者其他原因。以前你可能要做一些研究来确定各种车辆的尺寸，然后围绕确定哪些车辆符合标准做另一轮搜索，而你只需在新的Bing上输入需求，它使用语言模型同时开启一堆不同的搜索。然后两者结合起来，给你一个最终结果。

Q：所以关键在于，这个处理过程更快。

A:是的。从搜索引擎的角度来看，这可能有一些优势。但也有一些严重的缺点，因为语言模型，无论是在创建查询还是在汇编结果时，都没有区别，比如说，添加一个额外的句子增加可读性，还是添加一个额外的句子，包含一些听起来与主题有关的虚假信息。正因如此，使用这类产品测试的用户已经发现结果里有事实错误。所谓“事实”，我指的是最终结果和搜索引擎实际找到的差异。诸如此类的问题就是需要这些公司去解决了。

Q：你希望通过论文发现什么？结果又体现了什么？

A：在ChatGPT刚问世的时候，涌现很多评论说它在数学方面表现不佳。在自然语言处理领域有一条研究路线，人们研究如何创建算法来解决数学应用问题。以一个初中生会碰到的数学应用题为例，也许会用到一个方程组，不算太糟，比如两辆火车以不同的速度行驶（到同一个地方）。你可以用代数来解决这些同时性问题。这些数学应用题的关键之一是，它们需要多步骤的推理。这就意味着你看一眼这个问题，就有一个翻译的步骤，也就是把文字变成方程。这些都是我们在高中时做过的多步骤，我们想看看ChatGPT是否能正确完成这些步骤。我们可以得出的结论是，ChatGPT的局限性之一是它无法很好地进行多步骤逻辑推理。这是有道理的，因为底层技术真的不是为这个设计的。

更多精彩，欢迎关注【ASU在线】官方公众号。

撰文 | Scott Bordow
编辑 | Anna Wei
来源 | ASU官网

上一条

返回新闻列表

下一条

推算可得：专家认为ChatGPT能力也有极限

大学生的5个时间管理技巧

学习网上大学课程时保持有序的5个技巧

亚利桑那州立大学连续7年被评为美国最具创新力的大学

Hi ASU！2021 ASU Onboarding上海站！

亚利桑那州立大学健康学院教授荣获ASHA“协会荣誉”称号