亚利桑那州立大学(ASU)教授的论文检验了该产品解决数学文字问题的能力。
最近,保罗·沙卡里安(Paulo Shakarian)的儿子想和自然语言处理工具ChatGPT互动一下,于是他生成了一个科幻类电影剧本,剧中阿诺·施瓦辛格将与尚格·云顿互博。
欢迎来到人工智能的世界。
ChatGPT由一家旧金山的小公司OpenAI设计而成。这个产品与其他大语言模型不同的是,它可以直接和大众进行沟通交互。
不知道孩子的生日该怎么庆祝?可以问ChatGPT。
想要写一首莎士比亚式的诗歌?ChatGPT可以为你创作。
作为亚利桑那州立大学Ira A.富尔顿科技工程学院的副教授,沙卡里安负责的Lab V-2主要研究人工智能领域的各种挑战。沙卡里安对ChatGPT高阶推理能力并不完全信服。在一篇人工智能促进会春季研讨会收录的论文中,沙卡里安详细列举了他对ChatGPT进行的1000个数学应用题的研究结果。
“我们一月初在ChatGPT上进行的初步测试显示,其表现明显不如最先进的数学应用算法,准确率不及后者的60%。我们正在进行一项新的实验,因为OpenAI称他们发布了ChatGPT的新版本,优化了数学解决能力。”
ASU新闻采访了沙卡里安,就这篇论文进行了解,并谈论了ChatGPT作为一项产品的功用。
Q:你会如何向对ChatGPT还不熟悉的人介绍这款产品?
A:它是围绕着一个预测下一个词的概念展开设计的,你可以随时对它进行提问,它将根据语料库(文本和语音)数据来预测相关的词是什么。它背后的支撑技术就叫“Transformer”。这一块非常关键,因为早期技术只能针对非常短的问题提供有效回答;但如果内容长一些,或是更偏日常化,回答起来就有难度。
Q:那么,大家可以用ChatGPT做什么?
A:在我看来,这款产品可能在创意或艺术领域,以及娱乐行业,更能充分得到应用。准确率对于这些行业来说并不是最重要的。比如说创意写作类,可能会非常有意思。最近《纽约时报》的记者发表了一个关于他和聊天功能进行对话的故事。整个对话又长又奇怪,话题的走向也渐渐不太对。但从另一个角度来考虑……确实给人一种另一端有人(操作)的感觉,可能会有人从中找到娱乐的价值。话虽如此,这其中也有一些道德隐患,毕竟这些模型表现得非常像真人,并以此取得用户的信任。但设计师很难控制他们与单纯又脆弱的个人所交流的内容。这些问题与社会工程的问题相关。
Q: ChatGPT的局限有哪些?
A:众所周知的一个局限就是它的信息仅更新到2021年底。这是由于ChatGPT用的是所谓的“训练模型”,也就是说它是通过语料库来进行训练的。数据总有截至的时间,就停在了2021年底。所以如果你要添加新的数据,这个过程通常只能从零开始。这是个大工程,因为对计算成本的估计,仅仅是计算机和电力成本……就在四到五百万美元左右。因此,要做到这一点花费是巨大的。这就是为什么用于纳入其中的数据的局限是很大的。
Q:也就是说我无法对2022年发生的任何事情进行提问,对吗?
A:是的。最近微软宣布使用OpenAI创建的类似模型来提升Bing(微软的网站搜索引擎)。它不再是提供一个答案。你可以输入你的问题,它在幕后生成搜索查询,然后将这些搜索结果转化为语言模型,并以此为你提供解答。
Q:听起来和谷歌很像。
A:确实很像,但它是把语言模型作为人类和搜索引擎之间的沟通层。比如说你想咨询买车的事情,而你对车子的大小有很具体的要求,可能因为你的车库很小或者其他原因。以前你可能要做一些研究来确定各种车辆的尺寸,然后围绕确定哪些车辆符合标准做另一轮搜索,而你只需在新的Bing上输入需求,它使用语言模型同时开启一堆不同的搜索。然后两者结合起来,给你一个最终结果。
Q:所以关键在于,这个处理过程更快。
A:是的。从搜索引擎的角度来看,这可能有一些优势。但也有一些严重的缺点,因为语言模型,无论是在创建查询还是在汇编结果时,都没有区别,比如说,添加一个额外的句子增加可读性,还是添加一个额外的句子,包含一些听起来与主题有关的虚假信息。正因如此,使用这类产品测试的用户已经发现结果里有事实错误。所谓“事实”,我指的是最终结果和搜索引擎实际找到的差异。诸如此类的问题就是需要这些公司去解决了。
Q:你希望通过论文发现什么?结果又体现了什么?
A:在ChatGPT刚问世的时候,涌现很多评论说它在数学方面表现不佳。在自然语言处理领域有一条研究路线,人们研究如何创建算法来解决数学应用问题。以一个初中生会碰到的数学应用题为例,也许会用到一个方程组,不算太糟,比如两辆火车以不同的速度行驶(到同一个地方)。你可以用代数来解决这些同时性问题。这些数学应用题的关键之一是,它们需要多步骤的推理。这就意味着你看一眼这个问题,就有一个翻译的步骤,也就是把文字变成方程。这些都是我们在高中时做过的多步骤,我们想看看ChatGPT是否能正确完成这些步骤。我们可以得出的结论是,ChatGPT的局限性之一是它无法很好地进行多步骤逻辑推理。这是有道理的,因为底层技术真的不是为这个设计的。
更多精彩,欢迎关注【ASU在线】官方公众号。
撰文 | Scott Bordow
编辑 | Anna Wei
来源 | ASU官网
关闭