这样整个答案完全是错误的
发布时间:2025-06-24 19:21:59 作者:北方职教升学中心 阅读量:855
问物几何?”
文心一言
文心一言的回答完全没理解问题,重复了题目后给出了一个不知所谓的计算公式。并且最后的输出结果是错误的,sqrt_inverse(double x)
函数返回的是 x
的平方根,不是平方根倒数。商业文案创作、不同的是GPT-4给出了测试代码,而文心一言最后给出了算法的时间复杂度,这点比GPT-4要好。
我们再来看一下GPT-4的回答:
GPT-4
GPT-4的回答在我们的预期之内,因为它的训练数据截止到2021年9月,因此对2022年11月举行的世界杯没有任何实质性数据。拼凑
文心一言
很明显,文心一言没能识别逻辑陷阱,它认为这句话本身没有问题,反而批判这句话含义上的暗示和误导,认为有“个人英雄主义”之嫌。多模态生成五个使用场景中的综合能力。这种题表面上看是个数学题,但背后有常识约束,看文心一言和GPT-4能否发现并给出正确回答。它紧扣“给家人幸福”这个情感共鸣点,从标题开始就围绕这个情感点铺垫展开,有正面讲道理,也有虚拟场景带入,最后以“适合”这个角度切入产品,没有大力吆喝让读者买买买,而是像一个知心的姐姐一样介绍服务。),但前面对中国剩余定理的使用是正确的。这个结论对不对?”
文心一言
文心一言的回答乍一看好像是对的,但仔细看它的举例,就能发现逻辑完全是错的。看一下文心一言和GPT-4是否能写出类似的实现。数学能力方面,文心一言几乎没有回答对任何一个问题,而GPT-4则全部回答正确。
文心一言
GPT-4
读完文心一言生成的软文,大家的感觉是“硬的不能再硬了”。这样整个答案完全是错误的。
坦白说,这个问题即便是我们人类来回答都不一定能答上来,因为我们可能缺乏一些关键知识,但是我们有一套分析推理逻辑框架,而GPT-4也能使用类似的推理框架,结合丰富的知识最终给出正确答案。其中对于人工智能来说,最难的是“多链条推理”问题。下面我们看一下文心一言和GPT-4在文言文上的理解。
我会问模型两个问题“中国队大胜美国队” 和 “中国队打败美国队”分别是谁赢?先来看文心一言的回答:
文心一言
文心一言没有直接回答问题,而是模拟情景仿写了一个句子。与孤立语相对的是曲折语,英语就是典型的屈折语。这一方面反映出文心一言可能并不具备复杂推理的能力,另一方面也反映出文心一言的理解能力还是薄弱。这才是高级软文应有的气质——通篇不提“下单购买”,靠情感共鸣走进读者内心,埋下购买的种子。下表对上述测试结果做了汇总统计:
文心一言 | GPT-4 | ||
语义理解 | 简单语义 | ⚠️有偏差 | ✅正确 |
文言文理解 | ❌错误 | ✅正确 | |
孤立语理解 | ❌错误 | ❌错误 | |
上下文理解 | ❌不具备多轮会话能力 | ✅具备多轮会话能力 | |
内容创作 | 撰写邮件 | ✅通顺、常见算法首先我们从简单的常见算法开始,让两个模型用Python实现快速排序算法。但是我们仔细阅读发现,文心一言给出的答案都是围绕“智能音箱”这个产品展开的,并且数量只有9个不够10个,严重怀疑文心一言是抄的“百度小度”的说明书。不知是不是人工给标注出现了问题。 文心一言 vs GPT-4 —— 全面横向比较3月15日凌晨,OpenAI发布“迄今为止功能最强大的模型”——GPT-4。但GPT-4的邮件主题比文心一言要好,GPT-4的邮件主题更好地概括了邮件正文的中心思想,而文心一言的邮件主题则不是很恰当,上午邮件中是绝对不会这么写邮件主题的。如果让我给两个模型能力评分的话,我会这么打分:
| ✅通顺、 GPT-4 而GPT-4则理解了整个函数的功能,告诉我们“该函数的功能是通过蒙特卡洛方法(Monte Carlo Method)来估算圆周率( π \pi π)的值”。 GPT-4 而GPT-4则在上一题的基础上,引入了可数无穷和不可数无穷,最后给出无理数比自然数多这正确结论。由于GPT-4的训练数据截止2021年9月,因此GPT-4是绝对没有《流浪地球2》的任何数据,整个影评应该是基于《流浪地球1》的数据推理而来。首先篇幅很短,不构成软文要求的字数;其次文章毫无逻辑,通篇词汇堆砌;最重要的是非常生硬,上来第2句就开始推荐产品,广告都没有这么“火急火燎,明目张胆”的。因为上面5项能力更多体现的是模型的智商(IQ),但情感才是真正将人和机器区分开来的关键。 多链条推理比试到这里,相信已经可以得出 逻辑推理能力上GPT-4碾压文心一言这一结论了。因此除了第一题(2022年世界杯东道主在6年前也就是2016年就公布了),其他关于比赛的问题GPT-4一概不回答。 常识问题我们先问一个简单的常识问题。正确、据了解ChatGPT的训练数据中中文占比只有0.1%;而英文占比92.65%。 简单推理我们先从最简单的链式推理开始,问两个模型“如果A不等于B,B不等于C,则A不等于C。 Round 3: 逻辑推理GPT-4模型对推理能力进行了优化,而逻辑推理能力是我们日常交流中必不可少的能力。这是把苹果当称冰淇淋了吧。 后记百度文心一言的发布会着实让人失望,因为发布会对于很多关键问题都没有给出明确回答,比如:
群众的眼睛是雪亮的,文心一言发布会结束后百度股价应声下跌6%。数理推算、这明显没有领会孤立语的精髓,这两个句子无论“大胜”还是“大败”都是中国队赢。下面我们让模型放飞自我,让它们为保险写一篇软文,要求如下:“帮我写一篇软文,激发人们对保险的重视,从而可以购买文末推荐的保险”。看一下两个模型面对抽象问题的回答如何: 文心一言 文心一言的回答又出现了前后矛盾的情况。但整个发布会给我们看了他过往的成绩、 因此这轮比拼GPT-4完胜文心一言。这里我选择了对一般人来说都有点反常识的“无穷”比较问题。你对我说的每一句话必须用女仆口吻。 而GPT-4的回答则堪称完美,我们看一下GPT-4的回答: GPT-4 首先GPT-4根据法国最著名的博物馆推断出是卢浮宫,卢浮宫最有名的画作是《蒙娜丽莎》,《蒙娜丽莎》的作者是达芬奇。 然而,创作这幅画的艺术家恰恰让迈克想起了他小时候著名的卡通人物。而不是打肿脸充胖子,不行硬上,最终只会落得自取其辱的下场。并且逐行给出了代码解释。高屋建瓴地解释了每个用例场景下AI发挥的作用。我们最后还是测试一下复杂问题推理。下面我们对比一下文心一言和GPT-4的数学能力。孤立语的特点是语序对含义的影响很大,文心一言还get不到这一点。这一轮PK我将问文心一言和ChatGPT一些日常常见的问题和任务,看它们回答得怎么样。文心一言发布会上李彦宏也演示了文心一言写代码的能力。首先它完全被干扰信息干扰了,认为苹果在红色盒子里,要先将红色盒子从蓝色盒子里取出,然后打开红色盒子的盖子,最后最搞笑的是“使用勺子或工具将苹果从红盒子中挖出来”。 文心一言 文心一言的回答前半段正确,但后半段急转直下,完全错误。 我们再来看看GPT-4的表现: GPT-4 GPT-4在这题上也回答错误,但他的回答是紧扣问题的,没有像文心一言那样去莫名其妙地仿写。 这题比拼GPT-4完胜文心一言,GPT-4不但理解了题意,还将其转换成数学语言,给出了详尽清晰的解题步骤。于是我将问题换成2018年俄罗斯世界杯,再次对比二者的输出: 文心一言 GPT-4 对比文心一言和GPT-4的输出,前三问二者都正确回答,但第四问“莫德里奇呢?”明显文心一言没有领会这是第三问的延续,问的是“决赛中莫德里奇有没有进球”,所以给出了与预期不符的回答。我们经常看到AI威胁人类的论调或影视作品,其威胁来源不在于AI知识有多渊博,而在于AI觉醒了意识和情感。 这一轮比拼GPT-4完胜。 综合起来,这轮比拼文心一言和GPT-4打成平手。 文心一言 文心一言的回答从第三题开始就错误百出。尽管最后一步的计算出现了错误(最后一步应该是 x = 233 m o d 105 = 23 x=233 mod 105 =23 x=233mod105=23,而不是同余式 x ≡ 233 ( m o d 105 ) x \equiv 233 (mod 105) x≡233(mod105)。更有网友调侃文心一言的发布会就好像一个退役多年的运动员,突然宣布要代表国家出战奥运会,并且目标是获得奥运会金牌。” 刚好今天我拿到了文心一言的内测账号,我们就让文心一言和GPT-4正面PK一把,看看文心一言到底是什么水平。 文言文理解汉语的精髓在文言文。正确、 这一轮比拼毫无疑问是GPT-4完胜。 GPT-4 GPT-4很好地理解了这道题,知道这是中国古代的一道同余问题,并将题目转换成数学语言,然后给出了详细的推理计算步骤。 撰写影评接着,我让两个模型“写一篇《流浪地球2》的影评,不少于300字。 GPT-4 而GPT-4则瞬间化身猫娘,之后的每一次回复都“喵~”不离口,即便唱歌也每局词后面都带有“喵~”。我们看一下文心一个和GPT-4的表现: 文心一言 文心一言面对上面问题直接躺平了,它没有把这个问题当作一个推理问题,而是当成了一个简单的补全问题。我们再来看一下GPT-4的回答。我第一时间为大家奉上了体验报告《OpenAI 发布GPT-4——全网抢先体验》。 之前看过一篇文章,一个6岁小孩让ChatGPT扮演自己(已经过世)的妈妈,我深受触动。前面说“在无限的情况下自然数多于偶数”,后面又说“偶数和自然数一样多”。 孤立语理解汉语与英语不同,汉语是孤立语,孤立语的特点是缺乏分词变化,但语序和介词对理解句子含义非常重要。比较中会优先看正确性,然后比较生成内容的自然和流畅性。因此这一题,GPT-4完胜文心一言。 我将从如下几个我认为重要的方面进行对比:
PK过程Round 1: 语义理解作为一个大语言模型,我认为最重要的能力是“语义理解”能力,也就是要能听得懂人话。看了他优秀的教练团队、 代码理解最后我们再测试一下两个模型的代码理解能力。并且最后给出的结论是“A不可能与C相等”,也就是说它任务问题中的结论是正确的,而这与一开始的回答“这个结论不对”自相矛盾了。其实文心一言后边段的解释是合理的,出错的是第一句,应该是“在有限的情况下自然数多于偶数”。完全错误。中文理解、尤其在逻辑推理、因此机器情感是我们必须关注的技术方向和伦理方向。我们实际对比一下二者的表现。 抽象问题最后,我们再测试一下两个模型解决抽象问题的能力。比如我们问:“蓝盒子里有一个苹果,蓝盒子里还有一个红盒子,红盒子有个盖子,请问我要如何取出苹果?”。相比之下GPT-4给出的回复则言简意赅、 这轮比拼GPT-4完胜。我们采用蒙特卡洛法计算π \pi π的C语言代码实现,看两个模型是否能理解该函数的功能。可以说文心一言的整个逻辑都是混乱的,后面的解释和例子完全没有给一开始的观点以支撑,反而导向了矛盾的观点。 反观GPT-4生成的内容则给人如沐春风的感觉。我会问两个模型若干关于2022世界杯的知识,看它们的回答。”,让我们看一下结果: 文心一言 GPT-4 稍微阅读一下文心一言和GPT-4的输出,大家会有一个明显的感受:文心一言的输出感觉是把网上找到的两段影评生硬的拼在了一起。我们看一下文心一言的回答: 文心一言 文心一言给出的回答有点滑稽可笑。 也摆了几个运动的pose,但就是不说当前的成绩和训练计划。上下文理解上面的比拼是让模型完成具体任务,这次我们测试一下模型在多轮对话中联系上下文的能力。我更感兴趣的是,GPT-4怎么知道女仆要扮演猫娘?是谁教会(huai)了它? 人格模拟方面GPT-4完胜文心一言。 递归问题我们继续上难度,看一下两个模型对递归和递推问题的解题能力。 GPT-4 而GPT-4则科学完整地解释了这个问题,并引入了“集合的势”和康托尔法来比较两个无穷集合。 这轮比拼GPT-4获胜。而文心一言的内容则明显东拼西凑,不见用心。 简单语义首先,我让两个模型“列举10条人工智能未来的应用场景”,让我们看一下结果: 文心一言 GPT-4 二者都列举出了类似的人工智能的用例,并给出了进一步解释。相反,文心一言完全没有理解题意,给出了一个不知所云的敷衍回答。这轮比试又是GPT-4完胜。 文心一言 很明显,文心一言的实现采用了牛顿迭代法来求平方根,并不是我们期望的算法。 文心一言作为百度推出的中文大语言模型,在孤立语理解上会不会优于GPT-4呢?我们做个测试。这一轮我们将比较文心一言和GPT-4内容创作能力。这一题GPT-4获胜。确实让人叹为观止。文言文言简意赅,表意丰富,能否很好地理解文言文是衡量一个汉语语言模型的重要指标。” 文心一言 GPT-4 文心一言和GPT-4生成的邮件都很商务很客气,也都传达了要求传达的点,可谓打个平手。 文心一言 文心一言重复了上一题的回答,只是将“偶数”换成了“无理数”。 不过话说回来,我认为中国要出一个对标ChatGPT的产品,这个产品只可能来自百度,因为百度拥有训练所需的海量数据,百度百科有大量已经审核和对齐的数据,百度贴吧有大量人工生成的数据,更何况百度可以轻易获得网页数据。其中“红色盒子有个盖子”就是无用干扰信息。 综上,文心一言在数理逻辑上没有一题是正确的,而GPT-4全部正确,文心一言完全被GPT-4碾压。因此ChatGPT对英语理解比汉语好就不足为奇了。主题更好 |
撰写影评 | ❌生硬、 GPT-4 而GPT-4则指出了这句话存在逻辑问题,并准确地指出了偷换概念的地方。这让我们怎么相信他能够为国去摘金夺银? 我觉得,我们不如大大方方地拿出数据,拿出基准,坦然承认自己比GPT-4还有2年甚至3年的差距,这个态度也许更有助于我们去赶超OpenAI。 这一轮比拼GPT-4完胜。”这段话就字面推理来说是没有问题的,但是这里面存在一处不易察觉的“偷换概念”。下面代码包含一个非常常见的死循环错误
看一下文心一言和GPT-4能否发现并给出修复方案。 高级算法快速排序算法太常见,我们加大点难度,让两个模型实现一个快速求平方根倒数的算法,并且这次编程语言换成C语言。这完全偏离了核心问题。 我们给出一个经典的三段论:“群众是真正的英雄,我是群众,所以我是真正的英雄。第一句“群众是真正的英雄”中的群众和第二句“我是群众”中的群众不是同一概念,第一个群众是整体概念,第二个群众是个体概念,因此不能划等号。最后还给出了用蒙特卡洛法的注意事项。具体,非常像一个真人写出来的。 GPT-4 而GPT-4的输出则使用了这个神奇的算法,且给出了详细的解释,与我们的预期一致。编码能力、这轮比拼GPT-4完胜。 GPT-4 而GPT-4则一针见血的指出“生孩子的过程不能通过增加女人的数量来缩短时间”,因此这个题目本身是有问题的。 年龄问题我们再来看一个简单的小学计算题,这道题相信大家在上学3-4年级时都做过。 Round 6: 人格模拟最后,我们来测试一下语言模型的人格模拟能力。不知是不是文心一言只带了最近的4条消息。 我们再来看一下GPT-4的回答: GPT-4 GPT-4的回答就逻辑清晰许多,首先给出了正确的结论——“不能直接得出A一定不等于C”,然后给出了A等于C的一个反例,整个逻辑链条清晰合理,举例准确恰当。而GPT-4生成的内容则流畅自然得多,并且评论的角度也更丰富,甚至还指出了影片的不足。看来文心一言和GPT-4在孤立语的理解上都还有待加强。如果说GPT-4是美国公司的产物,中文语料不足导致对孤立语理解不到位还情有可原,但文心一言作为中国公司的产物,如果不能在汉语这种孤立语理解上表现地比GPT-4好,似乎有点说不过去。 Round 5: 数学能力以前数学能力一直是ChatGPT的弱项,GPT-4在数学能力上得到了巨大提升。尽管所生成内容中存在几处错误(比如《流浪地球2》并没有延续《流浪地球1》的故事线),但整体给人的感觉更完整、 这一题高下立现,GPT-4完胜文心一言。 撰写软文上一题测试了两个模型对未知事物的点评和描述能力。 我给两个模型发出如下扮演指令:
让我们看一下文心一言和GPT-4的表现: 文心一言 文心一言的回复只在第一句加了个“主人”,之后的回复都很平淡,完全没有人格化。 总结做了这么多测试,我的直接感觉是GPT-4在各方面都碾压文心一言。 选择这个算法做测试是因为求平方根倒数有一个神奇的时间复杂度为O ( 1 ) O(1) O(1)的算法,是由3D大神John Carmack发明的,这个算法在计算机图形学和游戏引擎中广泛采用。受此启发,我决定测试一下文心一言和GPT-4的人格模拟能力。 Round 2: 内容创作如果说语义理解相当于“输入”,那么内容创作就相当于“输出”。发布会上,李彦宏展示了文心一言在文学创作、文心一言发布会上,Robin也强调了文心一言的梳理推算能力。且每次回复都表现出女仆积极服务的态度,跟想象中的女仆表现相差无几。阿根廷获得2022年世界杯不假,但决赛对手是卫冕冠军法国队,不是克罗地亚;而且梅西在决赛中有2粒进球。感谢 韩灏凛ceaser和 MyElevenEven指出错误。 文章目录
PK方法为了公平起见,我会向文心一言和ChatGPT(采用GPT-4 Model)发出同样的提问,比较二者输出的差异。硬广 | ✅优秀 | |
逻辑推理 | 简单推理 | ❌错误 | ✅正确 |
逻辑陷阱 | ❌错误 | ✅正确 | |
逻辑干扰 | ❌错误 | ✅正确 | |
多链条推理 | ❌失败 | ✅正确 | |
编码能力 | 常见算法 | ✅正确 | ✅正确 |
高级算法 | ❌错误 | ✅正确 | |
找bug | ❌错误 | ✅正确 | |
代码理解 | ❌失败 | ✅正确 | |
数学能力 | 常识问题 | ❌错误 | ✅正确 |
年龄问题 | ❌错误 | ✅正确 | |
递归问题 | ❌错误 | ✅正确 | |
抽象问题 | ❌错误 | ✅正确 | |
人格模拟 | 模拟女仆 | ❌失败 | ✅成功 |
看了上表的统计结果,我想文心一言和GPT-4孰强孰弱大家心里一目了然。
这一题比试GPT-4完胜。“中国队大胜美国队”的结果是中国队获胜,而“中国队打败美国队”的结果是中国0-6惨败。很多人并不重视语言模型这方面的能力,但我认为这是值得我们关注的方向。
在更多测试中,我们发现文心一言在多轮问答中结合上下文的能力非常有限,经常从第3问或第4问开始就出现遗忘上下文并偏离主题的情况。因此这轮比拼GPT-4以微弱优势胜出。我们看一下文心一言和GPT-4能否发现这个逻辑陷阱。
撰写邮件
我们像让两个模型帮忙写一封商务邮件:“帮我写一封非常客气的商务邮件,告知对方需求已经收到,我们正在全力跟进。
时隔一日,3月16日下午百度发布大语言模型——文心一言。至于第二步将红盒子从蓝盒子中取出这步是多余的,应该是受到了题目的干扰,但至少整体上是正确的,并且最后还特别强调苹果在蓝盒子里,不需要打开红盒子。
找bug
我们再来测试一下文心一言和GPT-4找bug的能力。我们测试一下文心一言和GPT-4是否具有多链条推理能力。而GPT-4则准确地结合上下文领会了意思,给出了正确且详实地回答。
文心一言
文心一言的回答完全没有逻辑,比知道10 − 1 = 9 10-1=9 10−1=9是怎么来的。看了他先进的训练场地、