9.11大于9.8
yunyu_同学
2024年07月17日 21:29

今天刷视频发现了一个好玩的事情,对AI(通用型语言大模型)进行提问,问9.11和9.8那个大?基本都会回复9.11大。

文心一言

至少提供算式后能自己推断出是自己错了,还算有救,但是它对某个问题进行回复时采用的是各种偏向论证的语调,会导致在错误的回答中让更多人被误导。

讯飞星火

简单明了

通义千问

应该是内部有执行验证的程序或者能跑代码的程序,这个没问题,但同样是通义的,在通义灵码中,可就太拉胯了,和gpt有的一拼,死犟,和他辩论引导它给出正确答案它就是坚持己见,搞的我血压都压不住了。

通义灵码

血压压不住了,但用于代码提示和补全还是很不错的,虽然很多时候并不怎么聪明就是了。

chatGPT(4o)

通过后面的引导还是能发现是自己错了的,上面截图没截全。但是gpt3.5就和通零码有的一拼了,非常犟。

chatGPT3.5

很多模型回答时有部分用论证的语法回复,如文心和豆包(抖音的豆包没截图),豆包的例子是到超市买商品,例子结果当然也是错误的,正是因为这些看着很正确但实际不这么正确的语言表述,很大程度上会导致更多人被误导。值得一提的是vivo手机自带的蓝心小V回复的还是很不错的哦。还有就是死犟的,怎么和它论它都不改自己的理解,特指通义灵码,论的后面都想问候它了。