【本篇首发于2024.05.14微信朋友圈】

还记得三年前,我在课上问了Jimmy Ba一个问题:如何实现真正的AGI?
当时Jimmy是这么说的
目前有两个主流方向,第一个是以OpenAI为代表的大语言模型,只要参数堆得够多,就可以大力出奇迹把通用智能堆出来。没想到仅仅一年出头,OpenAI还真就堆出了一个gpt3
第二个则是以DeepMind为代表的世界模拟,让一个智能体在模拟环境中交互和学习,如果模拟的环境越来越复杂,直到趋近真实世界的复杂程度,那么这个智能体自然就会有一定程度的通用智能
现在看来,OpenAI距离这个目标又进了一步,但细想一下总觉得缺了点啥。GPT确实变得越来越智能了,但它的底层依然是一团混乱的统计学模型,不停地计算下一个token出现的概率。它看起来很智能,动起来也很智能,但你知道跟地球上的智能生物相比,它的实现原理可以说是天壤之别
而DeepMind的思路,在原理上更贴合一个智能生物通过与环境交互来学习的过程
好巧不巧,我之前上了一节认知科学课,正好让我想起来了两个概念:Procedural knowledge(程序性知识),指的是完成一项物理活动需要的技能,比如骑自行车和演奏乐器,DeepMind的思路能跟这个对上;Propositional knowledge(命题性知识),指的是概念和信息组成的,基本能用文本描述的知识,OpenAI一直在学习的其实是这个,现在这个最先进的gpt也只拥有这种知识
显而易见的是,想要实现通用智能,你得两个都有。只有其中一个会变成一种半吊子,只是假装自己有智能的存在
但谁又说这俩是完全相互独立的东西呢,现在已经有人用机器人的控制指令去训练gpt了,之前只有命题性知识的机器也能完成一些物理动作,两者的边界在现代AI上正在愈发模糊
一个比较明显的势头就是,最后会有一种AI可以同时学习这两种知识,而习得的知识会沉淀成AI对世界的理解,让我们距离通用人工智能更进一步。怎么去实现?以下是我一拍脑门想出来的思路:把gpt扔进模拟环境里去跑,再把文字,图像和音频信息也扔进去一块跑
(恭喜你攻克了知识的难题,接下来去琢磨一下AI的感知,动机和决策吧)
现在一个很火的概念是“世界模型”,强调一个AI对世界的理解。gpt的问题在于,它会告诉你石头很硬,但它不会知道硬是什么概念,它只是纯粹地在海量文本中找到了“硬”这个词和其它词语的统计学相关性。换句话说,gpt所认知的全部世界仅仅局限于文字本身(现在加入了图像和音频,不过依然非常局限),它并不理解世界
所以我其实更看好DeepMind的思路,一个通过跟环境交互来学习的AI,能对世界有一定理解的AI,更接近生物智能的AI,能用认知科学去分析AI,它在安全性和可解释性上都会有更大的操作空间。我们可以用人类文明几千年来积累的经验来克服很多问题,而不必局限于晦涩的数学统计方法,我们也可以直接用认知科学的经验去理解AI的行为,而不必局限于计算神经网络中某一层激活的神经元的统计学分布
一个像GPT一样看起来很智能却完全缺乏对世界理解的智能体,有点像一个怪物
不知不觉又敲了一篇科技评论
by Dr. Future