
迎接AGI时代

AGI(Artificial General Intelligence)多久到来?
主观预测:3-5年(OpenAI、DeepMind、NVIDIA持此观点)
1、AI使用者:使用别人开发的AI产品
2、AI产品开发者:设计和开发AI产品
3、基础模型相关:训练基础大模型,或可为大模型提供基础设施
大模型知识体系






大模型,全称大语言模型(LLM, Large Language Model)
常用大模型

大模型的作用:
1、大模型就是一个函数,给输入,生成输出
2、任何可以用语言描述的问题,都可以输入文本给大模型,就能生成问题的结果文本
3、任意数据,都可以输入给大模型,生成任意数据
通俗原理:根据上下文,猜下一个词(的概率)。OpenAI的接口名就叫completion,也证明了其只会生成的本质。
略深一点:训练和推理是大模型工作的两个核心过程。
训练:
1、大模型阅读了人类说过的话,这就是机器学习
2、训练过程会把不同token同时出现的概率存入神经网络文件,保存的数据就是参数,也叫权重
推理:
1、给推理程序若干token,程序会加载大模型权重,算出概率最高的下一个token是什么
2、用生成的token,再加上上文,就能继续生成下一个token。以此类推,生成更多文字
Token是什么?
1、可能是一个英文单词,也可能是半个,三分之一个
2、可能是一个中文词,或者一个汉字,也可能是半个汉字,甚至三分之一个汉字
3、大模型在训练前,需要先训练一个tokenizer模型。它能把所有的文本,切成token
再深一点:这套生成机制的内核叫Transformer机构,Transformer是目前人工智能领域最广泛流行的架构,仍是主流,但并不是最先进的。

目前只有Transformer被证明了符合scaling-law(缩放定律,当只要给它足够多的数据加大算力,提升大模型规模,就会更智能)
大模型应用架构:目前实现Copilot的主流架构是多Agent工作流架构:
模仿人做事,将业务拆成工作流(workflow、SOP、pipleline)
每个Agent负责一个工作流节点
大模型应用技术架构
1、纯Prompt
Prompt是操作大模型的唯一接口
当人看:你说一句,ta回一句,你再说一句,ta再回一句......

2、Agent+Function Calling
Agent:AI主动提要求
Function Calling:AI要求执行某个函数
当人看:你问ta我明天去北京出差,要带伞吗?ta让你先看天气预报,你看了告诉ta,ta再告诉你要不要带伞

3、RAG(Retrieval-Augmented Generation)
Embeddings:把文字转换为更易于相似度计算的编码,这种编码叫向量
向量数据库:把向量存起来,方便查找
向量搜索:根据输入向量,找到最相似的向量
当人看:考试答题时,到书上找相关内容,再结合题目组成答案,然后就都忘了

4、Fine-tuning(精调/微调)
当人看:努力学习考试内容,长期记住,活学活用

如何选择技术路线:粗略思路(最容易被忽略的是准备测试数据)

值得尝试Fine-tuning的情况:
提高模型输出的稳定性
用户量大,降低推理成本的意义很大
提高大模型的生成速度
需要私有部署
没有最好的大模型,只有最适合的大模型(合规和安全是首要考量因素),然后用测试数据,在可以选择的模型里,做测试,找出最合适的
参考榜单LMSYS Chatbot Arena Leaderboard
安装OpenAI Python库
pip install --upgrade openai