大模型应用开发基础
大海的拾贝小白
2024年09月02日 16:06
收录于文集
共2篇
如何应用大模型

迎接AGI时代

AGI(Artificial General Intelligence)多久到来?

主观预测:3-5年(OpenAI、DeepMind、NVIDIA持此观点)

 1、AI使用者:使用别人开发的AI产品

 2、AI产品开发者:设计和开发AI产品

 3、基础模型相关:训练基础大模型,或可为大模型提供基础设施

大模型知识体系

大模型,全称大语言模型(LLM, Large Language Model)

常用大模型

大模型的作用:

  1、大模型就是一个函数,给输入,生成输出

  2、任何可以用语言描述的问题,都可以输入文本给大模型,就能生成问题的结果文本

  3、任意数据,都可以输入给大模型,生成任意数据

通俗原理:根据上下文,猜下一个词(的概率)。OpenAI的接口名就叫completion,也证明了其只会生成的本质。

略深一点:训练和推理是大模型工作的两个核心过程。

训练:

  1、大模型阅读了人类说过的话,这就是机器学习

  2、训练过程会把不同token同时出现的概率存入神经网络文件,保存的数据就是参数,也叫权重

推理:

  1、给推理程序若干token,程序会加载大模型权重,算出概率最高的下一个token是什么

  2、用生成的token,再加上上文,就能继续生成下一个token。以此类推,生成更多文字

Token是什么?

  1、可能是一个英文单词,也可能是半个,三分之一个

  2、可能是一个中文词,或者一个汉字,也可能是半个汉字,甚至三分之一个汉字

  3、大模型在训练前,需要先训练一个tokenizer模型。它能把所有的文本,切成token

再深一点:这套生成机制的内核叫Transformer机构,Transformer是目前人工智能领域最广泛流行的架构,仍是主流,但并不是最先进的。

目前只有Transformer被证明了符合scaling-law(缩放定律,当只要给它足够多的数据加大算力,提升大模型规模,就会更智能)

大模型应用架构:目前实现Copilot的主流架构是多Agent工作流架构:

  • 模仿人做事,将业务拆成工作流(workflow、SOP、pipleline)

  • 每个Agent负责一个工作流节点

大模型应用技术架构

1、纯Prompt

  • Prompt是操作大模型的唯一接口

  • 当人看:你说一句,ta回一句,你再说一句,ta再回一句......

2、Agent+Function Calling

  • Agent:AI主动提要求

  • Function Calling:AI要求执行某个函数

  • 当人看:你问ta我明天去北京出差,要带伞吗?ta让你先看天气预报,你看了告诉ta,ta再告诉你要不要带伞

3、RAG(Retrieval-Augmented Generation)

  • Embeddings:把文字转换为更易于相似度计算的编码,这种编码叫向量

  • 向量数据库:把向量存起来,方便查找

  • 向量搜索:根据输入向量,找到最相似的向量

  • 当人看:考试答题时,到书上找相关内容,再结合题目组成答案,然后就都忘了

4、Fine-tuning(精调/微调)

当人看:努力学习考试内容,长期记住,活学活用

如何选择技术路线:粗略思路(最容易被忽略的是准备测试数据

值得尝试Fine-tuning的情况:

  1. 提高模型输出的稳定性

  2. 用户量大,降低推理成本的意义很大

  3. 提高大模型的生成速度

  4. 需要私有部署

没有最好的大模型,只有最适合的大模型(合规和安全是首要考量因素),然后用测试数据,在可以选择的模型里,做测试,找出最合适的

参考榜单LMSYS Chatbot Arena Leaderboard

安装OpenAI Python库

pip install --upgrade openai