大模型应用开发基础

大海的拾贝小白

2024年09月02日 16:06

收录于文集

共2篇

如何应用大模型

迎接AGI时代

AGI(Artificial General Intelligence)多久到来？

主观预测：3-5年（OpenAI、DeepMind、NVIDIA持此观点）

1、AI使用者：使用别人开发的AI产品

2、AI产品开发者：设计和开发AI产品

3、基础模型相关：训练基础大模型，或可为大模型提供基础设施

大模型知识体系

大模型，全称大语言模型（LLM, Large Language Model）

常用大模型

大模型的作用：

1、大模型就是一个函数，给输入，生成输出

2、任何可以用语言描述的问题，都可以输入文本给大模型，就能生成问题的结果文本

3、任意数据，都可以输入给大模型，生成任意数据

通俗原理：根据上下文，猜下一个词（的概率）。OpenAI的接口名就叫completion，也证明了其只会生成的本质。

略深一点：训练和推理是大模型工作的两个核心过程。

训练：

1、大模型阅读了人类说过的话，这就是机器学习

2、训练过程会把不同token同时出现的概率存入神经网络文件，保存的数据就是参数，也叫权重

推理：

1、给推理程序若干token，程序会加载大模型权重，算出概率最高的下一个token是什么

2、用生成的token，再加上上文，就能继续生成下一个token。以此类推，生成更多文字

Token是什么？

1、可能是一个英文单词，也可能是半个，三分之一个

2、可能是一个中文词，或者一个汉字，也可能是半个汉字，甚至三分之一个汉字

3、大模型在训练前，需要先训练一个tokenizer模型。它能把所有的文本，切成token

再深一点：这套生成机制的内核叫Transformer机构，Transformer是目前人工智能领域最广泛流行的架构，仍是主流，但并不是最先进的。

目前只有Transformer被证明了符合scaling-law（缩放定律，当只要给它足够多的数据加大算力，提升大模型规模，就会更智能）

大模型应用架构：目前实现Copilot的主流架构是多Agent工作流架构：

模仿人做事，将业务拆成工作流（workflow、SOP、pipleline）
每个Agent负责一个工作流节点

大模型应用技术架构

1、纯Prompt

Prompt是操作大模型的唯一接口
当人看：你说一句，ta回一句，你再说一句，ta再回一句......

2、Agent+Function Calling

Agent：AI主动提要求
Function Calling：AI要求执行某个函数
当人看：你问ta我明天去北京出差，要带伞吗？ta让你先看天气预报，你看了告诉ta，ta再告诉你要不要带伞

3、RAG（Retrieval-Augmented Generation）

Embeddings：把文字转换为更易于相似度计算的编码，这种编码叫向量
向量数据库：把向量存起来，方便查找
向量搜索：根据输入向量，找到最相似的向量
当人看：考试答题时，到书上找相关内容，再结合题目组成答案，然后就都忘了

4、Fine-tuning（精调/微调）

当人看：努力学习考试内容，长期记住，活学活用

如何选择技术路线：粗略思路（最容易被忽略的是准备测试数据）

值得尝试Fine-tuning的情况：

提高模型输出的稳定性
用户量大，降低推理成本的意义很大
提高大模型的生成速度
需要私有部署

没有最好的大模型，只有最适合的大模型（合规和安全是首要考量因素），然后用测试数据，在可以选择的模型里，做测试，找出最合适的

参考榜单LMSYS Chatbot Arena Leaderboard

安装OpenAI Python库

pip install --upgrade openai

百度微软阿里云 OpenAI Kimi 大模型

本文为我原创，未经授权禁止转载

cv38050209

分享至

投诉或建议