https://www.youtube.com/watch?v=kPL-6-9MVyA
RAG 作者 Douwe Kiela 近期演讲,讲述了他在部署企业 RAG 系统中获得的 10 个经验教训。
他表示,现在存在 AI Context 悖论:LLM 在复杂推理、综合信息、代码生成、数学计算等方面表现惊人(对人类“难”),但在理解和应用特定上下文信息 (Context) 方面却很困难,而这恰恰是人类凭直觉和专业知识能轻松做到的。
企业要实现从 AI 中获得差异化价值和业务转型(而不仅仅是便利性或效率提升),就必须依赖于深度、准确的企业上下文信息。目前大多数应用还停留在低上下文信息需求的“便利性”阶段。
10个经验教训:
1.更好的 LLM 不是(唯一)答案: LLM 只是整个 AI 系统(特别是 RAG 系统,包括提取、检索、生成、联合优化)的一小部分(约 20%)。一个优秀的 RAG 系统配合普通的 LLM,效果可能优于一个顶尖 LLM 配合糟糕的 RAG 系统。关键是关注系统而非孤立的模型。
2.专业知识是你的燃料: 企业内部积累的专业知识和机构知识(通常存在于文档和数据中)是驱动 AI 产生价值的核心燃料。必须设法解锁这些专业知识。
3.企业规模是你的护城河: 企业的核心竞争力在于其独特的数据。真正的挑战在于大规模地利用这些数据,让 AI 能够处理大规模、甚至“嘈杂”的真实数据。成功做到这一点,就能构建竞争壁垒。
4.试点与生产之间的鸿沟总是比预想的要大: 建立小规模试点相对容易(少量文档、用户、单一场景、低风险),但将其扩展到生产环境则面临巨大挑战(海量文档、大量用户、多场景、高安全风险、SLA 要求等)。
5.速度比完美更重要: 不要追求一开始就完美。应尽早将(哪怕不完美的)系统交给真实用户使用,获取反馈并快速迭代。通过迭代“爬山”达到目标,而不是试图一次性设计出完美方案。
6.工程师在“无聊”的事情上花费大量时间: 工程师本应专注于构建流程、提升精度、扩展应用等创造业务价值的工作,但现实中却常常耗费时间在数据分块 (chunking) 策略、文本清洗、构建连接器、配置向量数据库、调整提示、管理基础设施等相对基础且耗时的工作上。应设法将这些工作自动化或平台化。
7.让 AI 易于消费: 即使 AI 系统已部署到生产环境,如果没有被用户方便地使用,也无法产生价值。很多时候系统使用率为零。关键在于将 AI 集成到用户现有的工作流中。企业数据 + AI + 集成 = 成功。
8.让你的用户“惊叹”(Wow): 要让 AI 应用产生粘性,需要尽快让用户体验到“惊艳”时刻。例如,帮助用户找到一个他们自己都不知道存在的、埋藏多年的重要文档并回答了关键问题。用户体验设计应围绕创造这种早期价值。
9. 可观测性比准确率更重要: 达到 100% 准确率几乎不可能,90-95% 也许可以。但企业更关心的是那无法避免的 5-10% 的错误会带来什么影响以及如何处理。因此,可观测性,包括理解系统为何给出某个答案、提供溯源依据、建立审计追踪等,比单纯追求更高的准确率更重要,尤其是在受监管行业。
10.要有雄心壮志:很多 AI 项目失败往往不是因为目标太高,而是因为目标太低。不要满足于解决“401k 供应商是谁”这类简单问题,要敢于挑战能带来真正业务转型的难题。