深入探讨引起科技圈地震的谷歌Gemini 模型及生成式AI模型案例

萃有集

2024年01月02日 10:21

收录于文集

共20篇

谷歌宣布推出Gemini

2023年被认为是AI算力投资元年。十二月份科技圈地震了。谷歌在12月6号正式发布了旗下最强大的通用生成式AI模型 Gemini 双子座。为了这个项目，谷歌专门把谷歌大脑和DeepMind两个部门合并了。 谷歌Gemini 双子座模型到底好在哪？

Gemini双子座的第一个版本就支持多模态。它最明显的优势来自其理解视频和音频并与之交互的能力。谷歌没有像 OpenAI 那样，为图像和语音分别训练模型。谷歌旗下的YouTube拥有大量视频和语音的数据，所以从一开始就建立了一个多模态的模型，作为通用的系统，能够识别原生多模态。原生多模态指的是Gemini可以直接识别出图像信息。如果是非原生，那么模型看到图片之后，需要先把这个图片翻译成文字信息，然后再进行识别。

图片来源：Google. 谷歌发布 Gemini 双子座模型

这意味着什么呢？

举例。比如说我们要做一个抗艾滋病的宣传活动材料。Gemini模型不仅会可以提供文字版的材料，还能够生成相应的图片和视频。

人区别于动物的一点是能够使用工具。而谷歌也希望把Gemini训练成一个可以使用工具的模型。这也是该模型的另一个优势，Gemini在工具和API集成方面非常的高效，虽然还在训练当中。目前，谷歌已经把生成式人工智能融入到了超过25种它现有的产品当中，包括Gmail、谷歌文档、搜索引擎，还有YouTube等等。比如说我们要查找梵净山的旅游信息。因为 Gemini 模型集成了搜索引擎，它就会自动搜索相关信息，并通过如果集成的专业的计算器，再结合模型对每个用户的消费和旅游习惯的理解，就可以提前规划旅游路线，并且预估所需的开销。如果模型还嵌入了各种文字编辑器、图像编辑器，那系统还能帮您自动生成美颜过的旅游纪念相册和视频，是不是很激动人心啊？ Gemini 家族

Gemini 不是一个人工智能模型，而是一个家族。它有一个轻便的版本，叫做 Gemini Nano，可以在安卓设备上原生离线运行。Gemini Nano 分为两个层级，Nano 1（1.8B）和 Nano 2（3.25B），分别面向低内存和高内存的设备。如果您买了谷歌的 Pixel 8 Pro 手机，Gemini Nano是内置的，也就是说您拥有了一款有 AI 加持的智能手机。

图片来源：Google. 谷歌 Gemini Nano

Gemini家族里面还有一个更强大的版本叫 Gemini Pro，主要功能是为人工智能服务提供动力，它是谷歌开发的大语言模型聊天机器人Bard 的支柱。Gemini Pro 可与 GPT-3.5 相媲美，功能不一定更好，不过谷歌针对 "成本和延迟 "进行了优化。

图片来源：Google. 谷歌 Gemini Pro

Gemini 家族里面还有第三个功能更强大的型号，叫做 Gemini Ultra。市面上所说的Gemini在各项基准测试中均超过了 GPT-4, 实际上指的是 Gemini Ultra。在下图显示的 18 项基准测试中，Gemini Ultra 在 17 项测试中超过了 GPT-4，包括 MMLU（90% 对 87.3%，使用新型思维链方法）和新的多模态基准 MMMU（59.4% 对 56.8%）。Gemini Ultra 是谷歌专门为在数据中心运行而设计，不会安装在家用电脑上。目前，它仍在接受安全审查，但将于 2024 年初在新版谷歌聊天机器人 Bard Advanced 上推出。

图片来源：Google. 谷歌 Gemini Ultra 案例 – Wendy’s 汉堡

Wendy's汉堡在2021年和谷歌云合作，开发其生成式人工智能平台 FreshAI, 把语音点餐的功能嵌入到了原来的服务当中。生成式人工智能相比传统人工智能反应更加实时和灵活，生成式人工智能系统通过学习，可以逐步适应不同人千差万别的表达方式和口音，个性化处理每份订单，并且用轻松的口吻与顾客闲聊。

图片来源：Wendy’s. Wendy’s 汉堡

目前，这个平台在俄亥俄州的哥伦布市进行了测试，根据Wendy’s的测试结果，FreshAI平台的服务时间比市场平均水平快 22 秒，在没有员工干预的测试期间，订单的准确率平均为 86%。如果测试结果进一步提升，Wendy’s 汉堡会把FreshAI 扩展到其他的渠道，包括公司的应用程序、餐厅内信息亭、移动设备、智能家居设备等。视频版

本文为我原创，未经授权禁止转载

cv28946859

分享至

投诉或建议