深入探讨引起科技圈地震的谷歌Gemini 模型及生成式AI模型案例
萃有集
2024年01月02日 10:21
收录于文集
共20篇
谷歌宣布推出Gemini

2023年被认为是AI算力投资元年。十二月份科技圈地震了。谷歌在12月6号正式发布了旗下最强大的通用生成式AI模型 Gemini 双子座。为了这个项目,谷歌专门把谷歌大脑和DeepMind两个部门合并了。 谷歌Gemini 双子座模型到底好在哪?

Gemini双子座的第一个版本就支持多模态。它最明显的优势来自其理解视频和音频并与之交互的能力。谷歌没有像 OpenAI 那样,为图像和语音分别训练模型。谷歌旗下的YouTube拥有大量视频和语音的数据,所以从一开始就建立了一个多模态的模型,作为通用的系统,能够识别原生多模态。原生多模态指的是Gemini可以直接识别出图像信息。如果是非原生,那么模型看到图片之后,需要先把这个图片翻译成文字信息,然后再进行识别。

图片来源:Google. 谷歌发布 Gemini 双子座模型

这意味着什么呢?

举例。比如说我们要做一个抗艾滋病的宣传活动材料。Gemini模型不仅会可以提供文字版的材料,还能够生成相应的图片和视频。

人区别于动物的一点是能够使用工具。而谷歌也希望把Gemini训练成一个可以使用工具的模型。这也是该模型的另一个优势,Gemini在工具和API集成方面非常的高效,虽然还在训练当中。目前,谷歌已经把生成式人工智能融入到了超过25种它现有的产品当中,包括Gmail、谷歌文档、搜索引擎,还有YouTube等等。比如说我们要查找梵净山的旅游信息。因为 Gemini 模型集成了搜索引擎,它就会自动搜索相关信息,并通过如果集成的专业的计算器,再结合模型对每个用户的消费和旅游习惯的理解,就可以提前规划旅游路线,并且预估所需的开销。如果模型还嵌入了各种文字编辑器、图像编辑器,那系统还能帮您自动生成美颜过的旅游纪念相册和视频,是不是很激动人心啊? Gemini 家族

Gemini 不是一个人工智能模型,而是一个家族。它有一个轻便的版本,叫做 Gemini Nano,可以在安卓设备上原生离线运行。Gemini Nano 分为两个层级,Nano 1(1.8B)和 Nano 2(3.25B),分别面向低内存和高内存的设备。如果您买了谷歌的 Pixel 8 Pro 手机,Gemini Nano是内置的,也就是说您拥有了一款有 AI 加持的智能手机。

图片来源:Google. 谷歌 Gemini Nano

Gemini家族里面还有一个更强大的版本叫 Gemini Pro,主要功能是为人工智能服务提供动力,它是谷歌开发的大语言模型聊天机器人Bard 的支柱。Gemini Pro 可与 GPT-3.5 相媲美,功能不一定更好,不过谷歌针对 "成本和延迟 "进行了优化。

图片来源:Google. 谷歌 Gemini Pro

Gemini 家族里面还有第三个功能更强大的型号,叫做 Gemini Ultra。市面上所说的Gemini在各项基准测试中均超过了 GPT-4, 实际上指的是 Gemini Ultra。在下图显示的 18 项基准测试中,Gemini Ultra 在 17 项测试中超过了 GPT-4,包括 MMLU(90% 对 87.3%,使用新型思维链方法)和新的多模态基准 MMMU(59.4% 对 56.8%)。Gemini Ultra 是谷歌专门为在数据中心运行而设计,不会安装在家用电脑上。目前,它仍在接受安全审查,但将于 2024 年初在新版谷歌聊天机器人 Bard Advanced 上推出。

图片来源:Google. 谷歌 Gemini Ultra 案例 – Wendy’s 汉堡

Wendy's汉堡在2021年和谷歌云合作,开发其生成式人工智能平台 FreshAI, 把语音点餐的功能嵌入到了原来的服务当中。生成式人工智能相比传统人工智能反应更加实时和灵活,生成式人工智能系统通过学习,可以逐步适应不同人千差万别的表达方式和口音,个性化处理每份订单,并且用轻松的口吻与顾客闲聊。

图片来源:Wendy’s. Wendy’s 汉堡

目前,这个平台在俄亥俄州的哥伦布市进行了测试,根据Wendy’s的测试结果,FreshAI平台的服务时间比市场平均水平快 22 秒,在没有员工干预的测试期间,订单的准确率平均为 86%。如果测试结果进一步提升,Wendy’s 汉堡会把FreshAI 扩展到其他的渠道,包括公司的应用程序、餐厅内信息亭、移动设备、智能家居设备等。 视频版​