【大模型日报丨5.13】OpenAI连发两个大招

OpenAI Sora

这里是LLM SPACE，每日分享最新最全的AI资讯与研究。希望通过传播内容吸引更多对AI感兴趣的朋友，共建华人AI生态！

如果你有大模型相关的创业想法，或者对AI有一些有趣的想法，欢迎来找我们聊聊！

read-normal-img

01

OpenAI COO 最新彭博对话：Sora 仍处商业化早期，AI 技术如果能在行业中产生通缩，会有更多东西被创造出来

这是 OpenAI COO Brad Lightcap 在旧金山 Bloomberg Tech 上展开的最新对话，Lightcap 谈到了 OpenAI 在 AI 方面的商业应用。Lightcap 重点阐释了 AI 技术如何为企业带来差异化价值，并提升客户体验和创新能力。此外，Lightcap 也谈及了与微软的紧密合作关系，包括 Sora的最新进展。

read-normal-img

02

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

许多临床任务需要了解专业数据，例如医学图像、基因组学，这类专业知识信息在通用多模态大模型的训练中通常不存在。在上一篇论文的描述中，Med-Gemini 在各种医学成像任务上超越 GPT-4 系列模型实现了 SOTA！在这里，Google DeepMind撰写了第二篇关于 Med-Gemini 的论文。在 Gemini 的多模态模型的基础上，该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能，并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组数据的微调，针对医疗用途进行了优化：1、Med-Gemini-2D：能够处理放射学、病理学、皮肤科、眼科图像；2、Med-Gemini-3D：能够处理 CT 图像；3、Med-Gemini-Polygenic：能够处理基因组「图像」。

read-normal-img

03

只需百行代码，让H100提速30%，斯坦福开源全新AI加速框架

AI 的快速发展，伴随而来的是大计算量。这就自然而然的引出了一个问题：如何减少 AI 对计算的需求，并提高现有 AI 计算效率。为了回答这一问题，来自斯坦福的研究者在博客《GPUs Go Brrr》中给出了答案。文章主要专注于两个问题：一是硬件真正需要什么？二是如何满足硬件需求？文章用大量篇幅讨论了如何让 GPU 更快的运行，并发布了一个库 ThunderKittens，用户可以很容易地在 CUDA 上编写快速的深度学习内核。其具有以下特点：

简单，ThunderKittens 写起来非常简单。
可扩展性，如果用户需要 ThunderKittens 无法提供的功能，可以进行功能扩展。
速度快。

read-normal-img

04

新的Siri将来自OpenAI：苹果和OpenAI敲定协议

苹果公司正在与OpenAI敲定协议，将ChatGPT置于iPhone上，同时与谷歌就使用Gemini进行谈判

去年，苹果首席执行官蒂姆·库克表示他个人使用OpenAI的ChatGPT，但他补充说还有“一些问题需要解决。”

据熟悉此事的人士透露，苹果公司已接近与初创公司OpenAI达成协议，将其技术用于iPhone，这是将人工智能功能引入其设备的更广泛推动的一部分。

Bindu Reddy：显然，苹果与OpenAI的交易刚刚完成！就在语音助手宣布的前一天 :)

看来苹果决定它自己无法完成这件事 🤷

新的Siri将来自OpenAI

read-normal-img

05

Jim Fan谈OpenAI即将推出的语音助手：或许可以只用一个神经网络将音频映射到音频

OpenAI 预计明天将展示一个实时语音助手。提供一种沉浸式甚至神奇的体验需要什么？

几乎所有的语音AI都经历3个阶段：

语音识别或“ASR”：音频 -> 文本1，想想Whisper；
计划下一步说什么的LLM（大型语言模型）：文本1 -> 文本2；
语音合成或“TTS”：文本2 -> 音频，想想ElevenLabs或VALL-E。

去年，我制作了下面的图表来展示如何使Siri/Alexa提升10倍。然而，简单地经历这3个阶段会导致巨大的延迟。如果我们每次回复都要等待5秒，用户体验会急剧下降。这破坏了沉浸感，即使合成的音频本身听起来很真实，也会感觉无生气。

自然对话根本不是这样工作的。我们人类：

read-normal-img

这不仅仅是让这3个神经网络依次变得更快那么简单。解决实时对话需要我们重新思考整个技术栈，尽可能地重叠每个组件，并学习如何实时进行干预。

或许更好的方法是 - 只用一个神经网络将音频映射到音频。端到端总是胜出。

我将勾画出如何设计这样一个模型及其训练管道。同时，让我们拭目以待，看看OpenAI能推进到何种程度！

read-normal-img

外界噪声多，看这日报，足矣！

欢迎在下方反馈您宝贵的阅读意见！

欢迎您积极转发，让更多人看到LLM SPACE！