虚拟先锋:企业一把手必懂的OpenAI 文生视频 Sora 洞见
萃有集
2024年02月24日 06:04
收录于文集
共34篇
OpenAI Sora

关于OpenAI发布的文生视频Sora,这期先讲两点一个是Sora的技术优势何在,另外一点是Sora是虚拟世界或者叫虚拟宇宙的关键推手。

Sora 文生视频技术路线领先在哪

Sora 文生视频到底好在哪?口说无凭,先来看几段不同模型根据同样的提示词生成的视频。

“A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back.” “一只半鸭半龙的东西背上背着一只穿着冒险装备的仓鼠,飞过美丽的夕阳。”

Sora的技术路线之所以领先是因为它有两条”很粗的大腿”: Diffusion 扩散模型 + GPT 使用的 Transformer 模型。

Diffusion 扩撒模型

简单的说,Diffusion扩散模型文本生成图片的过程就是一个从模糊到清晰的过程。我用我在2022年7月份给大家展示的图生视频制作过程来解释。(见文末视频)

Diffusion 模型文生图示例

扩散算法先给出一个大体的图像,然后逐步向图像添加所谓的噪声,就是细节,当添加噪声的次数足够多的时候,图像就接近我们想要看到图片。Diffusion 模型的好处在于容易使用简单高效的损失函数进行训练,并且能够生成高度逼真的图像。 它擅长紧密匹配真实图像的分布,在这方面优于 GAN(生成对抗网络)。

Transformer 模型

Sora 用到的另外一个模型是训练GPT使用的Transformer 模型。

Transformer 模型是一种神经网络,它通过跟踪序列数据(例如这句话中的单词)中的关系来学习上下文并学习其含义。Transformer 模型由编码器和解码器组成。比如“猫坐在垫子上”这个句子。 句子中的每个单词都表示为一个向量 (Vector),这些向量称为嵌入。编码器获取输入句子并逐字处理,使用注意力机制关注句子的相关部分, 然后根据句子的上下文更新嵌入。

图片来源:TechTalks. Transformer 模型示例

输入编码完成后,解码器就会接管。它利用输入句子中的编码信息,逐字生成输出句子。在每一步中,解码器都会使用注意力机制来关注输入句子的相关部分,并生成输出序列中的下一个单词。

综上所述,Transformer 模型使用注意力机制来处理输入序列并生成输出序列。它擅长语言翻译等任务,其中输入和输出序列的长度是可变的,并且需要理解上下文。

Sora为何是虚拟世界的关键推手?

以前我介绍过ChatGPT将颠覆开放元宇宙或者虚拟世界,而 Sora 的出现又进一步加速了虚拟世界的形成。

链接:网页链接​

视频有什么好处?文字和图片是平面的,视频增加了空间维度,呈现了三维世界。再加上时间维度,形成四维空间。这会让虚拟世界变得更加真实。之前人工智能的应用,比如像聊天机器人的效果不尽如人意其中的原因之一是AI无法判断一句话接下来应该怎么接,也就是缺少连续性。而 Sora 的出现正好解决了这个问题。

我们常说要培养一个人的能力,除了读万卷书,最好还能行万里路,而这两方面现在的人工智能都可以实现了,随着数据量和数据种类的不断丰富,AI 出现涌现是迟早的事,而 Sam Altman 正在加快这一进程。他要7万亿美金投资是为了做一个全球最大的联网的大模型,这需要将1000万块顶级的GPU相连,还需要加大在算力和储能方面的投资。

OpenAI 的Memory 功能意味着什么

OpenAI正在测试的Memory功能可以记住用户和ChatGPT讨论过的内容,从而使将来的聊天更有针对性。网站上还特别强调作为用户的每个人来共同控制ChatGPT会拥有什么样的记忆。往深一层想,这意味着什么?

图片来源:OpenAI. Memory 网页

回忆一下我们谈话的场景,我们倾听对方说话的信息,判断哪些是关键信息并记住,然后再根据我们所知道的信息,给予对方反馈,完成一轮对话。或许在不久的将来,AI才是那个降维打击的一方,根据我们每个人的理解程度,陪我们聊天。

自古我们的老祖宗就讨论过人性本恶,还是人性本善。

世界各大宗教,殊途同归,都在倡导人们向善。AI是通过人类产生的各种信息,无论是文本,小说,图片还是视频来学习人类世界是如何生存和处事的,您觉得的AI学到的人性善的东西多,还是恶的东西多呢?在不久的将来,在AI 主控的虚拟世界里,我们又能期盼其中的处事原则有多少善的成分呢?

视频版​