Sora 文生视频技术路线领先在哪

Sora 文生视频到底好在哪？口说无凭，先来看几段不同模型根据同样的提示词生成的视频。

“A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back.” “一只半鸭半龙的东西背上背着一只穿着冒险装备的仓鼠，飞过美丽的夕阳。”

Sora的技术路线之所以领先是因为它有两条”很粗的大腿”: Diffusion 扩散模型 + GPT 使用的 Transformer 模型。

Diffusion 扩撒模型

简单的说，Diffusion扩散模型文本生成图片的过程就是一个从模糊到清晰的过程。我用我在2022年7月份给大家展示的图生视频制作过程来解释。（见文末视频）

Diffusion 模型文生图示例

扩散算法先给出一个大体的图像，然后逐步向图像添加所谓的噪声，就是细节，当添加噪声的次数足够多的时候，图像就接近我们想要看到图片。Diffusion 模型的好处在于容易使用简单高效的损失函数进行训练，并且能够生成高度逼真的图像。它擅长紧密匹配真实图像的分布，在这方面优于 GAN（生成对抗网络）。

Transformer 模型

Sora 用到的另外一个模型是训练GPT使用的Transformer 模型。

Transformer 模型是一种神经网络，它通过跟踪序列数据（例如这句话中的单词）中的关系来学习上下文并学习其含义。Transformer 模型由编码器和解码器组成。比如“猫坐在垫子上”这个句子。句子中的每个单词都表示为一个向量 (Vector)，这些向量称为嵌入。编码器获取输入句子并逐字处理，使用注意力机制关注句子的相关部分, 然后根据句子的上下文更新嵌入。

图片来源：TechTalks. Transformer 模型示例

输入编码完成后，解码器就会接管。它利用输入句子中的编码信息，逐字生成输出句子。在每一步中，解码器都会使用注意力机制来关注输入句子的相关部分，并生成输出序列中的下一个单词。

综上所述，Transformer 模型使用注意力机制来处理输入序列并生成输出序列。它擅长语言翻译等任务，其中输入和输出序列的长度是可变的，并且需要理解上下文。

Sora为何是虚拟世界的关键推手？

以前我介绍过ChatGPT将颠覆开放元宇宙或者虚拟世界，而 Sora 的出现又进一步加速了虚拟世界的形成。

链接：网页链接

视频有什么好处？文字和图片是平面的，视频增加了空间维度，呈现了三维世界。再加上时间维度，形成四维空间。这会让虚拟世界变得更加真实。之前人工智能的应用，比如像聊天机器人的效果不尽如人意其中的原因之一是AI无法判断一句话接下来应该怎么接，也就是缺少连续性。而 Sora 的出现正好解决了这个问题。

我们常说要培养一个人的能力，除了读万卷书，最好还能行万里路，而这两方面现在的人工智能都可以实现了，随着数据量和数据种类的不断丰富，AI 出现涌现是迟早的事，而 Sam Altman 正在加快这一进程。他要7万亿美金投资是为了做一个全球最大的联网的大模型，这需要将1000万块顶级的GPU相连，还需要加大在算力和储能方面的投资。

OpenAI 的Memory 功能意味着什么

OpenAI正在测试的Memory功能可以记住用户和ChatGPT讨论过的内容，从而使将来的聊天更有针对性。网站上还特别强调作为用户的每个人来共同控制ChatGPT会拥有什么样的记忆。往深一层想，这意味着什么？

图片来源：OpenAI. Memory 网页

回忆一下我们谈话的场景，我们倾听对方说话的信息，判断哪些是关键信息并记住，然后再根据我们所知道的信息，给予对方反馈，完成一轮对话。或许在不久的将来，AI才是那个降维打击的一方，根据我们每个人的理解程度，陪我们聊天。

自古我们的老祖宗就讨论过人性本恶，还是人性本善。

世界各大宗教，殊途同归，都在倡导人们向善。AI是通过人类产生的各种信息，无论是文本，小说，图片还是视频来学习人类世界是如何生存和处事的，您觉得的AI学到的人性善的东西多，还是恶的东西多呢？在不久的将来，在AI 主控的虚拟世界里，我们又能期盼其中的处事原则有多少善的成分呢？

视频版

cv31933489

分享至

投诉或建议