AI数字人开源项目盘点！可能是目前效果最好的数字人开源项目了！

AI-GitHub

2024年12月27日 18:13

收录于文集

共399篇

数字人模型

数字人，作为新时代的文化符号和技术结晶，正以前所未有的速度改变着我们的生活和娱乐方式。各种AI数字人项目也是层出不穷。近期小编专门去盘点了比较热门的几款开源数字人项目，看看有没有你感兴趣的吧！

1.one shot one talk：单张图像生成全身动态数字人！

这是一个很新颖的开源项目，上传一段说话人的视频，再上传一张人物照片，就可以把视频里的说话人替换掉。实现了从单张照片生成全身3D虚拟人的创新突破！

该项目结合了先进的3D高斯点云和 SMPL-X 模型，采用了一种新颖的 3DGS-Mesh 结合表示，能够在保证虚拟人在外观表现高度还原的情况下，呈现出逼真的动画效果，流畅地展现身体的姿势和表情的变化。

从单个图像构建了一个富有表现力的全身会说话的头像。我们首先使用预先训练的生成模型生成伪体框和头框，由收集的具有不同姿势的视频数据集驱动。输入图像上的每像素监督，然后应用对不完美伪标签的感知监督和网格相关约束来指导 3DGS 网格耦合的头像表示，确保真实和富有表现力的头像重建和动画。

不仅如此，他还能灵活的完成对话场景，适用于虚拟主持，AI客服等多领域。

项目地址：https://xiangjun-xj.github.io/OneShotOneTalk/

2.AI带货神器：AnchorCrafter！

AnchorCrafter 是一个基于扩散模型的视频生成系统,专注于自动生成具有主播风格的产品宣传视频。该系统通过引入"人-物交互(HOI)“技术，在现有的人体姿态视频生成技术基础上,解决了生成过程中物体外观细节捕捉和人-物交互控制的挑战。

它可以用来制作那种“电商主播带货”风格的视频，比如你在淘宝、抖音或者YouTube上看到的那些主播介绍产品的短视频。

人和物体的互动视频生成：比如一个人拿着某个商品(手机、化妆品等)做动作，AnchorCrafter 可以自动生成这样的互动视频。

高清还原商品细节：无论商品是从什么角度拍摄的，它都能精准捕捉商品的外观、纹理和细节。

控制商品的运动轨迹：可以让商品“飞”起来或者与人物互动，比如抛接、摆放等动作。

项目地址：https://cangcz.github.io/Anchor-Crafter/

技术报告：https://arxiv.org/pdf/2411.17383

GitHub：https://github.com/cangcz/AnchorCrafter

3.支付宝开源的AI数字人项目:EchoMimicV2！

支付宝发布 EchoMimicV2 ，从仅支持头部驱动的动画扩展到 半身动画（包括头部、手势和上身动作）。

支持通过音频驱动半身人体动画生成。通过输入一段音频、一张参考图片以及简单的手势序列，它可以生成头部、手势和上半身动作 的动态视频。系统结合音频和动作的特征，生成自然、流畅且高度同步的半身动画。

适用于虚拟主播、视频制作、动画生成等场景，能够让角色的动作与语音高度匹配，表现生动自然。

项目地址及演示：https://antgroup.github.io/ai/echomimic_v2/

技术报告：https://arxiv.org/pdf/2411.10061

GitHub：https://github.com/antgroup/echomimic_v2

模型：https://huggingface.co/BadToBest/EchoMimicV2

4.字节开源AI数字人模型：MimicTalk！

MimicTalk是浙江大学和字节跳动共同研发推出基于NeRF(神经辐射场)技术，能在极短的时间内，仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。

MimicTalk提高了训练效率，基于高效的微调策略和具有上下文学习能力的人脸动作生成模型，显著提升生成视频的质量。MimicTalk的代码是基于之前的Real3D-Portrait项目，进一步优化而来，支持用音频驱动来生成特定人物的说话头像,让数字人视频在感官上与真人具有极高的相似性。

GitHub：https://github.com/yerfor/MimicTalk

项目官网：https://mimictalk.github.io/?utm_source=ai-bot.cn

5.卖货主播大模型: Streamer-Sales！

Streamer-Sales是一个直播卖货大模型，它能够帮助直播带货主播生成商品解说文案。能根据商品特点，自动生成吸引用户的介绍，提升销售效果。

它可以将语音转成文字和观众互动、也支持生成带情感的语音，以及生成数字人视频进行解说，甚至能实时查询快递信息。

1.主播文案一键生成:根据商品特点自动生成吸引用户的解说文案，激发购买欲望。

2.推理加速:集成LMDeploy进行推理加速，显著提升推理效率，支持KV缓存和Turbomind。

3.检索增强生成(RAG):结合商品说明书和相关文档，增强生成的文案内容，使其更加贴合实际。

4.语音转文字(ASR):支持将语音输入转换为文字，便于主播在直播过程中与观众互动。

5.文字转语音(TTS):生成带有情感的语音输出，使解说更加生动自然。

6.数字人生成:生成虚拟主播视频，用数字人进行商品解说，提升观众体验。

GitHub: https://github.com/PeterH0323/Streamer-Sales

在线体验: https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales

6.全球首个AI数字人开源项目！

这是一款非常有意思的开源数字人模型——duix.ai.

它是硅基智能打造的数字人智能交互平台。而duix-ai就是基于DUIX开源的全球首个2D真人级、AIGC实时渲染数字人模型，该项目不仅提供了直观的效果展示，还支持用户进行二次开发.

项目从底层推理引擎及上层的商业化应用逻辑也都开放了源代码，方便开发者可以深入了解其工作原理，并进行进一步的优化和创新。

其数字人模型达到行业顶级的真实度，非常适用于抖音、视频号等平台的营销推广。

GitHub地址：https://github.com/GuijiAI/duix.ai

7.JoyHallo：京东开源的AI数字人项目！

JoyHallo是由京东健康团队开发的一款数字人模型，可以生成普通话和英语的数字人视频。

它通过集成wav2vec2模型进行音频特征嵌入，并采用半解耦结构来优化面部动画的生成过程，解决了普通话视频生成中的复杂性和数据集不足的挑战。

JoyHallo 的价值在于其在普通话视频生成领域的突破性进展，它不仅提高了视频的逼真度和生成效率，还保持了跨语言生成的能力，展现出在多语言环境下的应用潜力。随着技术的不断进步和数据集的日益丰富，JoyHallo 有望在数字媒体、在线教育、虚拟助手等多个领域发挥重要作用。

GitHub地址:https://github.com/jdh-algo/JoyHallo

以上就是本期AI虚拟数字人的开源项目汇总，你觉得哪款效果最好呢？

欢迎在评论区留言讨论哦~

GitHub AI技术 AI虚拟主播数字分身 AI数字人 AI开源项目推荐

cv40219677

分享至

投诉或建议