AI数字人开源项目盘点!可能是目前效果最好的数字人开源项目了!
AI-GitHub
2024年12月27日 18:13
收录于文集
共399篇
数字人模型

数字人,作为新时代的文化符号和技术结晶,正以前所未有的速度改变着我们的生活和娱乐方式。各种AI数字人项目也是层出不穷。近期小编专门去盘点了比较热门的几款开源数字人项目,看看有没有你感兴趣的吧!

1.one shot one talk:单张图像生成全身动态数字人!

这是一个很新颖的开源项目,上传一段说话人的视频,再上传一张人物照片,就可以把视频里的说话人替换掉。实现了从单张照片生成全身3D虚拟人的创新突破!

该项目结合了先进的3D高斯点云和 SMPL-X 模型,采用了一种新颖的 3DGS-Mesh 结合表示,能够在保证虚拟人在外观表现高度还原的情况下,呈现出逼真的动画效果,流畅地展现身体的姿势和表情的变化。

从单个图像构建了一个富有表现力的全身会说话的头像。 我们首先使用预先训练的生成模型生成伪体框和头框, 由收集的具有不同姿势的视频数据集驱动。输入图像上的每像素监督, 然后应用对不完美伪标签的感知监督和网格相关约束来指导 3DGS 网格 耦合的头像表示,确保真实和富有表现力的头像重建和动画。

不仅如此,他还能灵活的完成对话场景,适用于虚拟主持,AI客服等多领域。

项目地址:https://xiangjun-xj.github.io/OneShotOneTalk/

2.AI带货神器:AnchorCrafter!

AnchorCrafter 是一个基于扩散模型的视频生成系统,专注于自动生成具有主播风格的产品宣传视频。该系统通过引入"人-物交互(HOI)“技术,在现有的人体姿态视频生成技术基础上,解决了生成过程中物体外观细节捕捉和人-物交互控制的挑战。

它可以用来制作那种“电商主播带货”风格的视频,比如你在淘宝、抖音或者YouTube上看到的那些主播介绍产品的短视频。

人和物体的互动视频生成:比如一个人拿着某个商品(手机、化妆品等)做动作,AnchorCrafter 可以自动生成这样的互动视频。

高清还原商品细节:无论商品是从什么角度拍摄的,它都能精准捕捉商品的外观、纹理和细节。

控制商品的运动轨迹:可以让商品“飞”起来或者与人物互动,比如抛接、摆放等动作。

项目地址:https://cangcz.github.io/Anchor-Crafter/

技术报告:https://arxiv.org/pdf/2411.17383

GitHub:https://github.com/cangcz/AnchorCrafter

3.支付宝开源的AI数字人项目:EchoMimicV2!

支付宝发布 EchoMimicV2 ,从仅支持头部驱动的动画扩展到 半身动画(包括头部、手势和上身动作)。

支持通过音频驱动半身人体动画生成。通过输入一段音频、一张参考图片以及简单的手势序列,它可以生成头部、手势和上半身动作 的动态视频。系统结合音频和动作的特征,生成自然、流畅且高度同步的半身动画。

适用于虚拟主播、视频制作、动画生成等场景,能够让角色的动作与语音高度匹配,表现生动自然。

项目地址及演示:https://antgroup.github.io/ai/echomimic_v2/

技术报告:https://arxiv.org/pdf/2411.10061

GitHub:https://github.com/antgroup/echomimic_v2

模型:https://huggingface.co/BadToBest/EchoMimicV2

4.字节开源AI数字人模型:MimicTalk!

MimicTalk是浙江大学和字节跳动共同研发推出基于NeRF(神经辐射场)技术,能在极短的时间内,仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。

MimicTalk提高了训练效率,基于高效的微调策略和具有上下文学习能力的人脸动作生成模型,显著提升生成视频的质量。MimicTalk的代码是基于之前的Real3D-Portrait项目,进一步优化而来,支持用音频驱动来生成特定人物的说话头像,让数字人视频在感官上与真人具有极高的相似性。

GitHub:https://github.com/yerfor/MimicTalk

项目官网:https://mimictalk.github.io/?utm_source=ai-bot.cn

5.卖货主播大模型: Streamer-Sales!

Streamer-Sales是一个直播卖货大模型,它能够帮助直播带货主播生成商品解说文案。能根据商品特点,自动生成吸引用户的介绍,提升销售效果。

它可以将语音转成文字和观众互动、也支持生成带情感的语音,以及生成数字人视频进行解说,甚至能实时查询快递信息。

1.主播文案一键生成:根据商品特点自动生成吸引用户的解说文案,激发购买欲望。

2.推理加速:集成LMDeploy进行推理加速,显著提升推理效率,支持KV缓存和Turbomind。

3.检索增强生成(RAG):结合商品说明书和相关文档,增强生成的文案内容,使其更加贴合实际。

4.语音转文字(ASR):支持将语音输入转换为文字,便于主播在直播过程中与观众互动。

5.文字转语音(TTS):生成带有情感的语音输出,使解说更加生动自然。

6.数字人生成:生成虚拟主播视频,用数字人进行商品解说,提升观众体验。

GitHub: https://github.com/PeterH0323/Streamer-Sales

在线体验: https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales

6.全球首个AI数字人开源项目!

这是一款非常有意思的开源数字人模型——duix.ai.

它是硅基智能打造的数字人智能交互平台。而duix-ai就是基于DUIX开源的全球首个2D真人级、AIGC实时渲染数字人模型,该项目不仅提供了直观的效果展示,还支持用户进行二次开发.

项目从底层推理引擎及上层的商业化应用逻辑也都开放了源代码,方便开发者可以深入了解其工作原理,并进行进一步的优化和创新。

其数字人模型达到行业顶级的真实度,非常适用于抖音、视频号等平台的营销推广。

GitHub地址:https://github.com/GuijiAI/duix.ai

7.JoyHallo:京东开源的AI数字人项目!

JoyHallo是由京东健康团队开发的一款数字人模型,可以生成普通话和英语的数字人视频。

它通过集成wav2vec2模型进行音频特征嵌入,并采用半解耦结构来优化面部动画的生成过程,解决了普通话视频生成中的复杂性和数据集不足的挑战。

JoyHallo 的价值在于其在普通话视频生成领域的突破性进展,它不仅提高了视频的逼真度和生成效率,还保持了跨语言生成的能力,展现出在多语言环境下的应用潜力。随着技术的不断进步和数据集的日益丰富,JoyHallo 有望在数字媒体、在线教育、虚拟助手等多个领域发挥重要作用。

GitHub地址:https://github.com/jdh-algo/JoyHallo

以上就是本期AI虚拟数字人的开源项目汇总,你觉得哪款效果最好呢?

欢迎在评论区留言讨论哦~