



AI-GitHub,分享GitHub上有趣、实用的AI开源项目。
小编为大家梳理了本期最受大家欢迎的GitHub项目。
W&B 团队开发的一个开源工具,你可以通过文字来描述你想要的UI界面,OpenUI可以帮你实时进行渲染出效果。你还可以通过聊天的方式进行任意修改,并将HTML转换为React、Svelte、Web Components等多种前端框架。有点类似 http://v0.dev看来下目前模型用的是GPT...简单测试了下,还不错,项目还不够完善,可以继续研究。
GitHub:https://github.com/wandb/openui
在线体验:https://openui.fly.dev

SWE-agent是一个利用大语言模型(如GPT-4、Claude等)来自动化软件工程任务的智能代理系统。它的目标是让AI模型能够像人类软件工程师一样,通过在命令行环境中导航文件系统、编辑文件、运行测试等方式来解决编程问题。
SWE-agent的核心是一个基于OpenAI Gym接口的强化学习环境。这个环境会将一个待解决的软件工程任务(如修复bug、实现新功能等)作为输入,提供给AI模型。模型需要分析任务描述,并在一个模拟的Linux终端环境中,通过执行一系列bash命令、编辑代码文件等操作来尝试完成任务。每执行一个动作,环境就会返回一个观察结果,告知动作的执行效果。模型可以根据观察结果来决定下一步动作,直到任务完成(或达到某个终止条件)。SWE-agent提供了一套DSL(领域特定语言),赋予AI模型一些在普通终端环境中没有的能力
github地址: https://github.com/princeton-nlp/SWE-agent

浙大发布歌曲合成工具Prompt-Singer,歌手性别风格均可控!Prompt-Singer模型的设计理念是通过自然语言指令作为风格提示来控制合成歌声的风格属性,这不仅可以对特定属性进行精确控制,还可以简化用户交互,为非专业用户如音乐家和视频创作者带来便利。该模型采用基于解码器的Transformer架构,具有多尺度层次结构,并设计了一个旋律解耦的音高表示方法,使得在保持旋律准确性的同时,能够实现文本条件下的声音范围控制。
论文地址: https://arxiv.org/pdf/2403.11780.pdf
项目地址: http://prompt-singer.github.io

近期,一家AIGC公司BRIA开源了一个出圈的模型:RMBG-1.4,它可以实现高质量地一键去除图片中的背景。下面是一些具体的例子,可以看到这个模型可以实现非常精细的“抠图”。MBG v1.4模型是基于所提出的IS-Net,但BRIA采用了私有数据集和特定的训练策略进行优化,这些改进显着提高了模型在不同图像处理场景中的准确性和有效性。具体来说,这个模型使用超过 12,000 张高质量、高分辨率、手动标记(像素精度)、完全许可的图像进行训练。为了让模型有足够的泛化性,训练数据集包含各种类别的图片。
开源地址:
https://huggingface.co/briaai/RMBG-1.4
comfyui集成地址:
https://github.com/ZHO-ZHO-ZHO/ComfyUI-BRIA_AI-RMBG

又一款图转3D的AI开源项目!无需繁琐的训练,MVEdit 就能够快速生成高质量的3D物体,并提供全功能的UI界面,包含了诸如text to 3D、image to 3D、3D to 3D文字编辑和材质重构等功能。
GitHub:https://github.com/Lakonik/MVEdit
Demo:https://huggingface.co/spaces/Lakonik/MVEdit

DepthFM是一种具有强零样本泛化能力的快速推理流匹配模型,可以利用强大的先验知识,并且很容易地泛化到未知的真实图像中,而只在合成数据上进行训练。与其他最先进的模型相比,DepthFM仅用一个函数评估就获得了明显更清晰的图像。Marigold的深度估计耗时是DepthFM的两倍,但无法生成相同粒度的深度图。
原文链接: https://arxiv.org/abs/2403.13788
代码链接: https://github.com/CompVis/depth-fm
官方主页: https://depthfm.github.io/

阿里开源的mPLUG-DocOwl是自GPT-4后首个具备视觉文档理解能力的多模态大语言模型,通过文档类数据的指令微调,它让多模态模型mPLUG-Owl具备了理解文档图片的能力。实验也表明它不仅具备卓越的性能,还具有很强的泛化和指令理解能力。
github地址:
https://link.zhihu.com/?target=https%3A//github.com/X-PLUG/mPLUG-DocOwl
论文地址:
https://arxiv.org/abs/2307.02499
体验地址:
https://modelscope.cn/studios/damo/mPLUG-DocOwl/summary

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!
官方介绍地址:https://fastgpt.run/
github地址: https://github.com/labring/FastGPT

微软近日发布了一项名为 Personal Voice 的新技术,它可以通过仅需1分钟的语音样本,在几秒钟内克隆出与样本完全一致的AI语音。这个AI语音支持100多种不同语言的输出,包括中文、西班牙语、德语等。
为了保证用户的信息安全,Personal Voice 使用设备端机器学习技术,并与 LiveSpeech 互相集成。这样,用户在与他人交流时就可以使用 Personal Voice AI语音代替自己说话。
相关链接: https://techcommunity.microsoft.com/t5/ai-azure-ai-services-blog/azure-ai-speech-launches-personal-voice-in-preview/ba-p/3982957

Large World Model(LWM)是一个通用的大环境多模态自回归模型,在实验中,LWM 系列模型展现出了优异的多模态性能,在文本图像生成、文本视频生成以及基于图像的对话等任务中表现出色。
LWM主要解决的问题是,当前的语言模型在理解那些难以用言语描述的世界方面存在短板,并且在处理复杂、长篇任务时表现不佳。视频序列提供了语言和静态图像中缺失的宝贵时间信息,这对于与语言的联合建模而言十分有吸引力。这些模型可以发展对人类文本知识和物理世界的理解,为人类提供更广泛的AI能力。但是,从数百万个视频和语言序列的标记中学习面临着内存限制、计算复杂性和数据集有限等挑战。为了解决这些挑战,LWM整合了大量多样化视频和图书的数据集,使用RingAttention技术在长序列上可扩展地训练,并逐步将环境大小从4K增加到1M标记。
github主页: https://largeworldmodel.github.io/
代码仓库: https://github.com/LargeWorldModel/LWM
huggingface:https://huggingface.co/LargeWorldModel

这是一个使用Docker的强大的、本地托管的基于web的PDF操作工具。它使您能够对PDF文件执行各种操作,包括拆分、合并、转换、重新组织、添加图像、旋转、压缩等。最初完全由ChatGPT开发,这个本地托管的web应用程序已经发展到包含一系列全面的功能,可以满足您的所有PDF需求。
GitHub 链接:https://github.com/Frooodle/Stirling-PDF
Star 数:15K+


遥遥领先!最近香港中文大学、腾讯 AI Lab、北京大学、香港大学、南洋理工大学团队成功推出了一个最新且高效的人体生成模型——HumanGaussian。这个模型通过引入显式的人体结构引导和梯度规范化来辅助3D高斯的优化过程,从而能够生成多样且逼真的高质量3D人体模型。现在,这个模型的代码和模型都已经开源了,你可以放心地使用它来生成自己的3D人体模型。
文章链接: http://arxiv.org/abs/2311.17061
github地址: https://github.com/alvinliu0/HumanGaussian
MuseV是一个由腾讯音乐娱乐的天琴实验室开源的虚拟人视频生成框架,专注于生成高质量的虚拟人视频和口型同步。它利用先进的算法,能够制作出具有高度一致性和自然表情的长视频内容。MuseV支持自定义动作和风格,视频时长理论上无限,且生成速度快。这一技术在AI创作领域中表现出色,为虚拟人视频制作提供了新的可能性。
试玩页面: https://huggingface.co/spaces/AnchorFake/MuseVDemo
项目地址: https://github.com/TMElyralab/MuseV

GRM是一个用于3D重建和生成的大型高斯重建模型。通过有效整合多视角信息,GRM能够在短时间内(大约0.1秒)重建出精确的3D模型。同时也它支持将文本或图像直接转换成3D模型。项目及演示: https://justimyhxu.github.io/projects/grm/GitHub:https://github.com/justimyhxu/grm在线体验:https://huggingface.co/spaces/GRM-demo/GRM

南洋理工大学的S-lab团队开发了一种新型的动画填色桶彩色化技术。通过仅需对一帧进行手动彩色化,算法便能自动将颜色传播到后续的所有帧。这一过程极大地简化了动画制作中繁琐的手动上色步骤。即时是人物在转身阴影或者被遮挡部分也能完美解决。
论文: https://arxiv.org/abs/2403.18342
GitHub:https://github.com/ykdai/BasicPBC