投稿

【AI主播-TTS篇】兼容新版GPT-SoVITS，新增API对接，更加高效便捷

5597

2

2024-02-02 23:09:44

未经作者授权，禁止转载

正在缓冲...

发现《Cubi-病变（天皇巨星KING remix）》

玩一种很新的东西

文本转语音

哔哩哔哩新春季

Love丶伊卡洛斯发消息

官网：ikaros.us.kg 粉丝群: 587663288 AI群: 996470582 天降群:209520098

!!! 手把手重新带你安装、使用、配置（核心部分）。全是干货，请耐心听讲，对项目使用是很有帮助的，真的，不骗你

36:06

接入ChatterBot/GPT 由Edge-TTS/VITS实现语音合成，简单讲解分享

11:45

功能更新说明新增claude，多数功能均可配置，实现优化和bug修复

04:50

抖音版来了~ 新增了违禁词库，为直播间保驾护航

07:16

新增langchain_pdf+gpt 和 elevenlabs，优化实现，补了抖音版的chatterbot

07:58

新增快手直播版，项目结构大优化

08:19

新增 GUI界面配置，更方便清晰。Edge-TTS支持语速、音量调节。配置结构优化

13:43

新增“虚拟人”Live2D 免费皮，终于内置“人”了，虽然是随机动作（）

04:32

从零开始的环境搭建（手把手）相关的坑太多了，整合包一直打不好，单独讲一讲具体问题如何解决

36:41

新增Stable Diffusion的接入，可以在直播间弹幕“画画”惹；GUI也稍微优化了部分配置，具体看文档，求求惹

09:58

虚拟人部分方案#1 基于Vtuber Studio的口型驱动

11:51

新增 text-generation-webui 的接入（多模型切换）& langchain合并为chat_with_file & 音频合成逻辑升级

17:39

新懒人包终于来惹，不需要装miniconda配置环境了，直接内置装好惹~

06:58

装了懒人包，运行后没有声音？输出了音频路径，但是没声音。没有报错？RuntimeWarning: Couldn't find ffmpeg or

03:48

新增点歌模式，匹配本地歌曲可以中途取消，不影响弹幕对话的捕获，所有弹幕在队列排队~

09:02

新增 so-vits-svc 接入~ 在TTS后再进行变声 ~o( =∩ω∩= )m（个人觉得多此一举）

08:23

新增文案模式。没有弹幕也可以自言自语了（）同样适用于直播带货等场景

11:00

新增聊天模式-谷歌，可以直接和LLM进行聊天，不接入直播间使用

05:51

SD模式优化，新增LLM的接入，辅助提示词生成，绘制更华丽的图片

06:05

项目流程简要讲解，方便用户和开发者了解运行逻辑，可以做定制化的修改

14:39

Live2D模型内置多个可更换 & 本地可直接聊天框聊天 & 新TTS 基于GenshinVoice.top & 各种优化

12:29

功能篇如何接入抖音？监听软件在哪？为什么没有获取到弹幕？

06:03

功能篇 TTS语音合成 VITS-Fast怎么使用？为什么没有合成语音？VITS不行吗？模型兼容吗？

06:00

功能篇如何接入so-vits-svc？用什么版本？4.1版为什么会报错？运行哪个程序？在哪下载？

12:06

聊天模式新增百度接口，可以持续对话；openai_gpt模式支持模板自定义；claude机制优化

05:10

功能篇新增弹幕日志，当前语音合成的文本内容可以用于直播显示，这样在AI口齿不清时，也能让观众看懂，不过需要做好过滤，避免违禁词显示，直播被封

07:00

功能篇抖音新增入场欢迎、礼物答谢功能。b站版同款。并且优化了抖音输出的日志，会清爽一些

04:18

功能篇新增过滤机制同拼音违禁词过滤，不只只是违禁词，拼音也不行！为你的直播间保驾护航（

04:21

功能篇新增 DDSP-SVC 接入。变声选项再加一，多种选择总有一个是适合你的（

06:39

功能篇新增本地问答音频库，命中音频名后直接播放本地音频，无需LLM即可使用，本地问答文本匹配也改为相似度匹配。

06:01

功能篇新增音频随机变速功能，用于一定程度上规避检测机制。具体效果不好说（

05:14

新增念用户名的功能。视频后面也讲了如何自定义念的内容；追加了一些过滤；修复了不少bug（虽然最新版已经有一周间隔了）

05:39

功能篇弹幕、入场等丢弃机制，针对高并发情况具有抗压功效，不会一直欢迎、一直感谢啦，泪目

08:36

新增抖音监听备选方案；本地问答库支持变量动态文本；文本切分算法简单介绍，回复内容断句很奇怪的根因

07:59

功能篇新增科大讯飞星火大语言模型接入，国内直连，安全对话；另外LLM可以单独关闭啦~可以适配直播助理场景

06:15

功能篇 ChatGLM如何接入？上下文记忆~ 不需魔法，本地跑，省钱了喵~

04:10

功能篇快手平台恢复接入。部分功能兼容，使用细节讲解，细节很多，要仔细看了

09:04

功能篇接入 bark-gui，又一个 TTS 方案可以选择。

04:48

功能篇念用户名板块补充GUI相关配置，可以自定义是否启用变声、修改回复文案

04:19

番外篇带你一起来装修直播间（免费），从0打造、手把手教你（虽然我也不专业）

29:55

功能篇本地问答库升级！支持2种算法，可以实现多问多答，可以自定义动态变量，文本、音频相似度分离

05:32

功能篇新增定时任务，可自定义每隔多少时间触发一次，可以自定义任务回复的内容，且具有动态变量功能，功能强大（

05:40

功能篇新·文案模式支持无限文案加载，支持同一文案列表连续播放多个音频，功能更强，逻辑也更复杂了

09:08

功能篇 GUI自定义显示隐藏box板块，让GUI配置更加清爽

02:33

功能篇新增闻达接入。配合官方启动器使用，共用ChatGPT配置，目前支持rwkv模型

04:19

点歌模式新增随机点歌功能，命令均可通过GUI自定义修改。

03:57

功能篇新增纯 VITS 接入，配合vits-simple-api，支持情感控制，语速调控

08:27

功能篇接入langchain_chatglm，附赠整合包，构建自己的知识库，限定使用场景

10:47

功能篇接入斗鱼直播，配合JS实现，暂时只解析弹幕数据

05:15

功能篇接入 Claude2，没有1那么繁琐的步骤，直接cookie即可接入

05:48

3D数字人方案 — Audio2Face NVIDIA Omniverse 简单讲解，持续研究中

14:34

新增 web字幕打印机接入，打印机含API接口，可以独立使用

08:03

功能篇接入 VALL-E-X（附赠整合包），进行TTS，3秒声音克隆，“好用”喵hhh

09:05

Audio2Face + UE5，轻松实现数字人口型同步

10:37

功能篇新增智谱AI 接入，支持上下文，三种官方模型随意切换。免费18额度白嫖，在线LLM，你值得白嫖

08:41

如何更新程序？b站弹幕又监听不到了，怎么办？手把手带大家操作一下，全是细节，请耐心观看

11:35

功能篇接入谷歌Bard，又一个白嫖的LLM加入豪华套餐，请享用

07:14

如何实现与AI主播进行协同直播？目前实现方案讲解。此方案非最优解，有待后续研究

04:25

功能篇新增动态文案功能。通过LLM动态修改文案，实现不重复的文案效果，适用于对重复文案内容有限制的场景，也适用于ai主播自言自语的场景

06:22

b站监听用户昵称无法获取问题如何解决？及时更新监听库版本，以适应变动

04:12

功能篇新增 bert-vits2 的接入，配合vits-simple-api食用，强有力的中文TTS让你到达新高度~

07:30

web字幕打印机-v0.2.0 新增字体设置、显示隐藏时长设置

07:21

功能篇新增念弹幕功能。在弹幕量少的情况下，可以有效的回复匹配上，也可以单独用作直播助理，帮忙念下弹幕协同直播

03:28

功能篇新增文心一言的接入。白嫖LLM喜加一

07:27

功能篇新增积分机制，存于本地数据库，为未来娱乐功能的拓展打下一定的基础

08:40

特别篇在线云win服务器，提供镜像免搭建，直接使用项目，内置多种AI应用，可以满足各种需求，青椒云提供~

22:28

功能篇接入智谱AI CharacterGLM，实现角色扮演，趣味性有所提升，实际表现有待商榷

07:05

功能篇接入 YouTube（油管）弹幕，走向世界（

03:35

功能篇接入 twitch（T台），国际化喜加一（

03:10

功能篇对接 xuniren，真人形象数字人方案#2，可以自行训练模型，具体效果大家自行评估

16:35

功能篇接入通义千问，阿里大语言模型，LLM再加一。目前不支持上下文，但白嫖起来还是算舒服的

07:09

功能篇按键映射，通过命令+关键词触发模拟按键，实现表情切换、动作、跳舞或者互动游戏等功能

07:45

web字幕打印机-v0.3.2 支持配置本地化、字体大小修改、bug修复等

03:14

对接带API、可自定义输出声卡的音频播放器audio player，为你的复杂需求助力

09:41

功能篇哔哩哔哩监听方案2，一次配置，长期使用，不需要频繁扫码了

05:00

功能篇接入ChatGLM3，含整合包，看看有没有提升（

05:17

功能篇接入 OpenAI TTS，旅行者，有兴趣来体验一下吗（

05:40

功能篇新增闲时任务，让它在无人时，也能自言自语，不让等待只剩等待

12:07

功能篇 WebUI 正式发布！弃用旧GUI，望周知~ 快来康康吧~

11:12

功能篇接入睿声AI，3秒语音瞬时克隆，新一代TTS，木几萌同款，试试（

11:37

平台篇 b站直播监听方案#2 开发平台，官方API对接，主打一个稳定，但是也有不方便的地方

05:11

TTS篇免费在线TTS，tts.ai-lab.top 对接。赞美太阳

04:29

翻译篇新增百度翻译，定向翻译弹幕内容/输出内容，适用于降低LLM压力/不使用LLM的情况

05:33

LLM篇接入 langchain-chatchat，多LLM集成+知识库+搜索引擎

07:05

LLM篇接入文心一言官方API（ERNIE-Bot），旧版web版应该已经不适配了

05:41

TTS篇在线tts相关的变动问题，恢复部分兼容，提供新白嫖方案

09:36

LLM篇接入通义星尘，自定义角色扮演，阿里大语言模型，有一定免费额度

09:03

功能篇新增动态配置（适用于抖音），根据观看人数动态切换配置，如话术、语音等

08:51

功能篇聊天页支持自定义声卡输入，意味着可以实现连麦联动功能等，具有更高可玩性

07:41

LLM篇接入百度千帆大模型，多种LLM任你挑选，唯一的不足之处就是要钱（

06:47

功能篇新增API接口，可以和其他程序对接。也就是说，你可以借助api将本项目的功能缝合到你的程序中

04:37

LLM篇接入 Gemini 谷歌双子座！在线免费白嫖，“碾压”GPT4，这不试试？！

03:31

平台篇对接微信视频号，虽迟但到，熟悉的配方熟悉的味道，大家使用也要注意安全

16:00

TTS篇新增通用gradio API调用，理论上可以支持所有的基于gradio开发的tts项目

12:15

TTS篇接入bert_vits2 hiyori UI的API，省得再搞个vits-simple-api了

08:19

功能篇新增助播模式，带货缺个中控喊话？这个功能可能能帮到你

10:02

新增 webui配置功能、自动运行功能，可以用于多开程序，局域网访问等

03:59

功能篇新增异常报警，可以在出错时自动重启修复，可以播报语音提醒直播间观众进行修复

09:34

TTS篇对接GPT-SoVITS，低成本TTS，高速训练推理，花儿佬，我的超人

06:41

功能篇违禁词升级，新增开关、丢弃和替换。提高可玩性，让观众不再懵逼

05:31

STT篇接入 faster-whisper，本地识别，不用魔法，不用密钥，省钱（但是费电

10:49

功能篇按键映射新增礼物触发映射，祝你实现礼物互动、互动游戏等应用场景

03:46

功能篇 audio player升级v2版本，可以音频插队，打pk、连麦，自动插队文案，总之牛的很（

10:47

TTS篇兼容新版GPT-SoVITS，新增API对接，更加高效便捷

08:01

功能篇新增板块显影功能，界面自定义简化，隐藏无用功能，提高可读性和使用体验

02:51

功能篇聊天功能融入平台，边语音聊天边监听弹幕，提高可玩性，AI+真人同时直播

05:10

功能篇 Stable Diffusion新增翻译功能，可以不用LLM转提示词，直接翻译，简单高效，附赠细节使用讲解

08:23

功能篇新增数据分析页，热词统计/礼物榜单/积分统计，祝你分析直播间数据和用户信息，助力运营

05:49

平台篇接入 TikTok，基本功能都保留着，视频含使用细节，请认真观看

04:40

TTS篇接入 clone-voice，一句话声音克隆，支持中、英、日、韩、法、德、意等16种语言

06:35

LLM篇对接 Kimi Chat，超长上下文，20万字记忆，你就噶噶造吧（

03:27

LLM篇接入 QAnything，知识库问答系统，知识库搜索更加丝滑，效果感觉还不错，值得一试

08:48

虚拟身体篇对接 EasyAIVtuber，一张图片生成皮套，自带待机动作、口型驱动等，悠璃同款

08:26

实战篇 AI前台/客服/看板娘，现实中对话AI，提供聊天/知识问答服务，实际全配置演示，手把手带你应用

22:58

AI客服简单案例演示 —— AI Vtuber 24h无人AI系统【AI主播】

01:03

虚拟身体篇对接数字人视频播放器，协同Easy-Wav2Lip 实现真人数字人驱动

14:25

TTS篇接入 Azure TTS，微软官方商用语音合成，随便造（

03:58

LLM篇对接 koboldcpp，简单运行各种 GGML 和 GGUF 模型

03:11

LLM篇对接通义千问在线API，恢复web白嫖版，支持联网搜索，max模型官方限时免费

04:12

图像识别篇对接 Gemini-Pro-Vision，实时画面识别讲解，可用于游戏讲解等应用场景

08:10

功能篇新增自定义命令，可以自定义对接API，发送GET请求解析数据进行语音合成，QQ bot同款小游戏（

06:43

虚拟身体篇对接Sadtalker、GeneFace++，数字人视频播放器-v0.1.2 升级，含整合包

05:24

功能篇 WebUI新增聊天记录，可以在网页直接看聊天内容，不用再去cmd看了（体验感up↑

06:41

图像识别篇新增摄像头截图功能，可以进行现实互动，未来会继续互动方式

05:34

LLM篇 Ollama + AnythingLLM，有手就行本地知识库+LLM 组合拳，小白福音

15:16

平台篇新增快手方案2，旧方案无法使用问题的临时替换方案，配合油猴脚本使用

07:49

功能篇 API新增 TTS合成、LLM推理，统一管理中转站，助力开发者缝合

08:32

LLM篇新增千帆AppBuilder的对接，自定义知识库问答RAG应用，协同文心一言、百度搜索

04:25

LLM篇新增讯飞星火助手API，升级v3.5对接，在线知识库+LLM 再来一击，主要是免费额度多一些，可以多白嫖会

06:46

TTS篇对接 Fish-Speech，简单讲一讲wsl上使用时的小细节，不建议小白入手

09:00

平台篇对接拼多多直播，暂时只支持弹幕监听，方案同快手2一样，暂时先这样凑合用算了

04:42

功能篇本地路径通过URL访问，助力API使用，互联网HTTP传输

07:58

功能篇新增配置模板，方便多个配置切换，可以顺便用于动态配置功能的配置文件生成，也可以用来给其他人做配置

06:12

LLM篇免费白嫖ChatGPT API，接入GPT4Free，啥也没有的用户也可以测试了捏

06:09

功能篇音频播放队列实现优先级插队功能，不在需要配合audio player实现，音频灵活度大大提高，可以实现更细分的场景

08:52

TTS篇新增在线Fish Speech 合成白嫖，开源最强TTS，大佬们强力新作，冲就完了（

08:19

TTS篇本地Fish Speech V1.1.0 API对接 & 在线web API功能优化

06:12

LLM篇恢复千帆AppBuilder的对接，LLM+知识库快速创建应用

03:08

TTS篇对接 ChatTTS，开源TTS 天花板，这不得看看！

04:50

实战篇直播弹幕语音播报，可以自定义语音的弹幕姬，开源TTS任意挑选，模型这么多，总有适合你的，再不济也能自己练【开源/免费】

09:21

TTS篇对接 Bert-Vits2 中文特化版（本期结尾部分补充了源码讲解和开发流程简单讲解，有兴趣的观众可以认真看看）

10:08

虚拟身体篇对接实时流式数字人 metahuman-stream（ernerf / musetalk）【感谢大佬的开源，方案喜加一

05:34

功能篇过滤板块，全配置项讲解，不了解功能含义，看这个，带你玩转本项目【触发/过滤/违禁/弹幕、音频优先级/黑名单】

31:14

虚拟身体篇 metahuman-stream 如何训练自己的人物模型，wav2lip、MuseTalk训练手把手带你走一遍，NERF太麻烦了，自行

20:17

AI客服真人视频对话演示，whisper+ollama+metahuman-stream【AI主播】

06:41

TTS篇对接CosyVoice，阿里开源TTS，没一会又说是个最强，人均最强（

07:25

功能篇新增串口功能，可以通过关键词、礼物触发向指定串口发送ASCII或HEX数据，可以用于控制嵌入式设备，实现弹幕礼物互动游戏等

06:40

LLM篇白嫖在线LLM groq，顺便讲下OpenAI接口的ChatGPT、ollama、One-API的配置方法，这都学不会的话，建议退网

11:44

STT篇接入SenseVoice，增加唤醒词&睡眠词，FunASR提供能力，中文识别能力增强加速

07:18

LLM篇对接Dify，LLM应用程序开发平台，简单讲下部署使用

11:12

LLM篇 OpenAI接口支持流式输出，LLM回复速度大幅提升，体验效果UP，坑总算是动手填起来了...

08:53

虚拟身体篇对接 DH_Live，实时麦克风驱动数字人，开源项目体验体验

06:20

虚拟身体篇 metahuman-stream如何对接GPT-SOVITS，如何自定义模型，为什么ai vtb配置了tts不生效，咱先把逻辑理顺

08:24

虚拟身体篇对接刘悦佬Live2D项目源码魔改，提供API 实现音频URL传入来驱动口型【live2d-TTS-LLM-GPT-SoVITS-

07:01

虚拟身体篇对接metahuman-stream时的播放中不录音功能失效问题解决，同理音频播放器也有类似的问题，一并优化，含源码改动和实现讲解

06:38

TTS篇对接 GPT-SOVITS V2 API，使用整合包版本为0821，版本不同导致的接口不一致问题可以自行修改适配，也可以下单定制

04:26

LLM篇对接火山引擎，豆包大语言模型【字节跳动/抖音/火山方舟】

10:28

TTS篇对接 CosyVoice API Win 0819，整体很简单，懂得不看也没啥问题

05:15

功能篇新增联网搜索功能，百度/谷歌爬取文章内容追加到LLM前为回答提供参考内容

05:57

LLM篇对接智谱AI 智能体，支持联网、知识库RAG、自定义设定，可玩~

09:57

功能篇对接洛曦直播弹幕助手，实现系统相关数据转发到直播间，如入场欢迎、礼物感谢、定时闲时任务话术、LLM回复等【无人直播/直播控场/直播辅助】

12:48

TTS篇对接 F5-TTS Gradio API，一句话语音克隆，默认显存占用4G左右

03:59

功能篇聊天支持打断功能，自定义打断词，可以在AI说话中让AI住嘴喵，主人的权利UP喵~

06:45

平台篇对接让弹幕飞，一个弹幕转发、过滤、处理平台（支持B站、斗鱼、虎牙、抖音、快手，支持弹幕发送）【无人直播/数字人/虚拟人/人工智能/带货】

06:56

TTS篇对接 MultiTTS 本地免费快速语音合成方案，低要求情况下，一个不错的选择呢

03:36

平台篇对接淘宝直播，配合洛曦直播弹幕监听脚本 + 油猴插件，实现前端浏览器数据获取WS传输

05:46

TTS篇对接 MeloTTS API，快速音频合成，赠Win整合包

04:39

TTS篇 VITS-SIMPLE-API 最新版使用讲解 | 一个支持Bert-VITS、GPT-SOVITS等TTS的集成型API开源项目整合

26:33

开发篇手把手带你二次开发新TTS的对接，示例：Index-TTS

27:37

顶部