
在Stable Diffusion的使用中,我们常用到的一个功能就是,提供一张图像座位参考图,通过对这张参考图的反推获得这张图像的描述语,作进一步修饰或直接作为我们生图的提示词用,以实现参考图整体画面内容的复现。
在使用WebUI的那段时间,我们常用到的图像提示词反推插件,就是WD14。随着ComfyUI的生态逐渐丰富起来后,有分享者也制作了ComfyUI-WD14-Tagger插件,让我们也能在ComfyUI中使用到WD14的反推图像提示词的功能。
逐渐地,在ComfyUI的发展进程中,出现了其他方式的反推提示词插件:有调用ChatGPT的API接口做反推,有调用Gemmi的API接口做反推,有调用本地部署的llama的API做反推......
今天我们这里介绍2款可以应用在ComfyUI中的反推节点插件,分别是调用阿里的大模型通义千问API接口做反推的节点(对本地算力无要求)和使用deepseek的本地模型做反推的节点(对本地算力有些要求)。
ComfyUI-Qwen-VL-API 【简介】
这个插件节点,由开发者ZHO佬制作的通义千问视觉模型的节点,将阿里 QWen-VL 双模型(Plus & Max)通过 API 调用引入到 ComfyUI 中。一般我们是用Plus较多。
目前 新注册的用户都有100w的token可以使用,之后的资费即便收费计算,用在这个节点消耗上也不会太大,你可以在这里申请一个自己的 API Key:QWen-VL API 申请
【获取通义千问的API-KEY】
首先,我们需要到阿里云官网,开通通义千问大模型API服务,获取一个API-key,具体操作,在阿里云的官网都有很详细的指导教程:
阿里云官网地址:https://www.aliyun.com/
API申请官方教程:https://help.aliyun.com/zh/dashscope/opening-service?spm=a2c4g.11174283.0.0.1d8ac11aJnSbOq

注册登录官网后,直接在右上方的搜索栏搜“DashScope”或者是“灵积”,即可找到申请API的服务入口。
直接点击“产品控制台”进入API产品管理页面。如果您是第一次使用API功能,也可以在此页面顶部,点击“去开通”,开通后即可通过左侧菜单栏的“API-KEY管理”入口,进行API-Key的生成、查询等操作。


之后对我们调用的API-KEY使用情况查询,则可以通过菜单栏的“总览”或“调用统计”选项入口进入页面查看token数的使用情况。

安装这个插件,可访问GitHub地址获取:
https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-VL-API
在我们上一篇文章内容有指导过大家如何安装,这里就不再赘述。
需要提醒的一点就是,在安装完成此插件后,我们需要将申请来的API-KEY,填写到插件目录下的config.json文件中,并保存后退出。要确认是否将正确的API-KEY已经填写,可以再次打开此文件查看确认。

如图所示,用ComfyUI-Qwen-VL-API搭建“看图说话”功能后,即可接入到CLIP文本输入使用。(工作流参考分享,见篇末“相关资源”)

【简介】
隆重推出 DeepSeek-VL,这是一种专为真实世界视觉和语言理解应用而设计的开源视觉语言 (VL) 模型。DeepSeek-VL具备通用的多模态理解能力,能够在复杂场景下处理逻辑图、网页、公式识别、科学文献、自然图像。
DeepSeek-VL-7b-base 使用 SigLIP-L 和 SAM-B 作为混合视觉编码器,支持 1024 x 1024 图像输入 并基于 DeepSeek-LLM-7b-base 构建,该 DeepSeek-LLM-7b-base 在近似的 2T 文本标记语料库上进行训练。整个 DeepSeek-VL-7b-base 模型最终围绕 400B 视觉语言令牌进行训练。
【下载本地模型】
deepseek-ai/deepseek-vl-7b-base模型下载地址
https://huggingface.co/deepseek-ai/deepseek-vl-7b-base/tree/main
将模型和文件都下载后,存放到目录下备用:
ComfyUI\models\LLM\deepseek-vl\deepseek-vl-7b-base

deepseek官网,你还可以了解到更多关于deepseek的用法和功能:
https://www.deepseek.com/
安装这个插件,可访问GitHub地址获取:
https://github.com/kijai/ComfyUI-DeepSeek-VL
这款插件的作者Kijai,做的不少插件也是我们常用到的。
【使用插件反推提示词】
如下图所示,用ComfyUI-DeepSeek-VL搭建“看图说话”功能后,即可接入到CLIP文本输入使用。(工作流参考分享,见篇末“相关资源”)

总体来说,这两款插件对图像的识别和描述还是很准确的,所反推出的文本直接用作正向提示词,在SDXL的模型下,表现力与原图还是很相近的。
【反推示例1:宝石匕首】
通义千问的qwen-vl-plus模型的反推:
这张照片展示了一把设计复杂的刀,放在一个有纹理的表面上,看起来是由石头或混凝土制成的。
刀柄和刀锋都用金色装饰,为整体外观增添了一丝优雅。
刀片本身是一个引人注目的蓝色阴影,与手柄的金属光泽形成鲜明对比。
但它并不是普通的蓝色,它有一个独特的图案蚀刻在它的白线,给人一种深度和复杂性的感觉。
刀的底部散布着一些小钻石,它们的光芒在相机镜头下闪闪发光。
这些宝石为这把刀本已华丽的设计增添了另一层奢华。
尽管是静止的,但在图像中还是捕捉到了一定的活力——也许是由于光线照射到刀上的方式,在不同的角度投射阴影和突出特定的细节。
这给人的印象是,即使静止不动,这把刀也准备好了,就像捕食者跟踪猎物一样。
总的来说,这幅画呈现给我们的是一个冻结在时间里的豪华物体,每一个元素都是精心制作和放置的,以创造一个和谐的整体。
从材料的选择到物品的精心安排,每一个细节都有助于描绘出一幅复杂而精致的画面。

deepseek的deepseek-vl-7b-base模型反推:
反推的原文翻译:
你提供的图像描绘了一把带有醒目的蓝色和金色配色的刀。
刀柄上装饰着蓝色和金色的珠宝,为整体设计增添了一丝优雅。
刀的刀刃也是蓝色的,但它不是普通的蓝色,它装饰着蓝色和金色的珠宝图案,与刀柄上的设计相呼应。
刀放在灰色的表面上,上面有小水滴,这表明这张照片可能是在潮湿的环境中拍摄的。
背景是模糊的,把焦点吸引到前景中的刀上。
该图像不包含任何文本。
物体的相对位置表明刀是图像的主体,灰色表面和水滴作为背景。
通义千问的qwen-vl-plus模型的反推:
这张照片捕捉到了大自然的力量和美丽,令人叹为观止。
一个小岛坐落在一个宁静的湖泊中心,岛上的树木高耸入云,衬托着即将来临的风暴。
上面的天空布满了云,它们的暗色调与明亮的粉红色闪电形成鲜明的对比。
宁静的时刻。
在前景中,平静的水面映衬着戏剧性的天空,增加了构图的深度。
在湖的两边,在远山的注视下,草地一直延伸到远处。
尽管暴风雨即将来临,但整个场景充满了和平与宁静的感觉。
就好像时间暂停了片刻,让我们欣赏周围的原始力量和自然奇观。
图片中没有文字,所有的焦点都集中在视觉元素上。
这张照片真正地概括了令人敬畏的自然奇观,在它最强烈的时候。

deepseek的deepseek-vl-7b-base模型反推:
这张照片描绘了一个宁静的风景,中间有一个小岛。
这个岛被一片浅蓝色的水体包围着。
上面的天空布满了乌云,可以看到闪电的闪烁。
岛上的树木是鲜艳的红色,与周围的绿色形成鲜明对比。
图像的整体配色方案以蓝色、绿色和红色为主。
该图像不包含任何可识别的文本或人物。
这些物体的相对位置表明,观众的视角是从远处看向岛屿的。
该图像不提供任何信息,允许一个可靠的对象计数。
该图像不包含任何美学描述。
描述仅基于图像的可见内容。
今天文章所用到的说明图像、工作流文件以及deepseek-vl-7b-base模型,我们都分享在了云盘,请关注同名公众号后,发送 “0602”即可获取下载链接。