ComfyUI分享06-这两款反推提示词插件，推荐你也可以试试

虎赳虎叔虎AI

2024年06月25日 20:55

收录于文集

共20篇

反推提示词

在Stable Diffusion的使用中，我们常用到的一个功能就是，提供一张图像座位参考图，通过对这张参考图的反推获得这张图像的描述语，作进一步修饰或直接作为我们生图的提示词用，以实现参考图整体画面内容的复现。

在使用WebUI的那段时间，我们常用到的图像提示词反推插件,就是WD14。随着ComfyUI的生态逐渐丰富起来后，有分享者也制作了ComfyUI-WD14-Tagger插件，让我们也能在ComfyUI中使用到WD14的反推图像提示词的功能。

逐渐地，在ComfyUI的发展进程中，出现了其他方式的反推提示词插件：有调用ChatGPT的API接口做反推，有调用Gemmi的API接口做反推，有调用本地部署的llama的API做反推......

今天我们这里介绍2款可以应用在ComfyUI中的反推节点插件，分别是调用阿里的大模型通义千问API接口做反推的节点（对本地算力无要求）和使用deepseek的本地模型做反推的节点（对本地算力有些要求）。

ComfyUI-Qwen-VL-API 【简介】

这个插件节点，由开发者ZHO佬制作的通义千问视觉模型的节点，将阿里 QWen-VL 双模型（Plus & Max）通过 API 调用引入到 ComfyUI 中。一般我们是用Plus较多。

目前新注册的用户都有100w的token可以使用，之后的资费即便收费计算，用在这个节点消耗上也不会太大，你可以在这里申请一个自己的 API Key：QWen-VL API 申请

【获取通义千问的API-KEY】

首先，我们需要到阿里云官网，开通通义千问大模型API服务，获取一个API-key，具体操作，在阿里云的官网都有很详细的指导教程：

阿里云官网地址：https://www.aliyun.com/

API申请官方教程：https://help.aliyun.com/zh/dashscope/opening-service?spm=a2c4g.11174283.0.0.1d8ac11aJnSbOq

注册登录官网后，直接在右上方的搜索栏搜“DashScope”或者是“灵积”，即可找到申请API的服务入口。

直接点击“产品控制台”进入API产品管理页面。如果您是第一次使用API功能，也可以在此页面顶部，点击“去开通”，开通后即可通过左侧菜单栏的“API-KEY管理”入口，进行API-Key的生成、查询等操作。

之后对我们调用的API-KEY使用情况查询，则可以通过菜单栏的“总览”或“调用统计”选项入口进入页面查看token数的使用情况。

【下载安装插件】

安装这个插件，可访问GitHub地址获取：

https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-VL-API

在我们上一篇文章内容有指导过大家如何安装，这里就不再赘述。

需要提醒的一点就是，在安装完成此插件后，我们需要将申请来的API-KEY，填写到插件目录下的config.json文件中，并保存后退出。要确认是否将正确的API-KEY已经填写，可以再次打开此文件查看确认。

【使用插件反推提示词】

如图所示，用ComfyUI-Qwen-VL-API搭建“看图说话”功能后，即可接入到CLIP文本输入使用。（工作流参考分享，见篇末“相关资源”）

ComfyUI-DeepSeek-VL

【简介】

隆重推出 DeepSeek-VL，这是一种专为真实世界视觉和语言理解应用而设计的开源视觉语言（VL）模型。DeepSeek-VL具备通用的多模态理解能力，能够在复杂场景下处理逻辑图、网页、公式识别、科学文献、自然图像。

DeepSeek-VL-7b-base 使用 SigLIP-L 和 SAM-B 作为混合视觉编码器，支持 1024 x 1024 图像输入并基于 DeepSeek-LLM-7b-base 构建，该 DeepSeek-LLM-7b-base 在近似的 2T 文本标记语料库上进行训练。整个 DeepSeek-VL-7b-base 模型最终围绕 400B 视觉语言令牌进行训练。

【下载本地模型】

deepseek-ai/deepseek-vl-7b-base模型下载地址

https://huggingface.co/deepseek-ai/deepseek-vl-7b-base/tree/main

将模型和文件都下载后，存放到目录下备用：

ComfyUI\models\LLM\deepseek-vl\deepseek-vl-7b-base

deepseek官网，你还可以了解到更多关于deepseek的用法和功能：

https://www.deepseek.com/

【下载安装插件】

安装这个插件，可访问GitHub地址获取：

https://github.com/kijai/ComfyUI-DeepSeek-VL

这款插件的作者Kijai，做的不少插件也是我们常用到的。

【使用插件反推提示词】

如下图所示，用ComfyUI-DeepSeek-VL搭建“看图说话”功能后，即可接入到CLIP文本输入使用。（工作流参考分享，见篇末“相关资源”）

使用效果示范

总体来说，这两款插件对图像的识别和描述还是很准确的，所反推出的文本直接用作正向提示词，在SDXL的模型下，表现力与原图还是很相近的。

【反推示例1：宝石匕首】

通义千问的qwen-vl-plus模型的反推：

这张照片展示了一把设计复杂的刀，放在一个有纹理的表面上，看起来是由石头或混凝土制成的。

刀柄和刀锋都用金色装饰，为整体外观增添了一丝优雅。

刀片本身是一个引人注目的蓝色阴影，与手柄的金属光泽形成鲜明对比。

但它并不是普通的蓝色，它有一个独特的图案蚀刻在它的白线，给人一种深度和复杂性的感觉。

刀的底部散布着一些小钻石，它们的光芒在相机镜头下闪闪发光。

这些宝石为这把刀本已华丽的设计增添了另一层奢华。

尽管是静止的，但在图像中还是捕捉到了一定的活力——也许是由于光线照射到刀上的方式，在不同的角度投射阴影和突出特定的细节。

这给人的印象是，即使静止不动，这把刀也准备好了，就像捕食者跟踪猎物一样。

总的来说，这幅画呈现给我们的是一个冻结在时间里的豪华物体，每一个元素都是精心制作和放置的，以创造一个和谐的整体。

从材料的选择到物品的精心安排，每一个细节都有助于描绘出一幅复杂而精致的画面。

deepseek的deepseek-vl-7b-base模型反推:

反推的原文翻译：

你提供的图像描绘了一把带有醒目的蓝色和金色配色的刀。

刀柄上装饰着蓝色和金色的珠宝，为整体设计增添了一丝优雅。

刀的刀刃也是蓝色的，但它不是普通的蓝色，它装饰着蓝色和金色的珠宝图案，与刀柄上的设计相呼应。

刀放在灰色的表面上，上面有小水滴，这表明这张照片可能是在潮湿的环境中拍摄的。

背景是模糊的，把焦点吸引到前景中的刀上。

该图像不包含任何文本。

物体的相对位置表明刀是图像的主体，灰色表面和水滴作为背景。

【反推示例2：湖心岛】

通义千问的qwen-vl-plus模型的反推：

这张照片捕捉到了大自然的力量和美丽，令人叹为观止。

一个小岛坐落在一个宁静的湖泊中心，岛上的树木高耸入云，衬托着即将来临的风暴。

上面的天空布满了云，它们的暗色调与明亮的粉红色闪电形成鲜明的对比。

宁静的时刻。

在前景中，平静的水面映衬着戏剧性的天空，增加了构图的深度。

在湖的两边，在远山的注视下，草地一直延伸到远处。

尽管暴风雨即将来临，但整个场景充满了和平与宁静的感觉。

就好像时间暂停了片刻，让我们欣赏周围的原始力量和自然奇观。

图片中没有文字，所有的焦点都集中在视觉元素上。

这张照片真正地概括了令人敬畏的自然奇观，在它最强烈的时候。

deepseek的deepseek-vl-7b-base模型反推:

这张照片描绘了一个宁静的风景，中间有一个小岛。

这个岛被一片浅蓝色的水体包围着。

上面的天空布满了乌云，可以看到闪电的闪烁。

岛上的树木是鲜艳的红色，与周围的绿色形成鲜明对比。

图像的整体配色方案以蓝色、绿色和红色为主。

该图像不包含任何可识别的文本或人物。

这些物体的相对位置表明，观众的视角是从远处看向岛屿的。

该图像不提供任何信息，允许一个可靠的对象计数。

该图像不包含任何美学描述。

描述仅基于图像的可见内容。

【相关资源】

今天文章所用到的说明图像、工作流文件以及deepseek-vl-7b-base模型，我们都分享在了云盘，请关注同名公众号后，发送 “0602”即可获取下载链接。

AI绘画视觉模型 StableDiffusion 通义千问提示词反推 ComfyUI插件 deepseek ComfyUI-DeepSeek-VL ComfyUI-Qwen-VL-API

本文为我原创，未经授权禁止转载

cv35766389

分享至

投诉或建议