ComfyUI分享06-这两款反推提示词插件,推荐你也可以试试
虎赳虎叔虎AI
2024年06月25日 20:55
收录于文集
共20篇

反推提示词

在Stable Diffusion的使用中,我们常用到的一个功能就是,提供一张图像座位参考图,通过对这张参考图的反推获得这张图像的描述语,作进一步修饰或直接作为我们生图的提示词用,以实现参考图整体画面内容的复现。

在使用WebUI的那段时间,我们常用到的图像提示词反推插件,就是WD14。随着ComfyUI的生态逐渐丰富起来后,有分享者也制作了ComfyUI-WD14-Tagger插件,让我们也能在ComfyUI中使用到WD14的反推图像提示词的功能。

逐渐地,在ComfyUI的发展进程中,出现了其他方式的反推提示词插件:有调用ChatGPT的API接口做反推,有调用Gemmi的API接口做反推,有调用本地部署的llama的API做反推......

今天我们这里介绍2款可以应用在ComfyUI中的反推节点插件,分别是调用阿里的大模型通义千问API接口做反推的节点(对本地算力无要求)和使用deepseek的本地模型做反推的节点(对本地算力有些要求)。

 

ComfyUI-Qwen-VL-API 【简介】

这个插件节点,由开发者ZHO佬制作的通义千问视觉模型的节点,将阿里 QWen-VL 双模型(Plus & Max)通过 API 调用引入到 ComfyUI 中。一般我们是用Plus较多。

目前 新注册的用户都有100w的token可以使用,之后的资费即便收费计算,用在这个节点消耗上也不会太大,你可以在这里申请一个自己的 API Key:QWen-VL API 申请

 

【获取通义千问的API-KEY】

首先,我们需要到阿里云官网,开通通义千问大模型API服务,获取一个API-key,具体操作,在阿里云的官网都有很详细的指导教程:

阿里云官网地址:https://www.aliyun.com/

API申请官方教程:https://help.aliyun.com/zh/dashscope/opening-service?spm=a2c4g.11174283.0.0.1d8ac11aJnSbOq

注册登录官网后,直接在右上方的搜索栏搜“DashScope”或者是“灵积”,即可找到申请API的服务入口。

直接点击“产品控制台”进入API产品管理页面。如果您是第一次使用API功能,也可以在此页面顶部,点击“去开通”,开通后即可通过左侧菜单栏的“API-KEY管理”入口,进行API-Key的生成、查询等操作。

之后对我们调用的API-KEY使用情况查询,则可以通过菜单栏的“总览”或“调用统计”选项入口进入页面查看token数的使用情况。

【下载安装插件】

安装这个插件,可访问GitHub地址获取:

https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-VL-API

在我们上一篇文章内容有指导过大家如何安装,这里就不再赘述。

需要提醒的一点就是,在安装完成此插件后,我们需要将申请来的API-KEY,填写到插件目录下的config.json文件中,并保存后退出。要确认是否将正确的API-KEY已经填写,可以再次打开此文件查看确认。

【使用插件反推提示词】

如图所示,用ComfyUI-Qwen-VL-API搭建“看图说话”功能后,即可接入到CLIP文本输入使用。(工作流参考分享,见篇末“相关资源”)

ComfyUI-DeepSeek-VL

【简介】

隆重推出 DeepSeek-VL,这是一种专为真实世界视觉和语言理解应用而设计的开源视觉语言 (VL) 模型。DeepSeek-VL具备通用的多模态理解能力,能够在复杂场景下处理逻辑图、网页、公式识别、科学文献、自然图像。

DeepSeek-VL-7b-base 使用 SigLIP-L 和 SAM-B 作为混合视觉编码器,支持 1024 x 1024 图像输入 并基于 DeepSeek-LLM-7b-base 构建,该 DeepSeek-LLM-7b-base 在近似的 2T 文本标记语料库上进行训练。整个 DeepSeek-VL-7b-base 模型最终围绕 400B 视觉语言令牌进行训练。

 

【下载本地模型】

deepseek-ai/deepseek-vl-7b-base模型下载地址

https://huggingface.co/deepseek-ai/deepseek-vl-7b-base/tree/main

将模型和文件都下载后,存放到目录下备用:

ComfyUI\models\LLM\deepseek-vl\deepseek-vl-7b-base

deepseek官网,你还可以了解到更多关于deepseek的用法和功能:

https://www.deepseek.com/

【下载安装插件】

安装这个插件,可访问GitHub地址获取:

https://github.com/kijai/ComfyUI-DeepSeek-VL

这款插件的作者Kijai,做的不少插件也是我们常用到的。

 

【使用插件反推提示词】

如下图所示,用ComfyUI-DeepSeek-VL搭建“看图说话”功能后,即可接入到CLIP文本输入使用。(工作流参考分享,见篇末“相关资源”)

使用效果示范

总体来说,这两款插件对图像的识别和描述还是很准确的,所反推出的文本直接用作正向提示词,在SDXL的模型下,表现力与原图还是很相近的。

【反推示例1:宝石匕首】

通义千问的qwen-vl-plus模型的反推:

这张照片展示了一把设计复杂的刀,放在一个有纹理的表面上,看起来是由石头或混凝土制成的。

刀柄和刀锋都用金色装饰,为整体外观增添了一丝优雅。

刀片本身是一个引人注目的蓝色阴影,与手柄的金属光泽形成鲜明对比。

但它并不是普通的蓝色,它有一个独特的图案蚀刻在它的白线,给人一种深度和复杂性的感觉。

刀的底部散布着一些小钻石,它们的光芒在相机镜头下闪闪发光。

这些宝石为这把刀本已华丽的设计增添了另一层奢华。

尽管是静止的,但在图像中还是捕捉到了一定的活力——也许是由于光线照射到刀上的方式,在不同的角度投射阴影和突出特定的细节。

这给人的印象是,即使静止不动,这把刀也准备好了,就像捕食者跟踪猎物一样。

总的来说,这幅画呈现给我们的是一个冻结在时间里的豪华物体,每一个元素都是精心制作和放置的,以创造一个和谐的整体。

从材料的选择到物品的精心安排,每一个细节都有助于描绘出一幅复杂而精致的画面。

deepseek的deepseek-vl-7b-base模型反推:

反推的原文翻译:

你提供的图像描绘了一把带有醒目的蓝色和金色配色的刀。

刀柄上装饰着蓝色和金色的珠宝,为整体设计增添了一丝优雅。

刀的刀刃也是蓝色的,但它不是普通的蓝色,它装饰着蓝色和金色的珠宝图案,与刀柄上的设计相呼应。

刀放在灰色的表面上,上面有小水滴,这表明这张照片可能是在潮湿的环境中拍摄的。

背景是模糊的,把焦点吸引到前景中的刀上。

该图像不包含任何文本。

物体的相对位置表明刀是图像的主体,灰色表面和水滴作为背景。

【反推示例2:湖心岛】

通义千问的qwen-vl-plus模型的反推:

这张照片捕捉到了大自然的力量和美丽,令人叹为观止。

一个小岛坐落在一个宁静的湖泊中心,岛上的树木高耸入云,衬托着即将来临的风暴。

上面的天空布满了云,它们的暗色调与明亮的粉红色闪电形成鲜明的对比。

宁静的时刻。

在前景中,平静的水面映衬着戏剧性的天空,增加了构图的深度。

在湖的两边,在远山的注视下,草地一直延伸到远处。

尽管暴风雨即将来临,但整个场景充满了和平与宁静的感觉。

就好像时间暂停了片刻,让我们欣赏周围的原始力量和自然奇观。

图片中没有文字,所有的焦点都集中在视觉元素上。

这张照片真正地概括了令人敬畏的自然奇观,在它最强烈的时候。

deepseek的deepseek-vl-7b-base模型反推:

这张照片描绘了一个宁静的风景,中间有一个小岛。

这个岛被一片浅蓝色的水体包围着。

上面的天空布满了乌云,可以看到闪电的闪烁。

岛上的树木是鲜艳的红色,与周围的绿色形成鲜明对比。

图像的整体配色方案以蓝色、绿色和红色为主。

该图像不包含任何可识别的文本或人物。

这些物体的相对位置表明,观众的视角是从远处看向岛屿的。

该图像不提供任何信息,允许一个可靠的对象计数。

该图像不包含任何美学描述。

描述仅基于图像的可见内容。

【相关资源】

今天文章所用到的说明图像、工作流文件以及deepseek-vl-7b-base模型,我们都分享在了云盘,请关注同名公众号后,发送 “0602”即可获取下载链接。