近期,阿里达摩院推出了名为AnyText的技术,这一技术在AI绘画领域引起了不小的震动。AnyText基于Stable Diffusion技术,能够在作品中稳定输出中文、英文、日文、韩文等多语言文字,其实测效果显著。AnyText的这一进展不仅提升了文字在AI绘画中的应用效率,也为艺术创作带来了新的可能性。

原理介绍
AnyText技术包含两个核心模块:隐空间辅助模块和文本嵌入模块。隐空间辅助模块主要针对字形、文字位置和掩码图像进行编码,构建隐空间特征图像,以辅助视觉文字生成。而文本嵌入模块则将描述词的语义部分与待生成文本的字形部分进行解耦,通过图像编码模块提取字形信息并与语义信息融合。这一过程不仅提高了文字书写的精度,也增强了文字与背景的一致性。
在训练阶段,除了采用常规扩散模型的噪声预测损失外,AnyText还增加了文本损失。这种方法能够在图像空间对每个生成文本区域进行像素级的监督,确保文字书写的精准性。推理生成时,嵌入的文本在绘图模块中以符号代替,然后通过预OCR模型提取字形特征,并调整其维度,以生成新的序列。
AnyText的训练数据集为AnyWord-3M(即将开源),主要来源于互联网开源数据集,如LAION-400M、Noah-Wukong及部分OCR数据集。这些数据经过筛选和标记,共计获得了300万高质量的图文对,涵盖了自然景观、电影海报、书籍封面等多种场景。这一数据集的多样性和丰富性为AnyText的训练和应用提供了坚实的基础。
Github:https://github.com/tyxsspa/AnyText
演示: https://modelscope.cn/studios/damo/studio_anytext/summary
为了节省成本,还可以使用阿里达摩院的魔搭,新用户有100小时的GPU时间,可以玩很多东西了。
官方模型:https://modelscope.cn/models/damo/cv_anytext_text_ Generation_editing/summary
