一种基于文本指令引导的可控图像生成方法及系统

正文

推荐专利

申请号：CN202510615268

申请日期：2025-05-14

公开号：CN120543698A

公开日期：2025-08-26

类型：发明专利

摘要

本发明公开了一种基于文本指令引导的可控图像生成方法及系统，通过结合多模态大语言模型(MLLM)与扩散模型的优势，有效兼顾了用户友好性与编辑性能。具体而言，本发明通过利用BLIP和微调后的GPT解析用户指令，优化空文本嵌入调整反演噪声轨迹，交叉注意力与自注意力注入控制——实现了自然语言指令驱动的可控生成。本发明能有效协同多模态大语言模型与扩散模型，在背景保真度与文本对齐度等指标上均展现了卓越性能。本发明为提升图像可控生成的用户友好性与生成质量提供了新思路，进一步推动了多模态生成技术在数字媒体等领域的应用。

技术关键词

图像生成方法编辑注意力文本大语言模型指令分类器图像生成系统多模态噪声估计器生成二值化动态规划算法索引噪声预测对象定义嵌入特征生成技术

一种基于文本指令引导的可控图像生成方法及系统

站点导航

APP 下载