摘要
本发明公开了一种基于文本指令引导的可控图像生成方法及系统,通过结合多模态大语言模型(MLLM)与扩散模型的优势,有效兼顾了用户友好性与编辑性能。具体而言,本发明通过利用BLIP和微调后的GPT解析用户指令,优化空文本嵌入调整反演噪声轨迹,交叉注意力与自注意力注入控制——实现了自然语言指令驱动的可控生成。本发明能有效协同多模态大语言模型与扩散模型,在背景保真度与文本对齐度等指标上均展现了卓越性能。本发明为提升图像可控生成的用户友好性与生成质量提供了新思路,进一步推动了多模态生成技术在数字媒体等领域的应用。
技术关键词
图像生成方法
编辑
注意力
文本
大语言模型
指令
分类器
图像生成系统
多模态
噪声估计器
生成二值化
动态规划算法
索引
噪声预测
对象
定义
嵌入特征
生成技术