一种基于文本指令引导的可控图像生成方法及系统

AITNT
正文
推荐专利
一种基于文本指令引导的可控图像生成方法及系统
申请号:CN202510615268
申请日期:2025-05-14
公开号:CN120543698A
公开日期:2025-08-26
类型:发明专利
摘要
本发明公开了一种基于文本指令引导的可控图像生成方法及系统,通过结合多模态大语言模型(MLLM)与扩散模型的优势,有效兼顾了用户友好性与编辑性能。具体而言,本发明通过利用BLIP和微调后的GPT解析用户指令,优化空文本嵌入调整反演噪声轨迹,交叉注意力与自注意力注入控制——实现了自然语言指令驱动的可控生成。本发明能有效协同多模态大语言模型与扩散模型,在背景保真度与文本对齐度等指标上均展现了卓越性能。本发明为提升图像可控生成的用户友好性与生成质量提供了新思路,进一步推动了多模态生成技术在数字媒体等领域的应用。
技术关键词
图像生成方法 编辑 注意力 文本 大语言模型 指令 分类器 图像生成系统 多模态 噪声估计器 生成二值化 动态规划算法 索引 噪声预测 对象 定义 嵌入特征 生成技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号