一种多模态大模型指导的监管指令图像生成方法及设备

AITNT
正文
推荐专利
一种多模态大模型指导的监管指令图像生成方法及设备
申请号:CN202411445206
申请日期:2024-10-16
公开号:CN119399300A
公开日期:2025-02-07
类型:发明专利
摘要
本发明公开了一种多模态大模型指导的监管指令图像生成方法及设备,属于图像处理技术领域,本发明利用多模态大模型融合输入图像和监管指令的语义信息,生成视觉相关的监管指令文本;利用微调的大语言模型总结处理视觉相关的监管指令文本,生成总结后的监管指令;在总结后的监管指令后添加额外的特殊视觉标记得到视觉感知监管指令;将视觉感知监管指令通过指令对齐层映射到语义上有意义的表示,得到语义对齐的监管指令;利用语义对齐的监管指令作为输入微调扩散模型,迭代学习模型参数,输出符合监管指令的图像。本发明考虑了监管指令指导的图像生成模型中的多个关键因素,能够在确保满足监管指令的同时,提高图像生成的效率和准确性,适用于需要高度定制化和符合特定规范的图像生成场景。
技术关键词
图像生成方法 指令 多模态 迭代学习模型 语义 大语言模型 文本 图像生成模型 图像处理技术 生成场景 参数 视觉特征 随机噪声 处理器 标记 存储器 矩阵 电子设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号