一种多模态大模型指导的监管指令图像生成方法及设备

正文

推荐专利

申请号：CN202411445206

申请日期：2024-10-16

公开号：CN119399300A

公开日期：2025-02-07

类型：发明专利

摘要

本发明公开了一种多模态大模型指导的监管指令图像生成方法及设备，属于图像处理技术领域，本发明利用多模态大模型融合输入图像和监管指令的语义信息，生成视觉相关的监管指令文本；利用微调的大语言模型总结处理视觉相关的监管指令文本，生成总结后的监管指令；在总结后的监管指令后添加额外的特殊视觉标记得到视觉感知监管指令；将视觉感知监管指令通过指令对齐层映射到语义上有意义的表示，得到语义对齐的监管指令；利用语义对齐的监管指令作为输入微调扩散模型，迭代学习模型参数，输出符合监管指令的图像。本发明考虑了监管指令指导的图像生成模型中的多个关键因素，能够在确保满足监管指令的同时，提高图像生成的效率和准确性，适用于需要高度定制化和符合特定规范的图像生成场景。

技术关键词

图像生成方法指令多模态迭代学习模型语义大语言模型文本图像生成模型图像处理技术生成场景参数视觉特征随机噪声处理器标记存储器矩阵电子设备

一种多模态大模型指导的监管指令图像生成方法及设备

站点导航

APP 下载