一种基于多模态路由的自适应图像生成方法及系统

正文

推荐专利

申请号：CN202511124539

申请日期：2025-08-12

公开号：CN121010865A

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了一种基于多模态路由的自适应图像生成方法及系统，该方法包括：提取输入图像的多尺度特征，生成三类不同保留连续信息能力递增的token：将图像与对应的文本描述分别提取视觉和文本模态信息，融合后生成多模态信息摘要；将多模态信息摘要输入可学习的软路由器，基于图像复杂度标签动态选择token建模路径；采用三阶段训练策略优化模型；推理阶段根据输入文本描述和自回归Transformer预测的图像信息摘要，由训练好的软路由器动态选择token路径完成图像生成。本发明融合动态路由器和三种不同复杂度的量化与建模的策略，并通过软路由器模块在推理阶段实现动态建模路径选择。该方法在保证生成质量的前提下，有效提升了推理效率，展现出良好的高效性。

技术关键词

图像生成方法多模态信息策略优化模型文本软路由器阶段摘要解码器复杂度多层感知机动态图像生成系统视觉特征预训练语言模型多尺度特征提取标签

系统为您推荐了相关专利信息

业务凭证检验方法、装置、设备、介质和程序产品

凭证图像文本识别模型特征提取模块像素点

基于大语言模型后处理的长语音识别方法及电子设备

文本语音识别模型大语言模型音频语音识别方法

一种零样本文本驱动视频编辑的全局局部帧联合建模方法

联合建模方法视频帧特征注意力视频编辑方法文本编码器

一种基于语义抽取的财务机器人发票要素识别方法

发票识别方法 OCR识别模型财务机器人系统识别置信度

基于神经网络的汽车故障码可视化方法、装置、终端及存储介质

可视化方法多项式读取配置文件训练器非临时性计算机可读存储介质

一种基于多模态路由的自适应图像生成方法及系统

站点导航

APP 下载