摘要
本发明公开了一种基于多模态路由的自适应图像生成方法及系统,该方法包括:提取输入图像的多尺度特征,生成三类不同保留连续信息能力递增的token:将图像与对应的文本描述分别提取视觉和文本模态信息,融合后生成多模态信息摘要;将多模态信息摘要输入可学习的软路由器,基于图像复杂度标签动态选择token建模路径;采用三阶段训练策略优化模型;推理阶段根据输入文本描述和自回归Transformer预测的图像信息摘要,由训练好的软路由器动态选择token路径完成图像生成。本发明融合动态路由器和三种不同复杂度的量化与建模的策略,并通过软路由器模块在推理阶段实现动态建模路径选择。该方法在保证生成质量的前提下,有效提升了推理效率,展现出良好的高效性。
技术关键词
图像生成方法
多模态信息
策略优化模型
文本
软路由器
阶段
摘要
解码器
复杂度
多层感知机
动态
图像生成系统
视觉特征
预训练语言模型
多尺度特征提取
标签
系统为您推荐了相关专利信息
文本
语音识别模型
大语言模型
音频
语音识别方法
联合建模方法
视频帧特征
注意力
视频编辑方法
文本编码器
发票
识别方法
OCR识别模型
财务机器人系统
识别置信度
可视化方法
多项式
读取配置文件
训练器
非临时性计算机可读存储介质