一种基于多模态路由的自适应图像生成方法及系统

AITNT
正文
推荐专利
一种基于多模态路由的自适应图像生成方法及系统
申请号:CN202511124539
申请日期:2025-08-12
公开号:CN121010865A
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开了一种基于多模态路由的自适应图像生成方法及系统,该方法包括:提取输入图像的多尺度特征,生成三类不同保留连续信息能力递增的token:将图像与对应的文本描述分别提取视觉和文本模态信息,融合后生成多模态信息摘要;将多模态信息摘要输入可学习的软路由器,基于图像复杂度标签动态选择token建模路径;采用三阶段训练策略优化模型;推理阶段根据输入文本描述和自回归Transformer预测的图像信息摘要,由训练好的软路由器动态选择token路径完成图像生成。本发明融合动态路由器和三种不同复杂度的量化与建模的策略,并通过软路由器模块在推理阶段实现动态建模路径选择。该方法在保证生成质量的前提下,有效提升了推理效率,展现出良好的高效性。
技术关键词
图像生成方法 多模态信息 策略优化模型 文本 软路由器 阶段 摘要 解码器 复杂度 多层感知机 动态 图像生成系统 视觉特征 预训练语言模型 多尺度特征提取 标签
系统为您推荐了相关专利信息
1
业务凭证检验方法、装置、设备、介质和程序产品
凭证 图像 文本识别模型 特征提取模块 像素点
2
基于大语言模型后处理的长语音识别方法及电子设备
文本 语音识别模型 大语言模型 音频 语音识别方法
3
一种零样本文本驱动视频编辑的全局局部帧联合建模方法
联合建模方法 视频帧特征 注意力 视频编辑方法 文本编码器
4
一种基于语义抽取的财务机器人发票要素识别方法
发票 识别方法 OCR识别模型 财务机器人系统 识别置信度
5
基于神经网络的汽车故障码可视化方法、装置、终端及存储介质
可视化方法 多项式 读取配置文件 训练器 非临时性计算机可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号