基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备

AITNT
正文
推荐专利
基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备
申请号:CN202510475698
申请日期:2025-04-16
公开号:CN120339798A
公开日期:2025-07-18
类型:发明专利
摘要
本申请提供一种基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备,模型包括:第一视觉编码器用于提取自然通用图像的全局视觉特征并输出第一图像特征,第一视觉编码器的权重冻结;第二视觉编码器的输入为经尺寸调整至预设的高分辨率的图像,用于对图像的局部细节信息进行提取,并输出第二图像特征;特征融合层用于在通道维度拼接第一图像特征和第二图像特征,以形成融合视觉特征;线性层用于将融合视觉特征转换为大语言模型所需的输入维度;大语言模型用于基于维度转换后的融合视觉特征和文本输入生成自然语言回答。本申请采用双路视觉编码结构,提高了多模态视觉理解模型的图像解析能力,优化了视觉特征与大语言模型的对齐方式。
技术关键词
融合视觉特征 推理方法 图像 全局视觉特征 特征金字塔网络 大语言模型 生成自然语言 多模态 深度卷积神经网络结构 支持自然语言交互 计算机程序指令 层级 多层注意力 线性 多尺度特征 数据 多层感知机 计算机程序产品
系统为您推荐了相关专利信息
1
抬头显示器、交通工具、控制方法及调整系统
抬头显示器 图像生成单元 镜片组件 图像采集机构 参数
2
一种混合专家模型推理方法
推理方法 队列 动态规划算法 正确率 模块
3
一种基于3D人脸识别技术的门禁系统
人脸识别技术 隐私保护模块 照明补光单元 门禁系统 摄像头单元
4
一种基于权值优化分级波束形成的图像质量增强方法
分辨率 数据 粒子群算法优化 离散傅立叶变换 图像
5
一种基于融合多种自组网设备的通信传输装置
通信传输装置 自组网设备 信号转换模块 信号处理模块 数据储存模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号