摘要
本申请提供一种基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备,模型包括:第一视觉编码器用于提取自然通用图像的全局视觉特征并输出第一图像特征,第一视觉编码器的权重冻结;第二视觉编码器的输入为经尺寸调整至预设的高分辨率的图像,用于对图像的局部细节信息进行提取,并输出第二图像特征;特征融合层用于在通道维度拼接第一图像特征和第二图像特征,以形成融合视觉特征;线性层用于将融合视觉特征转换为大语言模型所需的输入维度;大语言模型用于基于维度转换后的融合视觉特征和文本输入生成自然语言回答。本申请采用双路视觉编码结构,提高了多模态视觉理解模型的图像解析能力,优化了视觉特征与大语言模型的对齐方式。
技术关键词
融合视觉特征
推理方法
图像
全局视觉特征
特征金字塔网络
大语言模型
生成自然语言
多模态
深度卷积神经网络结构
支持自然语言交互
计算机程序指令
层级
多层注意力
线性
多尺度特征
数据
多层感知机
计算机程序产品
系统为您推荐了相关专利信息
抬头显示器
图像生成单元
镜片组件
图像采集机构
参数
人脸识别技术
隐私保护模块
照明补光单元
门禁系统
摄像头单元
分辨率
数据
粒子群算法优化
离散傅立叶变换
图像
通信传输装置
自组网设备
信号转换模块
信号处理模块
数据储存模块