基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备

正文

推荐专利

申请号：CN202510475698

申请日期：2025-04-16

公开号：CN120339798A

公开日期：2025-07-18

类型：发明专利

摘要

本申请提供一种基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备，模型包括：第一视觉编码器用于提取自然通用图像的全局视觉特征并输出第一图像特征，第一视觉编码器的权重冻结；第二视觉编码器的输入为经尺寸调整至预设的高分辨率的图像，用于对图像的局部细节信息进行提取，并输出第二图像特征；特征融合层用于在通道维度拼接第一图像特征和第二图像特征，以形成融合视觉特征；线性层用于将融合视觉特征转换为大语言模型所需的输入维度；大语言模型用于基于维度转换后的融合视觉特征和文本输入生成自然语言回答。本申请采用双路视觉编码结构，提高了多模态视觉理解模型的图像解析能力，优化了视觉特征与大语言模型的对齐方式。

技术关键词

融合视觉特征推理方法图像全局视觉特征特征金字塔网络大语言模型生成自然语言多模态深度卷积神经网络结构支持自然语言交互计算机程序指令层级多层注意力线性多尺度特征数据多层感知机计算机程序产品

系统为您推荐了相关专利信息

抬头显示器、交通工具、控制方法及调整系统

抬头显示器图像生成单元镜片组件图像采集机构参数

一种混合专家模型推理方法

推理方法队列动态规划算法正确率模块

一种基于3D人脸识别技术的门禁系统

人脸识别技术隐私保护模块照明补光单元门禁系统摄像头单元

一种基于权值优化分级波束形成的图像质量增强方法

分辨率数据粒子群算法优化离散傅立叶变换图像

一种基于融合多种自组网设备的通信传输装置

通信传输装置自组网设备信号转换模块信号处理模块数据储存模块

基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备

站点导航

APP 下载