一种多粒度视觉信息引导的多模态语言生成方法和系统

正文

推荐专利

申请号：CN202410861083

申请日期：2024-06-28

公开号：CN118708071B

公开日期：2025-08-19

类型：发明专利

摘要

本发明涉及一种多粒度视觉信息引导的多模态语言生成方法和系统，方法包括以下步骤：获取视觉输入和文本输入，根据文本输入提取文本输入特征，将视觉输入通过多粒度视觉融合模块处理后，与文本输入特征进行拼接，并输入大语言模型中进行解码获得输出响应；多粒度视觉融合模块将视觉输入插值为低分辨率数据和高分辨率数据，并分别进行特征提取，得到低分辨率特征和高分辨率特征，并提取出对象级特征；将低分辨率特征与高分辨率特征融合后，得到融合特征，再与对象级特征拼接，得到输出的特征结果。与现有技术相比，本发明具有提升了多模态大语言模型的细粒度感知和理解能力，提升了多模态大语言模型的性能等优点。

技术关键词

语言生成方法视觉融合特征大语言模型语言生成系统文本对象生成高分辨率拼接模块卷积模块数据输入模块插值模块特征提取模块解码网络通道图片视频

系统为您推荐了相关专利信息

基于大语言模型的电子表格自动化操作与推理方法及系统

电子表格文件大语言模型推理方法规划语句

视频处理方法、装置、电子设备、存储介质及程序产品

视频文本大语言模型索引分段

智能化水下压力容器在役检修机器人综合监控与操作系统

检修机器人压力容器机器人本体操作系统模块水下作业环境

大语言模型生成SQL查询语句中的数据权限控制方法及设备

大语言模型数据权限控制方法语句权限控制设备有效性

基于人工智能的交互式绘画生成方法、系统及装置

生成方法文本多模态特征绘画矩阵

一种多粒度视觉信息引导的多模态语言生成方法和系统

站点导航

APP 下载