摘要
本发明涉及一种多粒度视觉信息引导的多模态语言生成方法和系统,方法包括以下步骤:获取视觉输入和文本输入,根据文本输入提取文本输入特征,将视觉输入通过多粒度视觉融合模块处理后,与文本输入特征进行拼接,并输入大语言模型中进行解码获得输出响应;多粒度视觉融合模块将视觉输入插值为低分辨率数据和高分辨率数据,并分别进行特征提取,得到低分辨率特征和高分辨率特征,并提取出对象级特征;将低分辨率特征与高分辨率特征融合后,得到融合特征,再与对象级特征拼接,得到输出的特征结果。与现有技术相比,本发明具有提升了多模态大语言模型的细粒度感知和理解能力,提升了多模态大语言模型的性能等优点。
技术关键词
语言生成方法
视觉
融合特征
大语言模型
语言生成系统
文本
对象
生成高分辨率
拼接模块
卷积模块
数据输入模块
插值模块
特征提取模块
解码
网络
通道
图片
视频
系统为您推荐了相关专利信息
检修机器人
压力容器
机器人本体
操作系统模块
水下作业环境
大语言模型
数据权限控制方法
语句
权限控制设备
有效性