一种多粒度视觉信息引导的多模态语言生成方法和系统

AITNT
正文
推荐专利
一种多粒度视觉信息引导的多模态语言生成方法和系统
申请号:CN202410861083
申请日期:2024-06-28
公开号:CN118708071B
公开日期:2025-08-19
类型:发明专利
摘要
本发明涉及一种多粒度视觉信息引导的多模态语言生成方法和系统,方法包括以下步骤:获取视觉输入和文本输入,根据文本输入提取文本输入特征,将视觉输入通过多粒度视觉融合模块处理后,与文本输入特征进行拼接,并输入大语言模型中进行解码获得输出响应;多粒度视觉融合模块将视觉输入插值为低分辨率数据和高分辨率数据,并分别进行特征提取,得到低分辨率特征和高分辨率特征,并提取出对象级特征;将低分辨率特征与高分辨率特征融合后,得到融合特征,再与对象级特征拼接,得到输出的特征结果。与现有技术相比,本发明具有提升了多模态大语言模型的细粒度感知和理解能力,提升了多模态大语言模型的性能等优点。
技术关键词
语言生成方法 视觉 融合特征 大语言模型 语言生成系统 文本 对象 生成高分辨率 拼接模块 卷积模块 数据输入模块 插值模块 特征提取模块 解码 网络 通道 图片 视频
系统为您推荐了相关专利信息
1
基于大语言模型的电子表格自动化操作与推理方法及系统
电子表格文件 大语言模型 推理方法 规划 语句
2
视频处理方法、装置、电子设备、存储介质及程序产品
视频 文本 大语言模型 索引 分段
3
智能化水下压力容器在役检修机器人综合监控与操作系统
检修机器人 压力容器 机器人本体 操作系统模块 水下作业环境
4
大语言模型生成SQL查询语句中的数据权限控制方法及设备
大语言模型 数据权限控制方法 语句 权限控制设备 有效性
5
基于人工智能的交互式绘画生成方法、系统及装置
生成方法 文本 多模态特征 绘画 矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号