摘要
本发明提供一种视觉信息融合方法、装置、设备、介质及计算机程序产品,所述方法包括:对输入图像和输入文本进行编码,得到目标标记序列;所述目标标记序列包括视觉标记序列和语言标记序列;基于所述语言标记序列对所述视觉标记序列的注意力,确定融合视觉上下文;基于所述融合视觉上下文,确定每个所述目标标记序列的调制参数;基于所述调整参数,确定所述输入文本的语义理解结果。本发明通过在大语言模型的各层引入动态特征调制机制,使视觉信息能够自适应地调整文本表征,从而增强大语言模型对多模态信息的理解能力。
技术关键词
信息融合方法
融合视觉
序列
标记
文本
大语言模型
计算机程序产品
注意力
非暂态计算机可读存储介质
语义
信息融合装置
参数
局部特征提取
图像块
处理器
编码模块
系统为您推荐了相关专利信息
AI机器人
营销方法
商品特征
商品属性信息
意图
测试用例自动生成方法
功能模块
文本分析技术
测试用例自动生成系统
切片