摘要
本公开关于一种数据处理方法、装置、电子设备及存储介质,该方法通过对视觉内容和问题文本分别进行特征表示以得到视觉特征和文本特征,并根据视觉特征确定视觉模态的视觉基向量,根据文本特征确定文本模态的文本基向量,进而基于视觉基向量对文本特征进行视觉模态映射处理以得到第一模态特征,并基于文本基向量对视觉特征进行文本模态映射处理以得到第二模态特征,基于该第一模态特征和第二模态特征进行文本预测得到输出文本,从而能够更加有效的理解多模态内容中的细粒度信息,使得在高层次的多模态任务如细粒度感知任务、认知任务与情感任务上的准确性大大提高。
技术关键词
模态特征
文本
视觉特征
注意力
跨模态
数据处理方法
样本
多模态
融合特征
电子设备
处理器
可读存储介质
数据处理装置
大语言模型
计算机程序产品
答案
高层次
指令
系统为您推荐了相关专利信息
物流无人机
无人机起降点
点选取方法
深度强化学习方法
坐标
图像融合识别方法
分辨率
多任务
解码器
多模态特征
能源管理方法
皮尔逊相关系数
引入注意力机制
非易失性计算机存储介质
计算机可执行指令
文本
客户
可读存储介质
存储计算机程序
人工智能技术