摘要
本公开涉及人工智能技术领域,尤其是涉及一种基于多模态数据的预测方法、装置、设备、介质及产品,所述方法包括:利用注意力机制算法,分别计算图像特征向量和文本特征向量的自注意力权重,分别计算图像特征向量和文本特征向量的交叉注意力权重;基于图像特征向量的自注意力权重和交叉注意力权重,更新图像特征向量,基于文本特征向量的自注意力权重和交叉注意力权重,更新文本特征向量;对更新后的图像特征向量和文本特征向量进行特征融合,获得预测结果。通过文本特征向量和图像特征向量的彼此交叉,计算各自的交叉注意力权重,能够进一步比较图像特征和文本特征的相似性,提高模型的识别准确度,提升模型对不确定性和模糊信息的处理能力。
技术关键词
文本特征向量
图像特征向量
物联网场景
注意力机制算法
多模态
网络系统
矩阵
数据
模糊隶属度
计算机嵌入式
通信网络
加权平均法
人工智能技术
语音
模糊推理
计算机程序产品
处理器