摘要
本发明公开了一种基于单词‑图片配对和交叉Transformer的多模态命名实体识别方法,包括:1、获取多模态的先置数据集;2、获取另一个包含文本模态的英文数据集以及视觉模态的图像数据集的多模态的目标数据集,并构建视觉‑窗格拓展前缀匹配树ExtendTrie;3、获取文本‑图片对的编码特征表示;4、构建基于Transformer的图像‑文本交叉融合模型CLT,得到最终的交叉融合特征F';5、训练图像‑文本交叉融合模型CLT。本发明在处理多模态命名实体识别任务时,能够综合利用视觉‑窗格信息,提高文本‑图片对匹配度,并利用文本与视觉信息,以得到有效的数据特征表示,从而能提高命名实体识别任务的精度。
技术关键词
命名实体识别方法
编码特征
多头注意力机制
图片
融合特征
视觉特征
数据
图像
多模态
更新网络参数
文本编码器
标签
可读存储介质
处理器
函数式