摘要
本发明涉及一种基于跨模态引导交互融合的多模态命名实体识别方法,包括构建数据集,设计跨模态对比聚合机制,分别提取图像特征和文本特征并构建对比学习机制用以筛选出与文本语义高关联度的图像特征进行动态聚合,引入DINO模型提取图像特征,构建动态相似匹配方法,基于文本特征和图像特征相关性矩阵生成动态相似度匹配权重,利用动态门控机制自适应选择与文本特征上下文相关的图像特征,构建跨模态融合与引导交互策略,输出增强的语义表征向量,采用条件随机场解码器将多模态融合后的语义表征向量映射为最终的实体标签序列,完成实体识别;本发明具有显著提升多模态实体识别的鲁棒性与准确性的优点。
技术关键词
命名实体识别方法
跨模态
文本
图像
语义
BERT模型
条件随机场
动态门控
视觉特征
社交媒体平台
多模态
注意力
键值
交互机制
掩码矩阵
解码器