摘要
本发明公开了基于跨模态对齐与融合的多模态实体和关系抽取方法及系统,包括:对输入文本和图像进行处理和编码,获得多种图像和文本特征;以图像的语义表示为锚点,分别对细粒度和粗粒度的文本特征与像素级图像表示进行特征对齐,将图像和文本特征映射到同一语义空间;通过文本引导动态门控聚合、视觉前缀跨模态融合、跨模态图文匹配,进行多粒度特征融合,增加特征互补性的同时建模文本中名词短语与图像对象的关联,获得多粒度的多模态特征表示;通过实体引导注意力门控融合多粒度的多模态特征,聚集文本实体相关的视觉信息,获得最终的多模态融合表示;根据多模态融合表示,分别进行多模态命名实体识别和多模态关系抽取的任务预测。
技术关键词
语义
命名实体识别
跨模态
视觉特征
动态门控
图像编码器
图像像素
多粒度特征
多模态特征
关系抽取方法
标签编码器
文本编码器
注意力
系统为您推荐了相关专利信息
报告自动生成方法
多源异构数据
文本
大语言模型
模板
地理信息处理服务
水文
地理信息数据服务
自动生成方法
服务注册中心
迁移学习模型
文本理解
词嵌入模型
编码器
非线性