摘要
本发明公开了一种多模态命名实体识别方法及系统,主要涉及计算机视觉与自然语言处理技术领域。包括以下步骤:提取文本、图片的文本特征、多模态文本特征、多模态图像特征和视觉对象特征;根据提取的文本特征获取文本隐藏特征;根据获取的文本隐藏特征获取采集到的文本中所有实体特征;根据多模态文本特征和多模态图像特征,获取归一化之后的多模态图像特征,以及文本‑图像相关性分数;输出惩罚并筛选之后的视觉对象特征;输出多模态融合特征;输出文本中每个单词的实体标签。本发明的有益效果在于:它在解决判断文本‑图像的相关性效果差的同时,解决了无法在判断文本与图像相关性之后同时使用粗粒度视觉信息与细粒度视觉信息。
技术关键词
命名实体识别方法
视觉
融合特征
图像
对象
条件随机场
标签
跨模态
变换器
预训练模型
序列
解码模块
图片
多模态交互
查询类别
文本编码器
代表
系统为您推荐了相关专利信息
学习路径推荐方法
知识点
大语言模型
同屏显示
对象
深度学习网络
噪声数据
视频
模型训练方法
注意力
供电设备监控
数据传输方式
可移动监控设备
分辨率
图像处理单元
像素点
分类方法
网格
卷积神经网络模型
连通特征