摘要
本发明提供了一种基于多种相似度的轻量级实体匹配方法,涉及自然语言处理与知识图谱技术领域,本发明构造正负样本后进行分词与向量化处理;随后通过平均池化获得实体与上下文的向量表示。在特征计算阶段引入Word2Vec语义相似度、BM25双向最大值相似度、Jaccard相似度,并结合注意力机制提取上下文中与候选实体最相关的信息。将多维相似度特征拼接后输入至多层感知机分类器,利用ReLU激活和Dropout防止过拟合,最终通过Sigmoid函数输出候选实体为正确链接的概率。本发明能够在保持较低计算开销的同时实现较高的实体链接准确率,适用于产品信息处理等需要高效、可解释匹配的场景。
技术关键词
实体匹配方法
Word2Vec模型
Sigmoid函数
行业知识图谱
分类器
样本
标签
知识图谱技术
分词
多层感知机
关键词
注意力机制
自然语言
信息处理
文本
序列
语义
矩阵