摘要
本发明提供了一种基于多种相似度的轻量级实体匹配方法,涉及自然语言处理与知识图谱技术领域,本发明构造正负样本后进行分词与向量化处理;随后通过平均池化获得实体与上下文的向量表示。在特征计算阶段引入Word2Vec语义相似度、BM25双向最大值相似度、Jaccard相似度,并结合注意力机制提取上下文中与候选实体最相关的信息。将多维相似度特征拼接后输入至多层感知机分类器,利用ReLU激活和Dropout防止过拟合,最终通过Sigmoid函数输出候选实体为正确链接的概率。本发明能够在保持较低计算开销的同时实现较高的实体链接准确率,适用于产品信息处理等需要高效、可解释匹配的场景。
技术关键词
实体匹配方法
Word2Vec模型
Sigmoid函数
行业知识图谱
分类器
样本
标签
知识图谱技术
分词
多层感知机
关键词
注意力机制
自然语言
信息处理
文本
序列
语义
矩阵
系统为您推荐了相关专利信息
激光雷达回波数据
特征值
干扰识别方法
干扰识别系统
机器学习模型
性能预测方法
表面形貌信息
摩擦系数模型
路面构造
路面摩擦系数
拉曼光谱技术
建立分类模型
线性分类器
智能识别方法
药品标签
太赫兹成像
裂纹
数据驱动模型
超像素分割方法
分布式光纤传感器