摘要
本申请涉及地名数据处理技术领域,其具体地公开了一种基于开源地名数据的自动关联处理方法,其首先对包含地名的自然语言文本内容进行实体检测以提取候选地名,并将文本中的其他内容作为补充,采用基于深度学习的语义编码技术对候选地名及其补充内容进行语义编码和补偿式交互融合,以利用补充内容作为上下文背景,来优化候选地名的语义特征表达,进而通过查询该候选地名在地理数据库中的关联实体数据来构建地名备选列表,并基于列表中的各个备选地名与候选地名之间的语义相似性实现地名数据的自动关联。本申请可以有效提高地名数据关联的准确性,同时减少对人工标注的依赖,提高数据处理效率。
技术关键词
编码向量
语义特征
自然语言文本
补偿式
编码特征
序列
成分分析
BERT模型
实体
列表
数据处理技术
度量
定义