摘要
本发明提供了一种面向中文短文本内的地名识别方法,涉及自然语言处理领域,包括:基于OSM地图、GeoNames数据库和高德地图设计多个地名数据存储表,并对每个地名数据存储表进行中文地名提取获得多源全球中文地名词典;获取并预处理外文社交媒体的文本数据,基于所述多源全球中文地名词典对预处理后的文本数据的地名进行匹配获得地名候选词集合;以地名候选词嵌入的多源文本信息嵌入、Cross‑Transformer Encoder的文本信息融合编码和融合信息动态筛选与解码为组成单元构建集成神经网络模型;将预处理后的文本数据和地名候选词集合输入至所述集成神经网络模型中对文本数据的真实地名进行识别获取识别结果。
技术关键词
地名识别方法
面向中文
地名词典
文本
残差归一化
集成神经网络
字符
高德地图
地理实体
地名数据库
数据存储
多头注意力机制
编码
融合语义
格式化
前馈神经网络
社交
系统为您推荐了相关专利信息
信息处理模块
数据加密
分布式账本
存储模块
语音
故事生成方法
社交媒体数据挖掘
话题模型
文本
算法