摘要
本发明公开了一种地址相似度计算方法、装置及存储介质,方法包括:利用BERT模型,从多字段地址数据中提取出语料特征,并转化为结构化标准地址的文本特征向量;根据不同字段在地址中的重要程度以及BERT模型训练中的特征表现,为各字段设定相应的权值,以便在相似度计算阶段综合考虑各部分的影响;根据文本特征向量利用余弦相似度方法计算中文文本以及其对应拼音的相似度,以双维度衡量地址间的相似性;基于中文文本以及其对应拼音的相似度,确定多字段文本的综合相似度,并设定阈值判断两个多字段文本是否相似;本发明方法不仅提升了在面对多字段地址匹配任务时的成功率,而且有效地解决了长文本中有效地址提取准确率低的问题。
技术关键词
文本特征向量
BERT模型
度计算方法
中文文本
拼音
动态更新
关键词
语义特征
数据
模块
处理器
关系
字符
可读存储介质
格式
存储器
计算机
噪声
样本
系统为您推荐了相关专利信息
答案获取方法
语句
语义关联度
解码器
SQL模板
文本情感分类方法
局部注意力机制
对抗性
更新模型参数
策略
企业信息管理方法
动态规则引擎
行业知识图谱
容器管理平台
逻辑
智能交互方法
Dijkstra算法
记忆模型
生成自然语言
情感分析模型