摘要
本发明公开了一种基于预训练模型的中文地址解析方法,首先针对在百度地图开源平台上爬取的中文地址数据进行数据预处理和基于规则的BIOES标注,得到标准化的中文地址数据以及地址元素的标签;再利用DeBERTa模型的解耦注意力机制捕获地址的结构化特征和不同地址层级之间的依赖关系;引入基于并行注意力机制的CNN结构,以并行注意力机制更好地提取地址的局部特征,提升模型对短序列文本的解析能力;应用BiLSTM网络对长序列文本特征进行进一步建模,提取地址文本的时序信息,针对SMA(黏菌算法)的随机初始化种群,导致种群分布不均以及算法迭代后期易陷入局部最优这一问题,提出GLSMA(改进黏菌算法)。该算法引入Logistic混沌映射初始化种群,使种群均匀分布,提高算法的收敛速度和寻优效率。引入遗传学习策略,通过交叉、变异和选择操作在解空间中进行全局搜索,能有效避免陷入局部最优并具有更强的全局搜索能力。最后应用CRF(条件随机场)输出解析后的中文地址。
技术关键词
中文地址数据
中文地址解析方法
注意力机制
预训练模型
条件随机场
序列
百度地图
输出特征
并行特征融合
标签
文本
元素
模块
网络结构
标注算法
爬虫技术
标注方法
层级
系统为您推荐了相关专利信息
遥感影像分割方法
局部特征提取
注意力机制
卷积特征
强化特征
风格
频域特征
特征融合网络
多头注意力机制
高频特征
重识别方法
图像编码器
行人重识别数据
身份
文本编码器
热传导
移动平均算法
传感监测方法
加权算法
权重分配策略