一种基于预训练模型的中文地址解析方法

正文

推荐专利

一种基于预训练模型的中文地址解析方法

申请号：CN202510667699

申请日期：2025-05-22

公开号：CN120542413A

公开日期：2025-08-26

类型：发明专利

摘要

本发明公开了一种基于预训练模型的中文地址解析方法，首先针对在百度地图开源平台上爬取的中文地址数据进行数据预处理和基于规则的BIOES标注，得到标准化的中文地址数据以及地址元素的标签；再利用DeBERTa模型的解耦注意力机制捕获地址的结构化特征和不同地址层级之间的依赖关系；引入基于并行注意力机制的CNN结构，以并行注意力机制更好地提取地址的局部特征，提升模型对短序列文本的解析能力；应用BiLSTM网络对长序列文本特征进行进一步建模，提取地址文本的时序信息，针对SMA(黏菌算法)的随机初始化种群，导致种群分布不均以及算法迭代后期易陷入局部最优这一问题，提出GLSMA(改进黏菌算法)。该算法引入Logistic混沌映射初始化种群，使种群均匀分布，提高算法的收敛速度和寻优效率。引入遗传学习策略，通过交叉、变异和选择操作在解空间中进行全局搜索，能有效避免陷入局部最优并具有更强的全局搜索能力。最后应用CRF(条件随机场)输出解析后的中文地址。

技术关键词

中文地址数据中文地址解析方法注意力机制预训练模型条件随机场序列百度地图输出特征并行特征融合标签文本元素模块网络结构标注算法爬虫技术标注方法层级

系统为您推荐了相关专利信息

一种遥感影像分割方法、装置、介质和设备

遥感影像分割方法局部特征提取注意力机制卷积特征强化特征

一种版画风格迁移模型的构建方法

风格频域特征特征融合网络多头注意力机制高频特征

图像数据的处理方法、装置、计算机可读存储介质和处理器

数据灰度直方图语义标签像素

一种基于CLIP与扰动不变特征学习的遮挡行人重识别方法

重识别方法图像编码器行人重识别数据身份文本编码器

一种成本高效的多模融合建筑与工业结构实时传感监测方法

热传导移动平均算法传感监测方法加权算法权重分配策略

一种基于预训练模型的中文地址解析方法

站点导航

APP 下载