一种基于改进MacBERT-BiLSTM-CRF的中文地址分词方法

正文

推荐专利

申请号：CN202510667696

申请日期：2025-05-22

公开号：CN120542420A

公开日期：2025-08-26

类型：发明专利

摘要

本发明公开了一种基于改进MacBERT‑BiLSTM‑CRF的中文地址分词方法，通过融合字形、拼音和文本信息，结合多层次数据增强策略，实现对中文地址文本的精确解析。本发明提出的多层级数据增强机制，包括语义保持型增强策略以及结构变化型增强策略，有效提高了模型对地址文本变体的适应能力。同时，本发明设计了特征融合编码器，通过多头注意力机制实现字形特征、拼音特征与文本特征的深度融合，并采用增强型条件随机场进行序列标注，构建了地址组成部分之间的结构化约束关系。本发明充分考虑了中文地址的语言特点和书写习惯，有机结合了上下文语义信息、字形视觉特征和拼音语音特征，克服了传统地址解析方法在处理地址变体和非规范表达时的不足，显著提升了中文地址分词的准确率和鲁棒性。

技术关键词

中文地址分词方法字形特征多头注意力机制拼音文本条件随机场中文地址数据融合上下文信息地址解析方法上下文语义信息标签语音特征序列标注模型策略样本维特比解码分类器维特比算法

系统为您推荐了相关专利信息

一种基于混合检索与轻量级重排序的智能医学问答系统及方法

医学知识图谱医学问答方法语义向量文本医学影像病灶

一种大语言模型问答规则封装方法、介质及系统

轻量级神经网络大语言模型封装方法节点可读存储介质

基于大语言模型生成思维链解释进行训练的事件抽取方法

事件抽取方法大语言模型事件抽取技术生成事件学习方法

基于强化学习与Testim的AI驱动自动化测试方法及系统

自动化测试方法强化学习模型计算机执行指令自动化测试系统深度Q网络

一种设计行业展示视频生成方法及系统

视频生成方法图像镜头视频帧视频生成系统

一种基于改进MacBERT-BiLSTM-CRF的中文地址分词方法

站点导航

APP 下载