一种医疗数据自然语言处理的分词方法及系统

正文

推荐专利

申请号：CN202511222597

申请日期：2025-08-29

公开号：CN120930641A

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了一种医疗数据自然语言处理的分词方法及系统，该方法包括：构建包含基础术语集、组合术语集和缩写映射表的多级医学词典；基于多级医学词典体系，采用正向最大匹配法和逆向最大匹配法对输入文本进行扫描匹配，生成初始候选分词序列；将初始候选分词序列转换为融合字嵌入、词典标记嵌入和位置嵌入的输入特征向量，并将输入特征向量输入至改造后的BERT模型进行处理；对BERT模型输出的标签序列进行解码，以确定最终分词结果。通过结合双向最大匹配法生成初始候选分词序列，将其转换为融合多嵌入的特征向量，输入含术语增强层和条件随机场层的改造后BERT模型处理，经解码优化得最终分词结果，提升医疗文本分词精度与效率。

技术关键词

术语分词方法词典 BERT模型自然语言条件随机场序列语义向量医学文本基础解码标签注意力机制字符维特比算法数据标记分词系统

系统为您推荐了相关专利信息

一种利用人工语言进行预训练来学习迁移知识的方法及介质

自然语言预训练语言模型编码器参数嵌套结构数据

法医口述记录的信息提炼与结构化处理方法及相关装置

滤波器文本大语言模型计算误差信号案件

一种基于客服问答知识库的智能交互方法及其装置

问答知识库自然语言文本智能交互方法答案偏好特征

一种跨企业发票风险协同识别方法和系统

发票协同识别方法风险加密节点

一种基于数字化智能分析的膳食结构评价方法及系统

膳食结构评价方法图像识别模型数据可视化图表多模态

一种医疗数据自然语言处理的分词方法及系统

站点导航

APP 下载