摘要
本发明公开了一种医疗数据自然语言处理的分词方法及系统,该方法包括:构建包含基础术语集、组合术语集和缩写映射表的多级医学词典;基于多级医学词典体系,采用正向最大匹配法和逆向最大匹配法对输入文本进行扫描匹配,生成初始候选分词序列;将初始候选分词序列转换为融合字嵌入、词典标记嵌入和位置嵌入的输入特征向量,并将输入特征向量输入至改造后的BERT模型进行处理;对BERT模型输出的标签序列进行解码,以确定最终分词结果。通过结合双向最大匹配法生成初始候选分词序列,将其转换为融合多嵌入的特征向量,输入含术语增强层和条件随机场层的改造后BERT模型处理,经解码优化得最终分词结果,提升医疗文本分词精度与效率。
技术关键词
术语
分词方法
词典
BERT模型
自然语言
条件随机场
序列
语义向量
医学
文本
基础
解码
标签
注意力机制
字符
维特比算法
数据
标记
分词系统
系统为您推荐了相关专利信息
自然语言
预训练语言模型
编码器参数
嵌套结构
数据
问答知识库
自然语言文本
智能交互方法
答案
偏好特征
膳食结构
评价方法
图像识别模型
数据可视化图表
多模态