摘要
本发明公开了一种基于多尺度SoftMasked‑ChineseBERT模型的中文医疗文本拼写纠错方法及系统。本发明将待纠错的中文医疗文本采用多语步拆分算法拆分为单语步句子集合;将单语步句子集合输入联合探测模型,以得到嵌入序列,联合探测模型包括三个子模型,将嵌入序列输入三个子模型分别得到标签序列,三个标签序列加权求和以得到字符错误概率序列,探测出嵌入序列的错误字符;将嵌入序列输入SoftMasked,基于字符错误概率序列,将嵌入序列中的错误字符的语义特征进行屏蔽,得到融合特征序列;将融合特征序列输入校正模型得到纠正字符,用纠正字符替换嵌入序列中的错误字符。本发明通过结合NLP技术与医学知识,能有效检测和修正医疗文本中的潜在错误,保障信息准确传递,避免误诊。
技术关键词
拼写纠错方法
字符
序列
融合特征
多尺度
拆分算法
语义特征
标签
NLP技术
纠错文本
纠错系统
词语
可读存储介质
屏蔽模块
语义向量
处理器
校正模块