一种多尺度SoftMasked-ChineseBERT模型的中文医疗文本拼写纠错方法和系统

正文

推荐专利

申请号：CN202510069843

申请日期：2025-01-16

公开号：CN120012765A

公开日期：2025-05-16

类型：发明专利

摘要

本发明公开了一种基于多尺度SoftMasked‑ChineseBERT模型的中文医疗文本拼写纠错方法及系统。本发明将待纠错的中文医疗文本采用多语步拆分算法拆分为单语步句子集合；将单语步句子集合输入联合探测模型，以得到嵌入序列，联合探测模型包括三个子模型，将嵌入序列输入三个子模型分别得到标签序列，三个标签序列加权求和以得到字符错误概率序列，探测出嵌入序列的错误字符；将嵌入序列输入SoftMasked，基于字符错误概率序列，将嵌入序列中的错误字符的语义特征进行屏蔽，得到融合特征序列；将融合特征序列输入校正模型得到纠正字符，用纠正字符替换嵌入序列中的错误字符。本发明通过结合NLP技术与医学知识，能有效检测和修正医疗文本中的潜在错误，保障信息准确传递，避免误诊。

技术关键词

拼写纠错方法字符序列融合特征多尺度拆分算法语义特征标签 NLP技术纠错文本纠错系统词语可读存储介质屏蔽模块语义向量处理器校正模块

一种多尺度SoftMasked-ChineseBERT模型的中文医疗文本拼写纠错方法和系统

站点导航

APP 下载