摘要
本发明公开一种特定领域的中文文本纠错方法及系统,本发明的方法包括以下步骤:准备批量文本数据,利用文本数据训练Ngram统计语言模型、bert文本分类模型、bert文本语言模型;将待纠错文本进行文本预检测,得到错误文本以及正确文本;对获取到的错误文本进行错误检测,得到错误文本以及错误位置信息;对错误检测检测出的错误文本进行正确文本候选集替换,得到一系列候选集,根据候选集获取最后的文本纠错结果。本发明对于正式场合的书面表达术语,特定用词能够按照人工维护的方式进行准确纠错,同时对于常见错别字深度学习语言模型拥有着良好的纠错能力。
技术关键词
中文文本纠错
统计语言模型
错误检测
纠错文本
文本分类模型
深度学习语言模型
数据
平滑技术
批量
分词
语句
模块
术语
参数
系统为您推荐了相关专利信息
供需匹配方法
自然语言
文本分类模型
标签
词嵌入模型
简历筛选方法
主题词向量
BERT模型
文本主题词
信息熵
门控循环单元
政务大数据平台
学生管理系统
数据访问控制
数据校正
文本信息提取方法
感兴趣
视频流
视频帧
车辆测试