摘要
本发明提供一种文本纠正方法及装置,所述方法包括:对当前文档进行预处理,构建当前文档的词汇表;将当前文档的词汇表输入至预先训练完成的Word2Vec模型,提取词汇表中每一词汇的Word2Vec词向量;并且,在预设文档集合下,利用TF‑IDF算法计算每个文档中所述每一词汇对应的TF‑IDF值,构建所述每一词汇的TF‑IDF特征向量;对所述每一词汇的TF‑IDF特征向量和Word2Vec词向量进行向量特征融合形成所述每一词汇的向量表示;根据所述每一词汇的向量表示,在预设数据库中匹配对应的目标错误词;利用目标错误词对应的规范词,对当前文档中的所述每一词汇进行替换,以实现对当前文档的文本纠正。本发明大幅度提高了文本编辑效率,有效降低了文本的编校质量差错率。
技术关键词
文本纠正方法
非暂态计算机可读存储介质
加权特征
词语
纠正装置
特征提取模块
处理器
算法
差错率
匹配模块
语义
存储器
电子设备
频率
分词
系统为您推荐了相关专利信息
动态分割方法
多元时间序列数据
高性能
分割算法
网络
智能决策方法
数字孪生模型
板块
交通运行状态
空气质量指数
器械类别
分割方法
非暂态计算机可读存储介质
语音特征提取
语音编码器
策略
网络
语音识别方法
非暂态计算机可读存储介质
符号
故障场景
时序特征
快速筛选方法
蒙特卡罗抽样方法
神经网络模型