摘要
本申请实施例提供一种数据处理方法和装置,涉及人工智能技术领域,包括:对获取的待预测文本进行分词获得待预测词序列;针对待预测词序列中的每个分词迭代处理,分别执行步骤:获得待预测词序列中的第一分词分别与预设词库中各预设分词的语义邻接概率,和第一分词与邻接的第二分词的原始邻接概率,若原始邻接概率小于概率阈值,基于预设筛选条件和第二分词,从预设词典中选出多个候选分词;将与候选分词匹配的预设分词的语义邻接概率作为候选邻接概率,并将最大的候选邻接概率对应的候选分词作为目标分词,采用目标分词替换待预测词序列中的第二分词;以获得最终的待预测文本的目标文本。以提高数据清洗准确性和效率。
技术关键词
分词
序列
标签文本
语义
注意力机制
数据处理方法
词典
关系
翻译工具
数据处理装置
处理单元
人工智能技术
无监督
参数
系统为您推荐了相关专利信息
报告分析方法
配电网项目
术语
文本处理模型
规则集
面向需求响应
可调负荷
时序特征
负荷预测模型
电力信息处理技术
CT检查技术
深度学习神经网络模型
深度学习模型
边缘检测算法
CT检查系统