摘要
本发明公开一种基于大数据查找文档间差异的方法及装置,涉及电数字数据处理技术领域。该方法包括:获取格式解析后的待查找文档,对所述待查找文档中的文本内容进行预处理;基于文本对比算法对预处理后的文本内容进行差异识别,并获取复杂性评估指标,根据复杂性评估指标确定差异识别结果,将差异识别结果通过高亮显示进行可视化;根据高亮显示的可视化结果,调整文本对比算法的参数,根据调整后的文本对比算法重新进行差异识别,获取文档差异分数;所述文档差异分数用于衡量待查找文档之间的差异程度。采用本发明,实现了文档之间差异内容查找准确度的提高,解决了现有技术中文档间差异内容查找不充分的问题。
技术关键词
文本
复杂度
时间段
大数据
段落结构
字符
指标
电数字数据处理技术
因子
动态规划算法
格式
参数
分词
序列
编辑
语义
报告
形态
标记
系统为您推荐了相关专利信息
舞蹈服饰
推荐方法
训练深度神经网络
文本
多层感知机
真实场景图像
数据生成模型
语义特征
文本
噪声数据