摘要
本申请涉及一种阅读顺序确定方法及装置,所述方法包括:获取电子文档,并确定电子文档中已确定阅读顺序的第一文本块以及待确定阅读顺序的多个第二文本块;针对任一第二文本块,确定第二文本块与第一文本块之间的语义置信度;根据语义置信度,从多个第二文本块中确定目标文本块,将目标文本块确定为接续第一文本块的下一阅读文本块。通过确定已确定阅读顺序的第一文本块,与任一待确定阅读顺序之间的语义置信度,根据语义置信度,从多个第二文本块中确定目标文本块,将目标文本块确定为接续第一文本块的下一阅读文本块,可以避免由于文本块的拼接顺序的不同,而对第一文本块的下一阅读文本块的确定产生影响。
技术关键词
字符
语义
样本
字典
文本行
电子
标志位
序列
标签
关系
模块
数据