摘要
本申请公开了数据处理方法、计算机及存储介质,包括:基于多模态文档的文本结构信息,检测到多模态文档中不存在目录结构,则通过语义识别得到多模态文档中每个页面的第一主题;基于多模态文档中每个页面的第一主题,检测到多模态文档中相邻页面的第一主题的相似度大于相似度阈值,则将相邻页面归入同一页面分组;根据多模态文档中每个页面分组中页面的第一主题,得到每个页面分组的第二主题;根据每个页面分组的第二主题得到每个页面分组的目录,将多个页面分组的目录进行组合,得到多模态文档的目录结构。基于页面相似度分组,并根据分组的主题生成目录,能充分反映文档核心信息,确保目录与多模态文档内容的匹配度,提高生成目录的准确性。
技术关键词
多模态
页面
主题
数据处理方法
目录
可执行程序代码
文本
计算机程序产品
数据处理设备
语义
可读存储介质
数据处理装置
处理器
识别模块
格式
关系
存储器
指令