一种基于双重语义的跨页表格判别方法

AITNT
正文
推荐专利
一种基于双重语义的跨页表格判别方法
申请号:CN202410983332
申请日期:2024-07-22
公开号:CN119202813A
公开日期:2024-12-27
类型:发明专利
摘要
本发明公开了一种基于双重语义的跨页表格判别方法,涉及文本处理技术领域,包括:获取待测的上下文表格数据;将待测的下文表格的首行文本序列输入到训练好的表头判别模型进行判断,当判定下文表格不存在表头时,则继续进行后续步骤;否则判定为不是跨页表格;将待测的上下文表格的表格前缀文本序列与上下文表格的位置特征输入到训练好的上下文前缀文本判别模型得出判别结果;在下文表格表头不存在的情况下,进入第二阶段上下文表格内容语义判别,将表格前缀文本语义特征融合上下文表格的位置特征,并通过交叉注意力方式,建模拼接表格正文语义位置特征与上文表格表头语义位置特征之间的依赖关系,提升了本发明对于跨页表格的判别的准确性和精确度,同时方便在实际应用中部署,效率高。
技术关键词
表头 判别方法 表格特征 语义特征提取 样本 序列 文本处理技术 字符 数据 梯度下降法 分类特征 注意力 参数 关系 偏差 矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号