一种对PDF文件进行元素标注的处理方法和装置

AITNT
正文
推荐专利
一种对PDF文件进行元素标注的处理方法和装置
申请号:CN202511177369
申请日期:2025-08-21
公开号:CN121009880A
公开日期:2025-11-25
类型:发明专利
摘要
本发明实施例涉及一种对PDF文件进行元素标注的处理方法和装置,所述方法包括:对标注者输入的PDF文件进行图像转换和基础元素解析;在标注过程中,通过记录标注者的标注行为刷新标注轨迹和目标元素集;并由行为预测模型根据标注轨迹为下一步标注提供候选元素集;并基于标注者的候选反馈提升预测模型性能;并基于多模态特征识别模型为目标元素添加多模态元素特征;并通过目标匹配和轨迹跟踪处理机制刷新关联目标轨迹;在标注结束后,进行跨页元素融合和标注一致性检查;最后将完成一致性检查目标集向标注者反馈。本发明可以提高标注效率、提高跨页元素的识别准确率和融合效率、提高标注一致性。
技术关键词
元素 轨迹 多模态特征 标识 特征向量空间 编码器 鼠标 视觉 布局特征 坐标 网络 序列 标签 文本特征向量 基础 图像高维特征 注意力
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号