基于文本内容提取的文档处理方法和系统

AITNT
正文
推荐专利
基于文本内容提取的文档处理方法和系统
申请号:CN202510804637
申请日期:2025-06-17
公开号:CN120632125A
公开日期:2025-09-12
类型:发明专利
摘要
本发明涉及基于文本内容提取的文档处理方法和系统,包括接收包含文本、图像、版式信息的原始文档,自动检测文档编码格式并执行字符集转换,对非结构化文档建立包括页码、段落、表格的层级索引;通过预训练的视觉‑语言模型同步处理文本内容与视觉布局,文本流嵌入层提取词级、句级语义特征,视觉编码器分析文档元素的空间分布特征,通过跨模态注意力机制融合文本与视觉特征;加载与文档类型匹配的领域知识图谱,执行实体链接将文本提及关联到知识节点。该基于文本内容提取的文档处理方法和系统,通过视觉‑文本联合编码与知识增强的协同作用,在金融合同关键条款识别任务准确率提升,错误率低于行业标杆产品,语义理解精度显著提升。
技术关键词
文本 空间分布特征 分布式特征 区块链存证 跨模态 抽取实体关系 联合特征提取 空间变换网络 规则库管理 版本控制系统 注意力机制 多模态 视觉特征提取 语义特征 队列管理器 可信执行环境 知识图谱构建
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号