一种大小模型结合的非结构化文档抽取方法

AITNT
正文
推荐专利
一种大小模型结合的非结构化文档抽取方法
申请号:CN202510692663
申请日期:2025-05-27
公开号:CN120386864A
公开日期:2025-07-29
类型:发明专利
摘要
本发明提供了一种大小模型结合的非结构化文档抽取方法,涉及数据检索领域,包括:基于Doctopus和属性增强的检索方法获取文档属性值;基于验证集估计不同策略在抽取不同属性时的准确率;基于动态规划算法,在成本预算内为每个属性值选择最合适的抽取策略。本发明通过结合非大语言模型成本低以及大语言模型准确率高的优势,将原始数据集中文档进行划分、嵌入并映射到高维向量空间构建索引,后挖掘属性相关的参考句子以增强后续询问的信息量。在评估了各策略的抽取质量后,使用动态规划算法对给定预算下最大抽取准确率进行更新,得到最佳抽取策略方案组合,保证了抽取过程的准确性和效益性。
技术关键词
动态规划算法 策略 训练语言模型 检索方法 高维向量空间 文本 大语言模型 令牌 索引 关键词 摘要 语义 数据
系统为您推荐了相关专利信息
1
一种异构多模态数据智能融合的方法及系统
适配器 多模态 实体识别模型 数据分析模块 异构
2
基于AI的数据脱敏系统及脱敏方法
脱敏策略 数据脱敏系统 AI系统 敏感数据识别 人机交互界面
3
基于混合专家的视觉语言模型的令牌路由增强方法
令牌 视觉 负载均衡策略 序列 图像
4
一种多层次重要性阻断策略评估的网络攻击防御方法
深度自动编码器 网络攻击防御方法 多层次 重构误差 编码特征
5
一种模型训练方法、长尾视频识别方法及电子设备
样本 视频识别方法 模型训练方法 预测类别 分类器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号