摘要
本发明提供了一种大小模型结合的非结构化文档抽取方法,涉及数据检索领域,包括:基于Doctopus和属性增强的检索方法获取文档属性值;基于验证集估计不同策略在抽取不同属性时的准确率;基于动态规划算法,在成本预算内为每个属性值选择最合适的抽取策略。本发明通过结合非大语言模型成本低以及大语言模型准确率高的优势,将原始数据集中文档进行划分、嵌入并映射到高维向量空间构建索引,后挖掘属性相关的参考句子以增强后续询问的信息量。在评估了各策略的抽取质量后,使用动态规划算法对给定预算下最大抽取准确率进行更新,得到最佳抽取策略方案组合,保证了抽取过程的准确性和效益性。
技术关键词
动态规划算法
策略
训练语言模型
检索方法
高维向量空间
文本
大语言模型
令牌
索引
关键词
摘要
语义
数据
系统为您推荐了相关专利信息
脱敏策略
数据脱敏系统
AI系统
敏感数据识别
人机交互界面
深度自动编码器
网络攻击防御方法
多层次
重构误差
编码特征
样本
视频识别方法
模型训练方法
预测类别
分类器