摘要
本发明公开一种基于大模型生成理解能力的智能文件分拣方法及装置,应用于服务器。方法包括:接收文件并提取纯文本,图片文本用OCR技术提取;将纯文本与预设prompt模版拼装后发送至大模型引擎,抽取文件类型和业务关联字段生成JSON数据;基于业务关联字段在业务系统中查询,查询到则直接关联分拣文件,未查询到则暂存文件,待业务数据维护后再关联分拣。预处理含格式转换、去重和完整性校验。大模型引擎采用Transformer架构,还涉及命名实体识别、消息队列监控、交叉熵训练及混淆矩阵验证等。该方法实现文件智能分拣,提升效率和准确性,降低人工成本。
技术关键词
智能文件
分拣方法
命名实体识别
SimHash算法
服务器
JSON格式数据
队列机制
文本
条件随机场模型
业务系统
消息
数学模型
分拣装置
字段
模版
标签
样本
注意力机制