摘要
本申请提供一种基于大模型技术文件批量向量化的方法及装置,涉及自然语言处理、文件批量处理、图像处理领域;解决了基于大模型技术文件存量与增量的批量向量化技术问题。该方法包括:扫描目标存储设备的文件目录,获取文件目录中存储的多个目标文件;将所述多个目标文件转换为预设格式,并进行降噪处理,得到处理后的目标件;基于每个目标文件的文件类型,选择相应的大模型对处理后的目标文件进行特征提取,得到每个目标文件的高维特征向量;存储每个目标文件的高维特征向量。本申请用于文件批量向量化的过程中。
技术关键词
高维特征向量
存储设备
断点
规则匹配方法
分层特征提取
数据并行处理
广度优先遍历
目录
神经网络训练
索引机制
文件夹
异步方式
标识
处理单元
格式
增量更新
状态更新
自然语言
聚类
图像处理