摘要
本发明公开了文档向量化并行加速方法及系统,属于文档处理技术领域,要解决的技术问题为大规模文档库的向量化效率低下。包括如下步骤:按照页码将扫描文档拆分为图片,将所有图片文件名存放到一个文件容器中;定义并初始化一个OCR结果容器;每个线程从图片文件中获取一张图片,并通过OCR识别模型识别图片文字内容,将文字内容存储至OCR结果容器中;模型切片线程从OCR结果容器中获取一条数据,通过预定义的切片方法进行切片;定义并初始化一个向量化结果容器;构建文档向量化线程池,从切片结果容器中获取一条数据,基于预定义的文本向量化模型对获取的数据进行向量化操作,得到文档内容向量化结果;整合文档向量化结果。
技术关键词
并行加速方法
OCR识别模型
容器
识别图片文字
切片方法
数据
模块
支持自定义
文本
加速系统
链表
系统为您推荐了相关专利信息
网络攻击事件
节点
检测网络攻击
规范特征
生成容器
捡蛋机器人
清扫部件
图像采集器
拾取夹具
驱动部件
检测扫查方法
相控阵
压力容器
恒定接触压力
磁吸附装置