文档向量化并行加速方法及系统

AITNT
正文
推荐专利
文档向量化并行加速方法及系统
申请号:CN202410822551
申请日期:2024-06-25
公开号:CN118379750B
公开日期:2024-08-30
类型:发明专利
摘要
本发明公开了文档向量化并行加速方法及系统,属于文档处理技术领域,要解决的技术问题为大规模文档库的向量化效率低下。包括如下步骤:按照页码将扫描文档拆分为图片,将所有图片文件名存放到一个文件容器中;定义并初始化一个OCR结果容器;每个线程从图片文件中获取一张图片,并通过OCR识别模型识别图片文字内容,将文字内容存储至OCR结果容器中;模型切片线程从OCR结果容器中获取一条数据,通过预定义的切片方法进行切片;定义并初始化一个向量化结果容器;构建文档向量化线程池,从切片结果容器中获取一条数据,基于预定义的文本向量化模型对获取的数据进行向量化操作,得到文档内容向量化结果;整合文档向量化结果。
技术关键词
并行加速方法 OCR识别模型 容器 识别图片文字 切片方法 数据 模块 支持自定义 文本 加速系统 链表
系统为您推荐了相关专利信息
1
一种动态部署网络安全服务的系统架构及其方法
网络攻击事件 节点 检测网络攻击 规范特征 生成容器
2
一种基于不锈钢冶炼用机器人圆形砌筑灌砂装置
灌砂装置 集成组件 吸盘组件 机器人 清灰组件
3
自动捡蛋机器人及使用方法
捡蛋机器人 清扫部件 图像采集器 拾取夹具 驱动部件
4
一种测试资源自动规划的测试系统
测试设备 规划 资源 信号 遗传算法求解
5
一种压力容器接管角焊缝用相控阵检测扫查方法
检测扫查方法 相控阵 压力容器 恒定接触压力 磁吸附装置
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号