摘要
本发明公开了一种基于GPT‑4o的智能OCR方法和系统,所述方法包括:获取视频第一图像帧和第二图像帧,根据光流算法计算光流场,从光流场中提取第二图像帧相对于第一图像帧的全局运动参数;根据全局运动参数构建反向运动补偿矩阵,利用反向运动补偿矩阵对第二图像帧进行反向运动补偿,得到补偿后的第三图像帧;对第一图像帧和第三图像帧进行重叠分割,使得重叠的图像区块大小符合GPT‑4o的图像输入尺寸;对重叠的图像区块进行校正,并将经过校正的重叠的图像区块输入到GPT‑4o中进行OCR识别;将OCR识别的文字结果按照边缘重叠像素匹配的拼接算法进行文字的拼接,并按照拼接的文字顺序分别输出文字结果。
技术关键词
拼接算法
像素点
透视变换矩阵
光流场计算方法
光流算法
视频帧
校正
运动
参数提取方法
OCR系统
边缘检测算子
可读存储介质
迭代方法
图像分割
系统为您推荐了相关专利信息
多模态对话
深度神经网络
脉象数据
数值
问答方法
抓料机构
抓取系统
半导体
图像采集模块
中央控制模块