摘要
本发明公开了一种文字提取与处理方法,涉及信息处理技术领域,本发明收集包含文字的图像数据集,并对每个图像标注文字区域的边界框,将视频文件解码为一系列视频帧,并采样其中的帧作为输入,基于YOLO或Faster R‑CNN目标检测算法配置相应的模型架构和超参数,基于优化后的模型进行文字区域和视频帧的推理,获取文字区域的边界框位置和类别信息,基于深度学习的OCR模型对预处理后的文字区域图像进行文字识别,获取文字的文本内容并对文本内容进行后处理。无需手动标注或设定阈值,减少了人工工作量和主观因素的影响,减少主观性和人为干预,同时同样适用于视频数据,通过对视频帧进行逐帧处理或关键帧提取的方式,实现对视频中的文字区域的检测。
技术关键词
文字区域图像
视频帧
检测模型训练
文本
信息处理技术
人工工作量
训练集数据
解码视频
算法
纠正错误
网络架构
关键帧
格式化
时序
超参数
系统为您推荐了相关专利信息
语义向量
综合语义
文本
语义特征提取
电子设备本体
痕迹特征
编辑
图像采集设备
图像训练样本
计算机存储介质
图像特征向量
Softmax函数
多层感知机
图像处理模型
注意力