摘要
本发明公开一种基于语义协同和表征挖掘的视频文本识别方法,包括以下步骤:选取视频帧,构建视频文本识别数据集;通过文本检测网络获取文本的位置信息和检测分数;通过语义协同分类器获得文本的识别内容和语义分数,并利用特征挖掘模块对其进行辅助监督;利用检测分数和识别分数加权平均后的协同分数,筛选出高质量文本实例,并对其位置信息和语义信息进行对齐和融合,作为跟踪表征;将高质量文本区域和跟踪表征输入到文本跟踪模块获取跟踪ID,并结合检测位置和识别内容,确定待识别视频的文本识别结果。本发明方法,能够实现视频文本中小弱文本区域和类文本区域的准确识别,提升模型对于外部环境视觉干扰的鲁棒性。
技术关键词
语义协同
文本识别方法
分类器
文本分割方法
网络
语义特征
样本
模块
视频帧
编码
图像
多层感知机
视觉特征
融合特征
标签
中心线
系统为您推荐了相关专利信息
生猪免疫功能
肠道菌群检测
功能性氨基酸
预测系统
标志物
视频
管理系统资源
管理系统用户
多模态
语音特征提取
无人机集群
混合网络
仿真平台
决策系统
网络优化器
飞行器
解算方法
模型训练方法
数值积分方法
损失函数设计
数字化监控方法
输变电工程
设备组
设备状态数据
时间差