摘要
本发明公开了基于OCR和语音识别技术的长视频内容信息采集方法,包括如下步骤:S1、对输入的长视频数据进行预处理\n提取图像帧序列和音频流;S2、图像帧序列输入OCR识别模块,音频流输入ASR识别模块,获取初步识别结果;S3、构建多目标适应度函数,使用角蜥蜴优化算法优化OCR与ASR参数组合;S4、将最优参数组分别应用于OCR与ASR识别模块,获取优化识别结果;S5、构建融合因子图,采用置信传播算法执行边缘消息传递,生成多模态语义块集合;S6、对多模态语义块集合进行处理,生成统一的多模态内容信息集。本发明通过融合角蜥蜴优化算法与置信传播机制,实现了对长视频中图像文本与语音信息的高精度识别与多模态语义一致性提取。
技术关键词
图像文本信息
识别模块
信息采集方法
语音识别技术
视频图像帧序列
置信传播算法
语义
音频
参数
相关系数阈值
置信度阈值
因子
分段
节点
切片
梅尔频率倒谱系数
系统为您推荐了相关专利信息
颜色识别模块
应急红绿灯
交通路口
节点
路口红绿灯
多模态
定位遥控器
控制主机
通风组件
信号传输模块
工业设备自动化
视觉定位方法
像素点
地形三维模型
机器学习模型