基于OCR和语音识别技术的长视频内容信息采集方法

AITNT
正文
推荐专利
基于OCR和语音识别技术的长视频内容信息采集方法
申请号:CN202510755057
申请日期:2025-06-06
公开号:CN120635776A
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了基于OCR和语音识别技术的长视频内容信息采集方法,包括如下步骤:S1、对输入的长视频数据进行预处理\n提取图像帧序列和音频流;S2、图像帧序列输入OCR识别模块,音频流输入ASR识别模块,获取初步识别结果;S3、构建多目标适应度函数,使用角蜥蜴优化算法优化OCR与ASR参数组合;S4、将最优参数组分别应用于OCR与ASR识别模块,获取优化识别结果;S5、构建融合因子图,采用置信传播算法执行边缘消息传递,生成多模态语义块集合;S6、对多模态语义块集合进行处理,生成统一的多模态内容信息集。本发明通过融合角蜥蜴优化算法与置信传播机制,实现了对长视频中图像文本与语音信息的高精度识别与多模态语义一致性提取。
技术关键词
图像文本信息 识别模块 信息采集方法 语音识别技术 视频图像帧序列 置信传播算法 语义 音频 参数 相关系数阈值 置信度阈值 因子 分段 节点 切片 梅尔频率倒谱系数
系统为您推荐了相关专利信息
1
基于多源数据分析的智慧城市交通管理系统
颜色识别模块 应急红绿灯 交通路口 节点 路口红绿灯
2
一种基于多模态智能控制的高精度飞行机器人
多模态 定位遥控器 控制主机 通风组件 信号传输模块
3
基于图像识别的报销单据自动化识别校验系统
识别特征 单据 校验系统 强化特征 票据
4
一种工业设备自动化视觉定位方法及系统
工业设备自动化 视觉定位方法 像素点 地形三维模型 机器学习模型
5
基于零样本检测的目标识别定位方法及系统
识别定位方法 SAM模块 分类网络 样本 深度值
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号