基于OCR和语音识别技术的长视频内容信息采集方法

正文

推荐专利

申请号：CN202510755057

申请日期：2025-06-06

公开号：CN120635776A

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了基于OCR和语音识别技术的长视频内容信息采集方法，包括如下步骤：S1、对输入的长视频数据进行预处理\n提取图像帧序列和音频流；S2、图像帧序列输入OCR识别模块，音频流输入ASR识别模块，获取初步识别结果；S3、构建多目标适应度函数，使用角蜥蜴优化算法优化OCR与ASR参数组合；S4、将最优参数组分别应用于OCR与ASR识别模块，获取优化识别结果；S5、构建融合因子图，采用置信传播算法执行边缘消息传递，生成多模态语义块集合；S6、对多模态语义块集合进行处理，生成统一的多模态内容信息集。本发明通过融合角蜥蜴优化算法与置信传播机制，实现了对长视频中图像文本与语音信息的高精度识别与多模态语义一致性提取。

技术关键词

图像文本信息识别模块信息采集方法语音识别技术视频图像帧序列置信传播算法语义音频参数相关系数阈值置信度阈值因子分段节点切片梅尔频率倒谱系数

系统为您推荐了相关专利信息

基于多源数据分析的智慧城市交通管理系统

颜色识别模块应急红绿灯交通路口节点路口红绿灯

一种基于多模态智能控制的高精度飞行机器人

多模态定位遥控器控制主机通风组件信号传输模块

基于图像识别的报销单据自动化识别校验系统

识别特征单据校验系统强化特征票据

一种工业设备自动化视觉定位方法及系统

工业设备自动化视觉定位方法像素点地形三维模型机器学习模型

基于零样本检测的目标识别定位方法及系统

识别定位方法 SAM模块分类网络样本深度值

基于OCR和语音识别技术的长视频内容信息采集方法

站点导航

APP 下载