摘要
本发明提供一种基于多模态融合的视频内容文本化方法,包含以下步骤:步骤1.动态识别视频中存在的有效模态信息,包括字幕信息检测、音频信息检测及关键帧信息采样;步骤2.对所述字幕信息,采用基于区域聚类的OCR增强方法进行字幕提取;对所述音频信息,采用多引擎协同转写与权重融合策略生成语音文本;对所述关键帧信息,生成描述性文本;步骤3.将所述字幕、语音文本、描述性文本和视频时间轴进行时空对齐并进行语义融合;根据融合结果反馈调整所述关键帧信息采样的策略,形成自适应反馈。本发明能够自适应融合多模态信息、覆盖视频全要素的文本化方法,以提高内容提取的鲁棒性与全面性。
技术关键词
文本
关键帧
字幕
语言模型得分
视频
生成语音
融合策略
音频
融合多模态信息
运动矢量分析
语义
人声
MFCC特征
动态
瞬时噪声
云端
声学特征
频谱特征
系统为您推荐了相关专利信息
检测识别方法
车辆
注意力机制
训练样本图像
网络
智能水利
知识提取模板
非临时性存储介质
语义扩展技术
切块