一种基于多模态融合的视频内容文本化方法及系统

正文

推荐专利

申请号：CN202510813149

申请日期：2025-06-18

公开号：CN120708127A

公开日期：2025-09-26

类型：发明专利

摘要

本发明提供一种基于多模态融合的视频内容文本化方法，包含以下步骤：步骤1.动态识别视频中存在的有效模态信息，包括字幕信息检测、音频信息检测及关键帧信息采样；步骤2.对所述字幕信息，采用基于区域聚类的OCR增强方法进行字幕提取；对所述音频信息，采用多引擎协同转写与权重融合策略生成语音文本；对所述关键帧信息，生成描述性文本；步骤3.将所述字幕、语音文本、描述性文本和视频时间轴进行时空对齐并进行语义融合；根据融合结果反馈调整所述关键帧信息采样的策略，形成自适应反馈。本发明能够自适应融合多模态信息、覆盖视频全要素的文本化方法，以提高内容提取的鲁棒性与全面性。

技术关键词

文本关键帧字幕语言模型得分视频生成语音融合策略音频融合多模态信息运动矢量分析语义人声 MFCC特征动态瞬时噪声云端声学特征频谱特征

系统为您推荐了相关专利信息

基于多特征融合的区块链数据隐蔽传输检测方法及系统

数据隐蔽传输池化特征融合特征文本积层

基于YOLO-BOS的高效实时车辆智能检测识别方法及系统

检测识别方法车辆注意力机制训练样本图像网络

一种多场景自适应的语义分析写作辅助的方法及系统

融合算法多模态图谱综合语义写作辅助技术

模型部署方法、装置、设备及存储介质

模型部署方法通道输出特征参数云端

一种智能水利系统语料增强处理方法及存储介质

智能水利知识提取模板非临时性存储介质语义扩展技术切块

一种基于多模态融合的视频内容文本化方法及系统

站点导航

APP 下载