一种基于多模态融合的视频内容文本化方法及系统

AITNT
正文
推荐专利
一种基于多模态融合的视频内容文本化方法及系统
申请号:CN202510813149
申请日期:2025-06-18
公开号:CN120708127A
公开日期:2025-09-26
类型:发明专利
摘要
本发明提供一种基于多模态融合的视频内容文本化方法,包含以下步骤:步骤1.动态识别视频中存在的有效模态信息,包括字幕信息检测、音频信息检测及关键帧信息采样;步骤2.对所述字幕信息,采用基于区域聚类的OCR增强方法进行字幕提取;对所述音频信息,采用多引擎协同转写与权重融合策略生成语音文本;对所述关键帧信息,生成描述性文本;步骤3.将所述字幕、语音文本、描述性文本和视频时间轴进行时空对齐并进行语义融合;根据融合结果反馈调整所述关键帧信息采样的策略,形成自适应反馈。本发明能够自适应融合多模态信息、覆盖视频全要素的文本化方法,以提高内容提取的鲁棒性与全面性。
技术关键词
文本 关键帧 字幕 语言模型得分 视频 生成语音 融合策略 音频 融合多模态信息 运动矢量分析 语义 人声 MFCC特征 动态 瞬时噪声 云端 声学特征 频谱特征
系统为您推荐了相关专利信息
1
基于多特征融合的区块链数据隐蔽传输检测方法及系统
数据隐蔽传输 池化特征 融合特征 文本 积层
2
基于YOLO-BOS的高效实时车辆智能检测识别方法及系统
检测识别方法 车辆 注意力机制 训练样本图像 网络
3
一种多场景自适应的语义分析写作辅助的方法及系统
融合算法 多模态 图谱 综合语义 写作辅助技术
4
模型部署方法、装置、设备及存储介质
模型部署方法 通道 输出特征 参数 云端
5
一种智能水利系统语料增强处理方法及存储介质
智能水利 知识提取模板 非临时性存储介质 语义扩展技术 切块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号