摘要
本发明公开了一种基于多模态语义对齐的视频训练数据生成方法,涉及音视频处理技术领域。具体包括以下步骤:(1)对视频中的音频、图像帧及文本信息进行多模态时间对齐,建立跨模态的时序映射关系;(2)基于所述时间对齐结果进行语义增强处理,提升专业术语的识别准确率;(3)根据语义密度与置信度对训练样本进行动态分级;(4)输出分级的结构化训练数据以适配不同训练阶段。旨在从视频数据源头提升训练数据的质量,避免大量冗余数据的出现和关键节点缺失。
技术关键词
训练数据生成方法
多模态
语义
动态时间窗口
视频
术语
跨模态
文本
训练集
音频
时间偏移量
字幕
阶段
语音
关系
时间同步
时序
密度
系统为您推荐了相关专利信息
光波导显示模组
手势识别模型
图像采集器
语音识别模块
手语识别翻译
机器视觉检查
视频去噪方法
增广拉格朗日
去噪模型
正则化参数