一种基于多模态语义对齐的视频训练数据生成方法

AITNT
正文
推荐专利
一种基于多模态语义对齐的视频训练数据生成方法
申请号:CN202510861137
申请日期:2025-06-25
公开号:CN120766057A
公开日期:2025-10-10
类型:发明专利
摘要
本发明公开了一种基于多模态语义对齐的视频训练数据生成方法,涉及音视频处理技术领域。具体包括以下步骤:(1)对视频中的音频、图像帧及文本信息进行多模态时间对齐,建立跨模态的时序映射关系;(2)基于所述时间对齐结果进行语义增强处理,提升专业术语的识别准确率;(3)根据语义密度与置信度对训练样本进行动态分级;(4)输出分级的结构化训练数据以适配不同训练阶段。旨在从视频数据源头提升训练数据的质量,避免大量冗余数据的出现和关键节点缺失。
技术关键词
训练数据生成方法 多模态 语义 动态时间窗口 视频 术语 跨模态 文本 训练集 音频 时间偏移量 字幕 阶段 语音 关系 时间同步 时序 密度
系统为您推荐了相关专利信息
1
基于聋哑人出行辅助视觉眼镜的控制方法、设备及介质
光波导显示模组 手势识别模型 图像采集器 语音识别模块 手语识别翻译
2
基于多模态智能体驱动的OTT视觉特征提取系统及方法
视觉特征提取 实时视频流 感知特征 广告 关键点
3
3D机器视觉检查与测量的变换域高阶张量视频去噪方法
机器视觉检查 视频去噪方法 增广拉格朗日 去噪模型 正则化参数
4
一种通过思维链策略重写查询的会话式检索方法
检索方法 大语言模型 文本概括 策略 编码
5
基于多模态特征融合与动态行为分析的弱密码检测方法
密码检测方法 多模态特征融合 文本 字典 字符
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号