一种基于多模态语义对齐的视频训练数据生成方法

正文

推荐专利

申请号：CN202510861137

申请日期：2025-06-25

公开号：CN120766057A

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开了一种基于多模态语义对齐的视频训练数据生成方法，涉及音视频处理技术领域。具体包括以下步骤：（1）对视频中的音频、图像帧及文本信息进行多模态时间对齐，建立跨模态的时序映射关系；（2）基于所述时间对齐结果进行语义增强处理，提升专业术语的识别准确率；（3）根据语义密度与置信度对训练样本进行动态分级；（4）输出分级的结构化训练数据以适配不同训练阶段。旨在从视频数据源头提升训练数据的质量，避免大量冗余数据的出现和关键节点缺失。

技术关键词

训练数据生成方法多模态语义动态时间窗口视频术语跨模态文本训练集音频时间偏移量字幕阶段语音关系时间同步时序密度

系统为您推荐了相关专利信息

基于聋哑人出行辅助视觉眼镜的控制方法、设备及介质

光波导显示模组手势识别模型图像采集器语音识别模块手语识别翻译

基于多模态智能体驱动的OTT视觉特征提取系统及方法

视觉特征提取实时视频流感知特征广告关键点

3D机器视觉检查与测量的变换域高阶张量视频去噪方法

机器视觉检查视频去噪方法增广拉格朗日去噪模型正则化参数

一种通过思维链策略重写查询的会话式检索方法

检索方法大语言模型文本概括策略编码

基于多模态特征融合与动态行为分析的弱密码检测方法

密码检测方法多模态特征融合文本字典字符

一种基于多模态语义对齐的视频训练数据生成方法

站点导航

APP 下载