摘要
本申请公开音频定位模型的训练方法、设备、存储介质及程序产品,涉及音频处理技术领域,该方法包括:获取音频‑字幕样本,该音频‑字幕样本包含在时间轴对齐的音频片段和字幕片段;基于音频‑字幕样本和对比损失函数,对音频定位模型进行CLAP训练;基于音频适配器提取所述音频片段的帧级音频特征;计算各帧的帧级音频特征和相应的短语嵌入之间的帧级音频‑短语相似度;根据各帧所对应的帧级音频‑短语相似度和声音事件标签,对音频定位模型进行声音事件分类训练,声音事件标签用于指示音频帧是否与短语嵌入所描述的真实声音事件相匹配。由此,显著提升了音频定位模型在帧级音频理解任务中的性能表现。
技术关键词
音频特征
音频适配器
字幕
样本
音频编码器
多层感知器
分析模块
上采样
生成高分辨率
投影器
标签
文本编码器
计算机程序产品
处理器通信
自然语言
指令
语义
系统为您推荐了相关专利信息
信号特征提取
脉搏
分类方法
位置更新
构造特征向量
动态瓶颈预测
多源运行数据
时间序列预测模型
长短期记忆网络
半导体
文件检测方法
文件检测系统
文本分类器
图像分类器
样本
样本
评估预测模型
电力系统
评估装置
数据获取模块