音频定位模型的训练方法、设备、存储介质及程序产品

正文

推荐专利

申请号：CN202510430717

申请日期：2025-04-08

公开号：CN120260602A

公开日期：2025-07-04

类型：发明专利

摘要

本申请公开音频定位模型的训练方法、设备、存储介质及程序产品，涉及音频处理技术领域，该方法包括：获取音频‑字幕样本，该音频‑字幕样本包含在时间轴对齐的音频片段和字幕片段；基于音频‑字幕样本和对比损失函数，对音频定位模型进行CLAP训练；基于音频适配器提取所述音频片段的帧级音频特征；计算各帧的帧级音频特征和相应的短语嵌入之间的帧级音频‑短语相似度；根据各帧所对应的帧级音频‑短语相似度和声音事件标签，对音频定位模型进行声音事件分类训练，声音事件标签用于指示音频帧是否与短语嵌入所描述的真实声音事件相匹配。由此，显著提升了音频定位模型在帧级音频理解任务中的性能表现。

技术关键词

音频特征音频适配器字幕样本音频编码器多层感知器分析模块上采样生成高分辨率投影器标签文本编码器计算机程序产品处理器通信自然语言指令语义

系统为您推荐了相关专利信息

一种基于ICEEMDAN的脉搏信号特征提取与分类方法

信号特征提取脉搏分类方法位置更新构造特征向量

一种半导体生产设备动态瓶颈预测方法、装置及电子设备

动态瓶颈预测多源运行数据时间序列预测模型长短期记忆网络半导体

模型训练方法及装置

样本视觉数据图形处理器模型训练方法

针对PHP语言的Webshell文件检测方法及系统

文件检测方法文件检测系统文本分类器图像分类器样本

一种电力系统暂态稳定预测模型的评估方法、装置和设备

样本评估预测模型电力系统评估装置数据获取模块

音频定位模型的训练方法、设备、存储介质及程序产品

站点导航

APP 下载