音频定位模型的训练方法、设备、存储介质及程序产品

AITNT
正文
推荐专利
音频定位模型的训练方法、设备、存储介质及程序产品
申请号:CN202510430717
申请日期:2025-04-08
公开号:CN120260602A
公开日期:2025-07-04
类型:发明专利
摘要
本申请公开音频定位模型的训练方法、设备、存储介质及程序产品,涉及音频处理技术领域,该方法包括:获取音频‑字幕样本,该音频‑字幕样本包含在时间轴对齐的音频片段和字幕片段;基于音频‑字幕样本和对比损失函数,对音频定位模型进行CLAP训练;基于音频适配器提取所述音频片段的帧级音频特征;计算各帧的帧级音频特征和相应的短语嵌入之间的帧级音频‑短语相似度;根据各帧所对应的帧级音频‑短语相似度和声音事件标签,对音频定位模型进行声音事件分类训练,声音事件标签用于指示音频帧是否与短语嵌入所描述的真实声音事件相匹配。由此,显著提升了音频定位模型在帧级音频理解任务中的性能表现。
技术关键词
音频特征 音频适配器 字幕 样本 音频编码器 多层感知器 分析模块 上采样 生成高分辨率 投影器 标签 文本编码器 计算机程序产品 处理器通信 自然语言 指令 语义
系统为您推荐了相关专利信息
1
一种基于ICEEMDAN的脉搏信号特征提取与分类方法
信号特征提取 脉搏 分类方法 位置更新 构造特征向量
2
一种半导体生产设备动态瓶颈预测方法、装置及电子设备
动态瓶颈预测 多源运行数据 时间序列预测模型 长短期记忆网络 半导体
3
模型训练方法及装置
样本 视觉 数据 图形处理器 模型训练方法
4
针对PHP语言的Webshell文件检测方法及系统
文件检测方法 文件检测系统 文本分类器 图像分类器 样本
5
一种电力系统暂态稳定预测模型的评估方法、装置和设备
样本 评估预测模型 电力系统 评估装置 数据获取模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号