摘要
本申请公开了一种基于语义提示的声音事件检测数据合成及声音事件检测模型的训练方法。通过将声音事件检测任务转化为语义描述信息,结合语义约束规则生成准确反映目标声音事件特征的结构化语义提示指令,实现语义描述到指令生成的自动化映射,降低人工干预成本。将该结构化语义提示指令输入音频生成模型,大规模合成音频数据,降低数据获取成本,提升样本多样性与可扩展性。结构化语义提示指令能指导模型批量合成多种声音事件类型的音频,且由大语言模型自动生成,确保合成音频与指令语义严格对齐。在标签生成时无需人工标注即可获取样本事件类别,为声音事件检测模型训练提供高效可靠的数据源。
技术关键词
事件检测模型
语义
音频
指令
样本
规则集
数据
时间检测标签
句法结构
事件特征
关键词
覆盖率
批量
机制
模板
场景
标识
系统为您推荐了相关专利信息
标志物
甲状腺癌患者
定量聚合酶链反应
人体肠道微生物
诊断甲状腺癌
程序数据处理方法
子模块
指令
数据处理系统
抽象语法树
多域特征
故障诊断方法
变分模态分解算法
时域特征
综合故障
图像语义分割方法
多模态信息
文本编码器
图像编码器
Gabor滤波器