摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于音频信息的状态确定方法、装置、设备及介质,包括:获取音频信号并进行降噪处理和端点检测,得到初始音频片段,统一为预设固定时长后进行语音转文本处理,得到文本信息,提取声学特征与语言学特征,融合后生成多维度特征向量,输入预先训练的分析模型,生成状态概率值,基于状态概率值确定音频信号对应的目标状态。本发明通过在声学特征与语言学特征的基础上融合多维度特征向量,并引入预先训练的分析模型对状态概率值进行判定,有效解决特征提取不全面、特征融合不足、判定结果准确性和泛化能力较差的问题,提升音频信号状态判定的精确性和稳定性。
技术关键词
音频
声学特征
输入分析模型
韵律特征参数
文本
时序
复杂度特征
信号
依赖特征
端点
双门限判决
语义向量
注意力
融合特征
语音识别模型
计算机设备
指标
模块
系统为您推荐了相关专利信息
音频特征
时间定位方法
跨模态
时间定位装置
网络