基于音频信息的状态确定方法、装置、设备及介质

正文

推荐专利

申请号：CN202511090378

申请日期：2025-08-05

公开号：CN120932679A

公开日期：2025-11-11

类型：发明专利

摘要

本发明涉及语音处理技术领域，可应用于金融科技及医疗健康等业务场景中，公开了一种基于音频信息的状态确定方法、装置、设备及介质，包括：获取音频信号并进行降噪处理和端点检测，得到初始音频片段，统一为预设固定时长后进行语音转文本处理，得到文本信息，提取声学特征与语言学特征，融合后生成多维度特征向量，输入预先训练的分析模型，生成状态概率值，基于状态概率值确定音频信号对应的目标状态。本发明通过在声学特征与语言学特征的基础上融合多维度特征向量，并引入预先训练的分析模型对状态概率值进行判定，有效解决特征提取不全面、特征融合不足、判定结果准确性和泛化能力较差的问题，提升音频信号状态判定的精确性和稳定性。

技术关键词

音频声学特征输入分析模型韵律特征参数文本时序复杂度特征信号依赖特征端点双门限判决语义向量注意力融合特征语音识别模型计算机设备指标模块

系统为您推荐了相关专利信息

一种多模态大模型驱动的视频评论与画面精准匹配方法、系统

精准匹配方法高维特征向量多模态文本视频

一种监控视频中家庭暴力行为检测系统及方法

切割模块分析模块模态分析视频帧多模态

一种文本检测方法、系统及装置

文本检测方法框架基础处理器索引

直播间场景的生成方法、电子设备和计算机可读存储介质

图像生成模型生成规则场景对象网络直播间

视频鉴伪与时间定位方法、装置、电子设备及存储介质

音频特征时间定位方法跨模态时间定位装置网络

基于音频信息的状态确定方法、装置、设备及介质

站点导航

APP 下载