基于音频信息的状态确定方法、装置、设备及介质

AITNT
正文
推荐专利
基于音频信息的状态确定方法、装置、设备及介质
申请号:CN202511090378
申请日期:2025-08-05
公开号:CN120932679A
公开日期:2025-11-11
类型:发明专利
摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于音频信息的状态确定方法、装置、设备及介质,包括:获取音频信号并进行降噪处理和端点检测,得到初始音频片段,统一为预设固定时长后进行语音转文本处理,得到文本信息,提取声学特征与语言学特征,融合后生成多维度特征向量,输入预先训练的分析模型,生成状态概率值,基于状态概率值确定音频信号对应的目标状态。本发明通过在声学特征与语言学特征的基础上融合多维度特征向量,并引入预先训练的分析模型对状态概率值进行判定,有效解决特征提取不全面、特征融合不足、判定结果准确性和泛化能力较差的问题,提升音频信号状态判定的精确性和稳定性。
技术关键词
音频 声学特征 输入分析模型 韵律特征参数 文本 时序 复杂度特征 信号 依赖特征 端点 双门限判决 语义向量 注意力 融合特征 语音识别模型 计算机设备 指标 模块
系统为您推荐了相关专利信息
1
一种多模态大模型驱动的视频评论与画面精准匹配方法、系统
精准匹配方法 高维特征向量 多模态 文本 视频
2
一种监控视频中家庭暴力行为检测系统及方法
切割模块 分析模块 模态分析 视频帧 多模态
3
一种文本检测方法、系统及装置
文本检测方法 框架 基础 处理器 索引
4
直播间场景的生成方法、电子设备和计算机可读存储介质
图像生成模型 生成规则 场景 对象 网络直播间
5
视频鉴伪与时间定位方法、装置、电子设备及存储介质
音频特征 时间定位方法 跨模态 时间定位装置 网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号