摘要
本申请涉及智能语音识别领域,其具体地公开了一种基于大模型的语音风格识别系统,其通过接收由麦克风采集的目标用户的语音输入信号,然后从中提取出梅尔频谱,并采用基于深度学习和大模型的信号分析和处理技术来对提取出的语音输入信号梅尔频谱图进行分块处理和多尺度语义编码,以此根据编码得到的各个上下文梅尔频谱局部编码特征之间的动力学特征聚合表示来智能地生成语音风格识别播报语音。通过该方式,系统能够确保复杂风格得到充分表征,并且能够更好地适应不同说话人在发音方式、语速、音调等方面的显著差异,提高泛化能力。
技术关键词
频谱特征
编码特征
识别系统
风格
序列
度量
分块
智能语音识别
编码向量
因子
编码模块
转换器结构
信号采集模块
多尺度
生成语音
麦克风
信号分析
系统为您推荐了相关专利信息
荧光标记探针
RNA保护剂
粒度分析仪
建立检测模型
微流控芯片
故障预测方法
故障预测模型
超导电缆
计算机可读指令
注意力
比特映射算法
深度优先搜索算法
分块
反转技术
序列