摘要
本申请提供了一种基于大模型的语音风格表达切换系统,涉及智能语音交互领域,其采用基于人工智能的数据处理技术来对原始语音信号进行基于梅尔频谱特征的提取、分块和嵌入编码处理以得到原始语音梅尔谱图图块嵌入编码特征的序列,对目标语音风格的自然语言描述进行语义编码处理以得到目标语音风格语义编码特征,然后将所述原始语音梅尔谱图图块嵌入编码特征的序列和所述目标语音风格语义编码特征进行跨模态交互优化编码得到的特征输入到训练完成的端对端模型以生成风格切换语音信号。这样,能够精准理解用户需求,使得切换后的语音风格更符合用户期望,同时通过精细化的处理,有助于使得切换后的语音风格更加自然流畅。
技术关键词
风格
编码向量
切换系统
跨模态
序列
编码特征
语义
频谱特征提取
信号分析模块
自然语言
数据采集模块
智能语音交互
分块
数据处理技术
麦克风
系统为您推荐了相关专利信息
多分类方法
深度强化学习算法
时间段
视觉特征
策略
SVR模型
Akaike信息准则
数据
搜索算法
混合预测模型