摘要
本发明涉及人工智能技术领域,可应用于医疗健康领域,公开了一种基于文化语义的音色转换方法、装置、设备及介质,该方法包括:构建包含语义标签与音色特征参数映射关系的文化语义音色库,其中所述语义标签表征目标音色的情感语义,音色特征参数包括音高范围、韵律节奏和谐波结构;基于文本、图像及音频多模态信息的特征提取,获得语义关键词、视觉情感特征和音频声学特征;通过多模态融合深度学习模型对上述特征进行注意力权重融合,并结合语义音色库动态调整模型参数以生成目标音色;最终实现多模态信息到适配音色的智能化转换。通过语义驱动的多模态特征协同优化,解决音色转换机械生硬缺乏情感表达的缺陷,提升了音色表达与语义场景的契合度。
技术关键词
多模态融合深度学习
语义标签
融合深度学习模型
语义关键词
情感特征
声学特征
音频
音色转换方法
多模态信息
文本
谐波结构
音色特征
注意力
视觉
卷积神经网络提取
模态特征
抑制背景噪声
情感分析模型
图像