基于文化语义的音色转换方法、装置、设备及介质

正文

推荐专利

申请号：CN202510577881

申请日期：2025-05-06

公开号：CN120319254A

公开日期：2025-07-15

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于医疗健康领域，公开了一种基于文化语义的音色转换方法、装置、设备及介质，该方法包括：构建包含语义标签与音色特征参数映射关系的文化语义音色库，其中所述语义标签表征目标音色的情感语义，音色特征参数包括音高范围、韵律节奏和谐波结构；基于文本、图像及音频多模态信息的特征提取，获得语义关键词、视觉情感特征和音频声学特征；通过多模态融合深度学习模型对上述特征进行注意力权重融合，并结合语义音色库动态调整模型参数以生成目标音色；最终实现多模态信息到适配音色的智能化转换。通过语义驱动的多模态特征协同优化，解决音色转换机械生硬缺乏情感表达的缺陷，提升了音色表达与语义场景的契合度。

技术关键词

多模态融合深度学习语义标签融合深度学习模型语义关键词情感特征声学特征音频音色转换方法多模态信息文本谐波结构音色特征注意力视觉卷积神经网络提取模态特征抑制背景噪声情感分析模型图像

基于文化语义的音色转换方法、装置、设备及介质

站点导航

APP 下载