融合视觉信息的语音合成方法、装置、电子设备及介质

正文

推荐专利

申请号：CN202510579001

申请日期：2025-05-07

公开号：CN120089122B

公开日期：2025-08-01

类型：发明专利

摘要

本申请提供了融合视觉信息的语音合成方法、装置、电子设备及介质，包括：基于文本编码器提取出目标文本信息的文本特征；对目标视频信息进行特征提取处理、向量量化编码处理以及交叉注意力处理，确定出目标视频信息中的视频特征；对文本特征以及视频特征进行交叉注意力处理，确定出联合特征；将联合特征输入至预先训练好的语音生成模型，对联合特征进行建模处理生成视频文本特征，再对视频文本特征进行随机韵律预测处理、特征扩充处理以及解码处理，生成目标文本信息所对应的合成语音。通过融合视频中的信息，生成更加富有表现力的语音。这种方法不仅解决了现有技术在情感控制方面的不足，还能够利用少量样本数据实现高质量的语音合成。

技术关键词

语音生成模型视觉特征韵律预测融合视觉多头注意力机制情绪特征视频特征提取文本编码器编码机制机器可读指令多层感知器神经网络模型随机噪声

融合视觉信息的语音合成方法、装置、电子设备及介质

站点导航

APP 下载