融合视觉信息的语音合成方法、装置、电子设备及介质

AITNT
正文
推荐专利
融合视觉信息的语音合成方法、装置、电子设备及介质
申请号:CN202510579001
申请日期:2025-05-07
公开号:CN120089122B
公开日期:2025-08-01
类型:发明专利
摘要
本申请提供了融合视觉信息的语音合成方法、装置、电子设备及介质,包括:基于文本编码器提取出目标文本信息的文本特征;对目标视频信息进行特征提取处理、向量量化编码处理以及交叉注意力处理,确定出目标视频信息中的视频特征;对文本特征以及视频特征进行交叉注意力处理,确定出联合特征;将联合特征输入至预先训练好的语音生成模型,对联合特征进行建模处理生成视频文本特征,再对视频文本特征进行随机韵律预测处理、特征扩充处理以及解码处理,生成目标文本信息所对应的合成语音。通过融合视频中的信息,生成更加富有表现力的语音。这种方法不仅解决了现有技术在情感控制方面的不足,还能够利用少量样本数据实现高质量的语音合成。
技术关键词
语音生成模型 视觉特征 韵律预测 融合视觉 多头注意力机制 情绪特征 视频特征提取 文本编码器 编码机制 机器可读指令 多层感知器 神经网络模型 随机噪声
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号