摘要
本发明涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于图像指示的语音生成方法、装置、设备及介质,包括:获取提示图像和待生成语音的目标文本;对提示图像进行图像编码处理,获取与提示图像中环境相匹配的声学嵌入特征;将目标文本和声学嵌入特征输入到预先训练的语音生成模型中,以声学嵌入特征作为环境回响条件对目标文本进行环境融合的语音生成处理,生成相应的目标回响语音;通过预先训练的回响分类器对目标回响语音进行回响识别,确认目标回响语音的回响类别。通过图像提示将场景回响嵌入到语音合成的过程中,令生成的语音与文本以及图像中的场景相匹配,自适应地调整混响效果,提高语音沉浸感和真实感。
技术关键词
语音生成模型
语音生成方法
嵌入特征
图像编码器
分类器
非易失性计算机可读存储介质
文本
样本
生成语音
计算机可执行指令
多任务
语音特征
处理器
图像处理模块
人工智能技术
医疗健康
声学特征
系统为您推荐了相关专利信息
样本
迁移学习方法
医疗风险评估技术
更新网络参数
多层感知器
面部表情变化
情感特征
多模态特征
文本
拼接融合方法
图像特征向量
影像数据分析方法
局部图像特征
YOLO模型
坐标系
故障诊断方法
样本
Softmax分类器
全局平均池化
通道
交互结构
潜在用户预测方法
服务系统
神经网络结构
分类器