基于图像指示的语音生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510441773

申请日期：2025-04-09

公开号：CN120279882A

公开日期：2025-07-08

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于金融科技、医疗健康等业务系统平台中，公开了基于图像指示的语音生成方法、装置、设备及介质，包括：获取提示图像和待生成语音的目标文本；对提示图像进行图像编码处理，获取与提示图像中环境相匹配的声学嵌入特征；将目标文本和声学嵌入特征输入到预先训练的语音生成模型中，以声学嵌入特征作为环境回响条件对目标文本进行环境融合的语音生成处理，生成相应的目标回响语音；通过预先训练的回响分类器对目标回响语音进行回响识别，确认目标回响语音的回响类别。通过图像提示将场景回响嵌入到语音合成的过程中，令生成的语音与文本以及图像中的场景相匹配，自适应地调整混响效果，提高语音沉浸感和真实感。

技术关键词

语音生成模型语音生成方法嵌入特征图像编码器分类器非易失性计算机可读存储介质文本样本生成语音计算机可执行指令多任务语音特征处理器图像处理模块人工智能技术医疗健康声学特征

系统为您推荐了相关专利信息

基于局部-全局特征的睡前低血糖风险概率的评估方法

样本迁移学习方法医疗风险评估技术更新网络参数多层感知器

一种基于文本情感特征和多级融合的多模态虚假新闻检测方法及系统

面部表情变化情感特征多模态特征文本拼接融合方法

基于人工智能的影像数据分析方法、系统及设备

图像特征向量影像数据分析方法局部图像特征 YOLO模型坐标系

一种基于双路卷积和闭集域自适应的小样本故障诊断方法

故障诊断方法样本 Softmax分类器全局平均池化通道

基于交互结构的服务系统条件潜在用户预测方法及系统

交互结构潜在用户预测方法服务系统神经网络结构分类器

基于图像指示的语音生成方法、装置、设备及介质

站点导航

APP 下载