基于图像指示的语音生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于图像指示的语音生成方法、装置、设备及介质
申请号:CN202510441773
申请日期:2025-04-09
公开号:CN120279882A
公开日期:2025-07-08
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于图像指示的语音生成方法、装置、设备及介质,包括:获取提示图像和待生成语音的目标文本;对提示图像进行图像编码处理,获取与提示图像中环境相匹配的声学嵌入特征;将目标文本和声学嵌入特征输入到预先训练的语音生成模型中,以声学嵌入特征作为环境回响条件对目标文本进行环境融合的语音生成处理,生成相应的目标回响语音;通过预先训练的回响分类器对目标回响语音进行回响识别,确认目标回响语音的回响类别。通过图像提示将场景回响嵌入到语音合成的过程中,令生成的语音与文本以及图像中的场景相匹配,自适应地调整混响效果,提高语音沉浸感和真实感。
技术关键词
语音生成模型 语音生成方法 嵌入特征 图像编码器 分类器 非易失性计算机可读存储介质 文本 样本 生成语音 计算机可执行指令 多任务 语音特征 处理器 图像处理模块 人工智能技术 医疗健康 声学特征
系统为您推荐了相关专利信息
1
基于局部-全局特征的睡前低血糖风险概率的评估方法
样本 迁移学习方法 医疗风险评估技术 更新网络参数 多层感知器
2
一种基于文本情感特征和多级融合的多模态虚假新闻检测方法及系统
面部表情变化 情感特征 多模态特征 文本 拼接融合方法
3
基于人工智能的影像数据分析方法、系统及设备
图像特征向量 影像数据分析方法 局部图像特征 YOLO模型 坐标系
4
一种基于双路卷积和闭集域自适应的小样本故障诊断方法
故障诊断方法 样本 Softmax分类器 全局平均池化 通道
5
基于交互结构的服务系统条件潜在用户预测方法及系统
交互结构 潜在用户预测方法 服务系统 神经网络结构 分类器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号