摘要
本发明涉及人工智能技术领域,本方案可应用于金融、医疗领域,本发明提供了一种对话语音生成方法、装置、设备及介质,方法包括:利用大型语言模型将输入的文本摘要转换为具有多角色交互特征的对话式文本结构;为对话式文本结构中的每个代理角色分配唯一的标签特征;根据标签特征从预设语音库中自动匹配与各代理角色相符的声学特征参数;通过语音合成模型根据每个代理角色的声学特征参数将对话式文本结构转换为对话语音并进行输出。本发明实施例可将输入的文本摘要转换为具有多角色交互特征的对话式文本结构,满足听众对深度讨论和专业见解的需求,还可根据每个代理角色的声学特征参数将对话式文本结构转换为兼具内容深度和表现力的对话语音。
技术关键词
语音生成方法
标签特征
交互特征
文本
韵律特征参数
摘要
节目
转换单元
脚本
处理器
人工智能技术
分配单元
生成装置
偏差
风格
可读存储介质
关系
存储器
逻辑
系统为您推荐了相关专利信息
区域位置信息
图像识别模块
图像增强模块
图像块
输入接口
页面文本信息
页面生成方法
标记
可视化页面
模型树