摘要
本发明提供一种基于AI生成个性化口播的方法、装置、设备和介质,方法包括:将口播数据以及设置的提示词输入至多模态模型中;所述口播数据包括原始文本以及对应的场景图片;多模态模型输出设定输出格式的标识文本,所述标识文本包括设定标识;将所述标识文本进行分割,通过语音模型生成对应的音频文件;若所述音频文件仅一个,则完成生成;否,则将其进行拼接,完成生成,可以根据用户需求生成对应的音频,降低了用户的时间成本。
技术关键词
标识
文本
图片
格式
多模态
词语
场景
语音
数据
处理器
输出模块
可读存储介质
存储器
电子设备
程序
音频
计算机