摘要
本发明公开了一种基于方言语音生成图片的方法及装置。其中,方法包括:通过多模态特征融合模型提取待处理方言语音的声学特征;基于预先构建的方言语音词典查找声学特征对应的方言,生成待处理方言语音的方言文本;根据预先构建的方言语义网络对方言文本进行映射,得到方言文本对应的标准化普通话文本;提取标准化普通文本的关键词;采用预先构建的语义驱动生成模型对提取的关键词进行图像元素组合,生成待处理方言语音对应的图片。
技术关键词
文本
交互式学习
声学特征
多模态特征融合
语音
关键词
语义
图片
词典
模型更新
网络
机制
子模块
表达式
电子设备
处理器
基础
元素
可读存储介质