摘要
本发明涉及人工智能与多媒体技术领域,具体公开了一种基于语音分析的视频生成方法,方法包括以下步骤:对输入语音进行解析,提取多模态语音特征;将多模态语音特征输入预训练的情景关联模型,输出情景标签集合;基于输入语音中的方言特征,通过方言分类器识别地域类别,并根据地域类别从文化数据库中加载对应的视觉元素库;根据情景标签集合中的场景类型标签选择场景模板,结合情感类别标签和交互对象关系标签选择人物动作模版;基于语速变化参数计算视频元素的时序分布,并通过时序对齐算法将场景模板、人物动作模版与输入语音的节奏根据时序分布进行渲染,生成目标视频。该方法可以提高基于语音生成的视频的准确性。
技术关键词
视频生成方法
多模态语音
标签
情景
情感类别
时序
样本
模版
场景
元素
分类器
模板
视觉
视频生成系统
语音特征提取
参数
编码器
系统为您推荐了相关专利信息
电力通信光缆
设备端口
变电站
远程传感器
标签方式