摘要
本发明涉及视频生成技术领域,具体涉及基于语音特征与自然语言处理的动态视频实时生成系统。该系统包括:通过自然语言处理技术对文本提示的句子结构进行文本解析,解析得到文本输入句,基于音节向量特征和语句顺序特征得到待生成视频的文本提示目标特征;将语音样本输入到语音特征提取模型中,输出待生成视频的语音特征,将文本提示目标特征和语音特征进行特征融合得到音频序列特征,基于嘴部关键点、音频序列特征和背景生成视频的帧,将视频的帧按照生成时间的先后顺序组成视频,能够提升文本与视频内容的语义匹配精度,保障播报信息准确性,提升生成视频语音与视觉的同步协同性。
技术关键词
文本
生成系统
自然语言
语音特征提取
序列特征
BERT模型
语句
交叉注意力机制
Canny边缘检测器
关键点
短语结构
动态
视频生成技术
解码器
语音特征信息
离散傅立叶变换