一种基于语音分析的视频生成方法、系统及存储介质

正文

推荐专利

申请号：CN202510464423

申请日期：2025-04-14

公开号：CN120388579A

公开日期：2025-07-29

类型：发明专利

摘要

本发明涉及人工智能与多媒体技术领域，具体公开了一种基于语音分析的视频生成方法，方法包括以下步骤：对输入语音进行解析，提取多模态语音特征；将多模态语音特征输入预训练的情景关联模型，输出情景标签集合；基于输入语音中的方言特征，通过方言分类器识别地域类别，并根据地域类别从文化数据库中加载对应的视觉元素库；根据情景标签集合中的场景类型标签选择场景模板，结合情感类别标签和交互对象关系标签选择人物动作模版；基于语速变化参数计算视频元素的时序分布，并通过时序对齐算法将场景模板、人物动作模版与输入语音的节奏根据时序分布进行渲染，生成目标视频。该方法可以提高基于语音生成的视频的准确性。

技术关键词

视频生成方法多模态语音标签情景情感类别时序样本模版场景元素分类器模板视觉视频生成系统语音特征提取参数编码器

系统为您推荐了相关专利信息

一种电力通信光缆纤芯业务在用状态的检测方法

电力通信光缆设备端口变电站远程传感器标签方式

文本改写方法、装置以及电子设备

文本改写方法格式字符标识标签标签文本

基于LLAVA大模型和图注意力神经网络的图文对匹配方法

注意力神经网络标签图片图文文本分类器

货物数据的验收处理方法、装置、设备及存储介质

模拟模型数据采集装置图谱采集单元表格

一种基于大语言模型的会话响应方法、装置、设备及介质

历史会话大语言模型关键词主题标签

一种基于语音分析的视频生成方法、系统及存储介质

站点导航

APP 下载