一种基于语音分析的视频生成方法、系统及存储介质

AITNT
正文
推荐专利
一种基于语音分析的视频生成方法、系统及存储介质
申请号:CN202510464423
申请日期:2025-04-14
公开号:CN120388579A
公开日期:2025-07-29
类型:发明专利
摘要
本发明涉及人工智能与多媒体技术领域,具体公开了一种基于语音分析的视频生成方法,方法包括以下步骤:对输入语音进行解析,提取多模态语音特征;将多模态语音特征输入预训练的情景关联模型,输出情景标签集合;基于输入语音中的方言特征,通过方言分类器识别地域类别,并根据地域类别从文化数据库中加载对应的视觉元素库;根据情景标签集合中的场景类型标签选择场景模板,结合情感类别标签和交互对象关系标签选择人物动作模版;基于语速变化参数计算视频元素的时序分布,并通过时序对齐算法将场景模板、人物动作模版与输入语音的节奏根据时序分布进行渲染,生成目标视频。该方法可以提高基于语音生成的视频的准确性。
技术关键词
视频生成方法 多模态语音 标签 情景 情感类别 时序 样本 模版 场景 元素 分类器 模板 视觉 视频生成系统 语音特征提取 参数 编码器
系统为您推荐了相关专利信息
1
一种电力通信光缆纤芯业务在用状态的检测方法
电力通信光缆 设备端口 变电站 远程传感器 标签方式
2
文本改写方法、装置以及电子设备
文本改写方法 格式 字符 标识标签 标签文本
3
基于LLAVA大模型和图注意力神经网络的图文对匹配方法
注意力神经网络 标签 图片 图文 文本分类器
4
货物数据的验收处理方法、装置、设备及存储介质
模拟模型 数据采集装置 图谱 采集单元 表格
5
一种基于大语言模型的会话响应方法、装置、设备及介质
历史会话 大语言模型 关键词 主题 标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号