摘要
本发明公开了一种AIGC多模态视听内容创作方法及系统,属于多模态视听内容生成与自动化创作的技术领域,包括输入模块,用户输入创作所需要的文本描述和素材;AIGC生成模块,将用户输入的文本描述和素材转换为视频序列及音乐片段;多模态融合与对齐模块,融合和对齐生成的视频序列和音乐片段,得到音视频;视频智能编辑模块,拼接音视频的片段,保持视觉上的连贯性和两个音视频之间的顺畅连接;输出模块,将生成的音视频输出为用户需要的媒体格式。本发明解决了现有技术中多模态视听内容创作存在的缺乏跨模态协同工作的能力,多模态信息融合和对齐时生成的内容在节奏、语义和情感上不一致,缺乏后期编辑过程的支持,内容衔接时不够自然,创作速度慢的问题。
技术关键词
创作方法
音乐
文本
视听
残差卷积神经网络
多模态信息融合
音视频转换器
对齐模块
序列
视频帧同步
卷积神经网络模型
视觉特征提取
关键词
自然语言
创作系统
输入模块
稳定视频
系统为您推荐了相关专利信息
电网运行数据
统一数据模型
语义
事件知识库
记录处理过程
语义向量
情感分析方法
信息瓶颈理论
蒸馏
情感特征
应用程序编程接口
指标
结构化查询语言
生成智能
生成图表