摘要
本发明公开了一种基于人工智能的短视频制作方法及系统,涉及多媒体处理技术领域,包括,将分镜脚本输入多模态生成引擎,采用下三角时空注意力矩阵生成视觉流,并生成文本流与音频流;基于视听感知延迟预测模型计算视觉流与音频流之间的神经传导延迟量,并通过时间轴前移补偿,生成修正音频流;根据动态因果图的节点关联强度计算跨模态注意力权重矩阵,并将文本流与修正音频流投影至联合特征空间,生成多模态融合特征;将多模态融合特征输入格式适配引擎,经过时空一致性校验后,嵌入神经隐式水印并编码为短视频。本发明提升了文本、音频与视觉内容之间的语义一致性与协调性,从而在整体上实现了高质量、高智能化的短视频自动生成。
技术关键词
视频制作方法
多模态
融合特征
音频
注意力
视觉
跨模态
延迟量
文本
矩阵
脚本
动态
视听
水印
节点
视频制作系统
生成指令序列
因子
三元组
强度
系统为您推荐了相关专利信息
非线性神经网络
码字
电子装置
非暂时性计算机可读存储介质
处理器
车载WIFI路由器
语音助手系统
语音控制器
房车智能
云平台服务器