摘要
本发明涉及人工智能与多媒体处理交叉技术领域,尤其涉及一种基于跨模态动态权重分配的AI视频处理方法及其系统,该方法包括以下步骤:S1、接收多模态输入数据;S2、通过模态专用特征提取器分别提取各模态数据的语义特征;S3、通过跨模态注意力机制对提取的特征进行语义对齐,所述跨模态注意力机制动态分配模态权重;S4、将语义对齐后的特征输入多模态Transformer进行特征融合,生成统一的多模态语义表示;S5、基于所述多模态语义表示,生成式神经网络生成视频帧序列,S6、对视频帧序列进行后处理;S7、输出视频文件。本发明通过跨模态动态权重分配,解决关键模态特征弱化问题,并跨模态注意力单元精准响应语义场景。
技术关键词
动态权重分配
跨模态
多模态
权重分配策略
文本
预训练语言模型
Kubernetes集群
注意力机制
视频帧
特征提取器
语义特征
场景分类
优化器
教育类
音频特征
LSTM神经网络模型
数据
模型压缩
系统为您推荐了相关专利信息
变量
情绪词典
分析模块
Pearson相关系数
数据采集模块
智能问答平台
分布式数据库
知识库问答方法
知识库管理
文本
图片
视频生成方法
音频
机器学习模型
视频生成装置