摘要
本发明涉及多模态人工智能技术领域,公开了一种基于混合专家动态融合的多模态视频摘要方法及系统,通过提取视频特征和文本特征,视频特征包括时序特征,将视频特征、时序特征和文本特征通过混合专家融合后生成视频摘要,采用混合专家融合特征,混合专家根据融合特征动态选择专家组合,得到不同视频‑文本对的最佳融合策略,提取更符合视频场景的特征,从而生成更符合视频场景的摘要,并且在融合时结合了时序特征,解决了视频摘要任务中时序建模与模态融合的关键难题,不仅提高了特征提取的准确率,还提升了时序连贯性。
技术关键词
关键帧
时序特征
文本
视频摘要方法
生成视频摘要
融合特征
视频帧
编码器
序列
特征选择
视频摘要系统
卷积神经网络提取
交叉注意力机制
BERT模型
特征提取模块
人工智能技术
动态
系统为您推荐了相关专利信息
漏洞
大语言模型
程度预测方法
信息融合方法
模板
合并单元格
训练识别模型
信息提取方法
信息提取系统
监测系统
整数规划模型
自动建模方法
大语言模型
神经网络模型
数据