摘要
本申请公开了一种基于因果掩码的视频会议多模态数据对齐方法、装置、设备及介质,涉及计算机技术领域,包括:对在线视频会议中的原始音频、原始视频流和原始文档进行特征提取与融合,基于得到的多模态融合特征进行时序划分得到三重时序窗口;确定与三重时序窗口对应的初始权重值,利用预设约束条件对初始权重值进行归一化调整得到调整后权重;利用发言方的发言标识对预设时序偏移矩阵进行索引,基于索引结果对三重时序窗口的原始时序进行校正,并利用预设因果掩码机制确定与三重时序窗口对应的目标注意力结果,基于所述目标注意力结果对多模态融合特征进行多层级对齐融合得到多模态对齐结果。提高多模态对齐技术的精度并避免未来信息泄露。
技术关键词
数据对齐方法
在线视频会议
多模态
融合特征
时序
注意力
轻量级神经网络
校正
视频流
索引
视觉特征提取
语义特征提取
层级
音频编码器
对齐技术
机制
视频编码器
矩阵
系统为您推荐了相关专利信息
多模态环境
时空融合特征
智能预测方法
种植区
智能预测系统
远程识别系统
非线性动力学特征
多维特征向量
深度学习识别模型
多模态传感器
智能分析模块
深度学习神经网络
构建虚拟场景
数据分析算法
交互技术
视频内容特征
拟人化交互方法
多模态情感识别
个性化头像
面部