摘要
本发明属于人工智能领域,涉及教学互动抢答定位方法、装置、计算机设备及存储介质,所述方法包括:获取视频帧序列的集合以及对应的混合音频文件;识别视频帧序列的集合中的关键帧,进行特征提取,并对混合音频进行短时傅里叶变换,再对音频进行特征提取;进行多模态融合生成频谱掩码;计算连续视频帧的动量信息并生成动量嵌入,根据频谱掩码进行频谱嵌入处理;输入动量感知Transformer模块,生成序列信息;进行残差融合,生成频谱掩码;生成可视化声源定位图。多模态融合提升定位准确性,动量嵌入与频谱嵌入增强时序敏感性,残差融合优化特征整合,可视化声源定位图增强直观性,增强学习的互动性和趣味性,有助于提升教学效率与质量。
技术关键词
定位方法
短时傅里叶变换
关键帧
计算机可读指令
教学
多模态
视频帧特征
识别视频帧序列
计算机设备
融合策略
音频特征
可读存储介质
特征提取模块
生成特征
处理器
系统为您推荐了相关专利信息
信息审核系统
注意力机制
文本
视觉
识别图像内容
个性化学习推荐方法
教学平台
机器学习算法
知识点
生理反应
动态交通分配
交通需求预测方法
交通视频数据
关键帧
全局特征提取