摘要
本公开描述了用于改进视听问答的技术。机器学习模型被配置用于视听问答(AVQA)。机器学习模型包括第一子模型,第一子模型被配置为捕获语义音频信息并且输出音频空间特征图机器学习模型包括第二子模型,第二子模型被配置为提取视觉特征xvs和音频特征xas并且还被配置为获取问题向量xq。机器学习模型包括第三子模型,第三子模型被配置为在粒度级别捕获视听对应关系。平衡的AVQA数据集被创建。平衡的AVQA数据集在每个问题类别中包括平衡的答案分布。机器学习模型被训练用于至少使用平衡的AVAQ数据集的子集来回答与视频中的视觉对象、声音及其关联性有关的问题。
技术关键词
机器学习模型
视听
视觉特征
时间定位
音频特征
计算机可读指令
注意力
可读存储介质
答案
数据
语义
关系
处理器
视频
对象
像素
系统为您推荐了相关专利信息
加速度
电梯运行状态
诊断方法
指数
电梯运行数据
检测预警方法
情绪特征
号码
关键词
语音识别技术
施工现场智能
巡检系统
机器学习模型
语音播报设备
加权融合算法