改进视听问答

正文

推荐专利

改进视听问答

申请号：CN202411109384

申请日期：2024-08-13

公开号：CN119691240A

公开日期：2025-03-25

类型：发明专利

摘要

本公开描述了用于改进视听问答的技术。机器学习模型被配置用于视听问答(AVQA)。机器学习模型包括第一子模型，第一子模型被配置为捕获语义音频信息并且输出音频空间特征图机器学习模型包括第二子模型，第二子模型被配置为提取视觉特征xvs和音频特征xas并且还被配置为获取问题向量xq。机器学习模型包括第三子模型，第三子模型被配置为在粒度级别捕获视听对应关系。平衡的AVQA数据集被创建。平衡的AVQA数据集在每个问题类别中包括平衡的答案分布。机器学习模型被训练用于至少使用平衡的AVAQ数据集的子集来回答与视频中的视觉对象、声音及其关联性有关的问题。

技术关键词

机器学习模型视听视觉特征时间定位音频特征计算机可读指令注意力可读存储介质答案数据语义关系处理器视频对象像素

系统为您推荐了相关专利信息

一种基于物联网的电梯故障预测与诊断方法

加速度电梯运行状态诊断方法指数电梯运行数据

光伏电池板AI瑕疵检测方法及设备

光伏电池板瑕疵检测方法光伏板图像样本

通话检测预警方法、装置、设备及存储介质

检测预警方法情绪特征号码关键词语音识别技术

一种施工现场智能安全巡检系统

施工现场智能巡检系统机器学习模型语音播报设备加权融合算法

一种网络安全大模型知识库构建方法、设备及存储介质

知识库构建方法答案机器学习模型重构同义词

改进视听问答

站点导航

APP 下载