改进视听问答

AITNT
正文
推荐专利
改进视听问答
申请号:CN202411109384
申请日期:2024-08-13
公开号:CN119691240A
公开日期:2025-03-25
类型:发明专利
摘要
本公开描述了用于改进视听问答的技术。机器学习模型被配置用于视听问答(AVQA)。机器学习模型包括第一子模型,第一子模型被配置为捕获语义音频信息并且输出音频空间特征图机器学习模型包括第二子模型,第二子模型被配置为提取视觉特征xvs和音频特征xas并且还被配置为获取问题向量xq。机器学习模型包括第三子模型,第三子模型被配置为在粒度级别捕获视听对应关系。平衡的AVQA数据集被创建。平衡的AVQA数据集在每个问题类别中包括平衡的答案分布。机器学习模型被训练用于至少使用平衡的AVAQ数据集的子集来回答与视频中的视觉对象、声音及其关联性有关的问题。
技术关键词
机器学习模型 视听 视觉特征 时间定位 音频特征 计算机可读指令 注意力 可读存储介质 答案 数据 语义 关系 处理器 视频 对象 像素
系统为您推荐了相关专利信息
1
一种基于物联网的电梯故障预测与诊断方法
加速度 电梯运行状态 诊断方法 指数 电梯运行数据
2
光伏电池板AI瑕疵检测方法及设备
光伏电池板 瑕疵检测方法 光伏板 图像 样本
3
通话检测预警方法、装置、设备及存储介质
检测预警方法 情绪特征 号码 关键词 语音识别技术
4
一种施工现场智能安全巡检系统
施工现场智能 巡检系统 机器学习模型 语音播报设备 加权融合算法
5
一种网络安全大模型知识库构建方法、设备及存储介质
知识库构建方法 答案 机器学习模型 重构 同义词
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号