摘要
本申请涉及一种自动驾驶场景识别方法、装置、计算机设备、介质和产品。所述方法包括:将待处理视频中的视频帧分割成多个图像补丁,根据视频帧和对应的文本数据,对模型进行预训练,在预设的注意力机制下,根据待处理视频生成视频代理令牌和补丁令牌,并对待处理视频帧进行编码处理,得到视频特征,通过训练得到的视频‑文本模型对文本数据进行编码,得到文本特征,以信息噪声对比估计函数作为损失函数、根据视频特征与文本特征间的相似度对视频‑文本模型进行优化,并通过优化后的视频‑文本模型对待处理视频中的关键信息进行解析,得到待处理视频对应的自动驾驶场景。采用本方法能够得到更准确的自动驾驶场景。
技术关键词
文本
令牌
补丁
字幕
视频帧
场景识别方法
语义特征
注意力机制
交互组件
图像
计算机设备
场景识别装置
融合特征
数据
样本
编码
序列
模型训练模块
系统为您推荐了相关专利信息
数据处理引擎
0day漏洞
动态邻接矩阵
语义
动态知识图谱
放射治疗计划
特征提取模块
生成方法
放疗计划
注意力