摘要
本发明涉及一种自动驾驶边缘场景理解检索增强方法、设备及介质,该方法包括:采用基于难负和半难负样本采样对比学习方法对跨模态向量嵌入模型进行微调训练;采用训练好的跨模态向量嵌入模型生成图像‑文本对的嵌入,采用文本编码模型生成文本描述的嵌入,分别存储于共享相同索引的多模态数据库和文本数据库;输入自动驾驶边缘场景实图形,生成图像‑文本对的嵌入,根据嵌入信息从多模态数据库中检索出最接近场景图像,与自动驾驶边缘场景与实图拼接,将拼接后的图像和最接近场景图像对应的文本描述以及设定提示语输入至视觉语言模型,得到消除幻觉的边缘场景理解。与现有技术相比,本发明可有效缓解边缘场景理解中存在的幻觉问题。
技术关键词
文本
场景
三元组
学习方法
样本
图像嵌入
表达式
噪声
梯度下降算法
图像匹配
索引
信号
处理器
跨模态
编码
可读存储介质
批量
视觉
存储器
系统为您推荐了相关专利信息
发电量
动态评估系统
新能源电网
时序
负荷预测模型
测试用户界面
自动化测试方法
元素
测试接口
意图