基于大模型的红外-光学融合场景语义描述方法及装置

正文

推荐专利

申请号：CN202410866245

申请日期：2024-07-01

公开号：CN118898842A

公开日期：2024-11-05

类型：发明专利

摘要

本发明提出一种基于大模型的红外‑光学融合场景语义描述方法及装置，属于图像描述、计算机视觉技术领域。其中，所述方法包括：将获取的可见光和红外图像对输入预设的场景描述模型，得到该图像对的初始场景描述语句；将该图像对的红外图像输入预设的目标检测模型，得到红外图像中每个目标检测框对应目标的种类以及目标的中心点坐标和相对尺寸；将上述信息输入提示优化完毕的大语言模型，该大语言模型输出对应该图像对的最终场景描述语句。本发明将目标检测技术、场景描述技术通过大语言模型技术结合起来，可克服以往图像描述模型不能适用于暗光场景或描述不准确的缺陷，特别是在光线不足的条件下可生成准确详细的场景描述，有较高的应用价值。

技术关键词

大语言模型可见光图像融合场景语句训练集场景类别坐标顶点计算机视觉技术语义图像获取模块可读存储介质红外摄像头尺寸处理器通信指令

系统为您推荐了相关专利信息

一种关系型数据库缺陷分析方法、装置、设备及存储介质

关系型数据库缺陷分析方法大语言模型生成技术检索算法

代码生成模型的训练方法、代码生成方法、设备以及介质

人工智能模型代码生成方法多模态编码器组件图像

加热容器及其食材熬煮方法、传感数据AI处理方法、存储介质

接触式液位传感器加热容器检测电极数字转换电路电容

一种土壤制样规范化流程关键动作识别方法

动作识别方法手部特征感知哈希算法图像指数算法

词元化脉冲序列数据的大语言模型生成

磁共振成像协议医学系统大语言模型数据命令

基于大模型的红外-光学融合场景语义描述方法及装置

站点导航

APP 下载