摘要
本发明提出一种基于大模型的红外‑光学融合场景语义描述方法及装置,属于图像描述、计算机视觉技术领域。其中,所述方法包括:将获取的可见光和红外图像对输入预设的场景描述模型,得到该图像对的初始场景描述语句;将该图像对的红外图像输入预设的目标检测模型,得到红外图像中每个目标检测框对应目标的种类以及目标的中心点坐标和相对尺寸;将上述信息输入提示优化完毕的大语言模型,该大语言模型输出对应该图像对的最终场景描述语句。本发明将目标检测技术、场景描述技术通过大语言模型技术结合起来,可克服以往图像描述模型不能适用于暗光场景或描述不准确的缺陷,特别是在光线不足的条件下可生成准确详细的场景描述,有较高的应用价值。
技术关键词
大语言模型
可见光图像
融合场景
语句
训练集
场景类别
坐标
顶点
计算机视觉技术
语义
图像获取模块
可读存储介质
红外摄像头
尺寸
处理器通信
指令
系统为您推荐了相关专利信息
关系型数据库
缺陷分析方法
大语言模型
生成技术
检索算法
人工智能模型
代码生成方法
多模态
编码器组件
图像
接触式液位传感器
加热容器
检测电极
数字转换电路
电容
动作识别方法
手部特征
感知哈希算法
图像
指数算法