基于大模型的红外-光学融合场景语义描述方法及装置

AITNT
正文
推荐专利
基于大模型的红外-光学融合场景语义描述方法及装置
申请号:CN202410866245
申请日期:2024-07-01
公开号:CN118898842A
公开日期:2024-11-05
类型:发明专利
摘要
本发明提出一种基于大模型的红外‑光学融合场景语义描述方法及装置,属于图像描述、计算机视觉技术领域。其中,所述方法包括:将获取的可见光和红外图像对输入预设的场景描述模型,得到该图像对的初始场景描述语句;将该图像对的红外图像输入预设的目标检测模型,得到红外图像中每个目标检测框对应目标的种类以及目标的中心点坐标和相对尺寸;将上述信息输入提示优化完毕的大语言模型,该大语言模型输出对应该图像对的最终场景描述语句。本发明将目标检测技术、场景描述技术通过大语言模型技术结合起来,可克服以往图像描述模型不能适用于暗光场景或描述不准确的缺陷,特别是在光线不足的条件下可生成准确详细的场景描述,有较高的应用价值。
技术关键词
大语言模型 可见光图像 融合场景 语句 训练集 场景类别 坐标 顶点 计算机视觉技术 语义 图像获取模块 可读存储介质 红外摄像头 尺寸 处理器通信 指令
系统为您推荐了相关专利信息
1
一种关系型数据库缺陷分析方法、装置、设备及存储介质
关系型数据库 缺陷分析方法 大语言模型 生成技术 检索算法
2
代码生成模型的训练方法、代码生成方法、设备以及介质
人工智能模型 代码生成方法 多模态 编码器组件 图像
3
加热容器及其食材熬煮方法、传感数据AI处理方法、存储介质
接触式液位传感器 加热容器 检测电极 数字转换电路 电容
4
一种土壤制样规范化流程关键动作识别方法
动作识别方法 手部特征 感知哈希算法 图像 指数算法
5
词元化脉冲序列数据的大语言模型生成
磁共振成像协议 医学系统 大语言模型 数据 命令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号