摘要
本发明公开了基于大语言模型的智能体定位图像元素的方法及装置。该方法包括:获取用户基于预设模板图像输入的元素标记指令,并基于元素标记指令确定预设模板图像对应的目标图像元素;基于预设语义大模型对目标图像元素进行图像语义分析,生成目标图像元素对应的基础语义结果;基于预设语法模板集合填充处理基础语义结果,生成目标图像元素对应的基础语言描述结果;基于预设语义大模型及基础语言描述结果在目标显示图像中确定目标图像元素对应的目标语言描述结果。通过本发明的技术方案,能够实现对捕获的图像元素进行图像语义分析,实现图像元素定位,提高了图像元素的定位效率及准确率。
技术关键词
图像语义分析
元素
大语言模型
基础
模板
视觉特征
语义分析算法
指令
标记
特征提取算法
词典
处理器
可读存储介质
检查规则
解析算法
计算机
生成规则
电子设备
系统为您推荐了相关专利信息
智能仰卧起坐
训练管理系统
仰卧起坐训练器
人脸
智能终端
网络控制方法
网关
网络连接配置
三元组
虚拟机实例
进度管控方法
物联网传感器网络
风险
多源特征
工程项目进度管理技术
智能调度系统
动态实时数据
策略
算法
车辆实时位置
灰色预测模型
多元线性回归模型
置信区间估计
排放量
数据