摘要
本申请公开了一种基于图像标记的网页导航系统及方法,系统包括:感知模型模块,用于:根据用户需求、历史操作与网页信息预测下一步操作;第一检查模块,用于:根据当前操作执行前、执行后的区域网页截图,利用MLLM判断当前操作的操作目的是否完成,是否需要补充操作;第二检查模块,用于:根据第一检查模块输出的结果以及历史操作,检查用户需求是否未完成。通过标记网页UI图像,缩减DOM树的内容,同时从不同阶段提升MLLM对于网页操作的理解,让网页导航智能体更高效、更精准地预测网页操作。
技术关键词
网页导航系统
网页元素
图像
网页导航方法
坐标
线框
多模态
模块
标记网页
像素
文本
图片
阶段
系统为您推荐了相关专利信息
巡检现场
三维特征数据
无人机机体
巡检方法
图像
气体泄漏检测方法
图像分割模型
声源定位装置
定位点
气体泄漏点
实时数据采集
施工现场数据
电子显示模块
无线传输模块
设备管理系统
供热系统设备
供热设备
故障诊断方法
热图像
卷积模块