摘要
本申请实施例提供一种基于视觉大语言模型的网页导航方法、装置、介质及产品。该方法包括:接收用户需要导航的总任务信息,确定总任务信息所关联的第一信息;将第一信息输入至子任务预测的第一视觉大语言模型中,获得第一视觉大语言模型输出的需要执行的下一个子任务;获取下一个子任务关联的第二信息,将第二信息输入至步骤预测的第二视觉大语言模型中,获得第二视觉大语言模型输出的子任务所对应的当前执行动作和下一执行步骤信息;在下一执行步骤信息指示子任务执行完成的情况下,返回步骤二,直至第二视觉大语言模型输出的所有子任务完成为止。本申请的方案可以解决图形用户界面图像识别定位准确性差的问题。
技术关键词
大语言模型
视觉
网页导航方法
图形用户界面
兴趣
序列
指令生成器
可读存储介质
计算机程序产品
导航装置
算法
模块
轮廓
处理器
数据