基于视觉大语言模型的网页导航方法、装置、介质及产品

正文

推荐专利

申请号：CN202411837963

申请日期：2024-12-13

公开号：CN119622126A

公开日期：2025-03-14

类型：发明专利

摘要

本申请实施例提供一种基于视觉大语言模型的网页导航方法、装置、介质及产品。该方法包括：接收用户需要导航的总任务信息，确定总任务信息所关联的第一信息；将第一信息输入至子任务预测的第一视觉大语言模型中，获得第一视觉大语言模型输出的需要执行的下一个子任务；获取下一个子任务关联的第二信息，将第二信息输入至步骤预测的第二视觉大语言模型中，获得第二视觉大语言模型输出的子任务所对应的当前执行动作和下一执行步骤信息；在下一执行步骤信息指示子任务执行完成的情况下，返回步骤二，直至第二视觉大语言模型输出的所有子任务完成为止。本申请的方案可以解决图形用户界面图像识别定位准确性差的问题。

技术关键词

大语言模型视觉网页导航方法图形用户界面兴趣序列指令生成器可读存储介质计算机程序产品导航装置算法模块轮廓处理器数据

基于视觉大语言模型的网页导航方法、装置、介质及产品

站点导航

APP 下载