摘要
本申请公开了一种利用RAG技术增强网页导航的方法及相关装置,方法包括:获取用户需求,执行循环步骤直至用户需求完成;循环步骤包括:根据用户需求、网页截图和历史操作,利用第一多模态大语言模型生成操作序列;选取所述操作序列的第一条作为当前操作需求,利用检索增强生成RAG技术提取网页HTML中与当前操作需求相关的网页元素,作为检索结果;根据当前操作需求、检索结果以及网页截图预测当前需要操作的网页元素以及操作类型;获取按照对应的操作类型执行当前需要操作的网页元素得到的执行结果,并根据执行结果更新网页截图和历史操作。利用RAG技术检索用户需求相关的网页元素,提高了MLLM生成结果以及网页导航的可靠性。
技术关键词
网页元素
大语言模型
多模态
拼音
文本
字段
序列
处理器
计算机设备
标记
可读存储介质
图片
存储器
矩阵
规划
系统为您推荐了相关专利信息
意图识别方法
字形特征
语义特征
语义向量
自然语言文本
人机交互方法
多模态信息
生物识别信息
交互动作
人脸识别信息
新闻拆条
初始分割边界
视频流
嵌入特征
音频特征
文本分析方法
关键词
大语言模型
计算机程序产品
文本主题词