摘要
本申请公开了一种基于LLM实现智能AI获取网页内容的方法、设备、存储介质及程序产品,涉及数据处理技术领域。上述方法通过接收用户输入的搜索指令,将搜索指令输入训练好的语义解析模型,在语义解析模型将搜索指令转换为查询参数后,将查询参数发送至搜索引擎,然后,接收搜索引擎根据查询参数获取的网页,并根据预设筛选规则从网页中确定目标网页,基于预先获取的授权结果,爬取目标网页的HTML源代码,将HTML源代码输入训练好的LLM模型,在LLM模型根据HTML源代码确定目标代码标签后,得到目标代码标签内的文本内容。其中,LLM模型具备强大的语言理解能力,可以动态适应网页结构的变化,降低了爬取网页内容的时间成本。
技术关键词
标签
语义
节点
计算机程序产品
指令
命名体识别
参数
网页结构
元素
数据处理技术
处理器
关系
文本
聚类
可读存储介质
存储器
词语
分词
系统为您推荐了相关专利信息
编程存储器
固件
系统安全启动方法
动态验证信息
加密算法
路径规划方法
轨迹
栅格地图构建
车辆碰撞条件
加速度