摘要
本申请涉及电数字数据处理技术领域,特别是涉及一种基于大语言模型的数据采集方法、设备及介质。该方法包括:将目标语句输入到大语言模型,得到大语言模型输出的目标文本,并根据目标文本获取目标语句的目标关键词集合;从预设的网址库中获取与目标关键词集合匹配的目标网址列表;根据目标网址列表中的每一网址对应的网站的历史更新时刻集合确定每一网址对应的网站的目标爬取时间段和目标爬取时间段对应的爬取时间步长;在指定网站的目标爬取时间段内,以指定网站的目标爬取时间段对应的爬取时间步长为判断周期判断指定网站的数据是否更新,若更新,则从指定网站上爬取数据。本发明能够全面且有效地采集与用户输入的语句相关的数据。
技术关键词
关键词
数据采集方法
大语言模型
网址
分布直方图
语句
文本
时间段
列表
电数字数据处理技术
矩形
可读存储介质
处理器
频率
聚类
网络
存储器
计算机
周期
系统为您推荐了相关专利信息
黄龙病
光谱分析
灰度共生矩阵
导管
支持向量机回归
大语言模型
多机器人协作方法
操作技能
执行主体
协商机制
服务匹配方法
大语言模型
语义
企业
生成提示信息