摘要
本发明公开了一种基于大语言模型的老年健康管理指令数据集构建方法,基于网络爬虫等多元获取数据方法,通过数据清洗与过滤获得高质量、专注于老年健康管理问答数据和无监督数据;大语言模型信息抽取阶段,根据无监督文本数据,设计提示词来知识引导与背景知识相关的指令数据;提示大语言模型,对信息抽取形成的问答数据与不同基座模型生成的答案进行语义相似性判断,删除语义差异大、准确性欠佳、领域关联程度低内容;人工评测数据后,基于评测数据与先验知识支持下的投票法训练分类模型,对剩余指令数据进行多重指标的投票,筛选出符合高质量标准数据,构建具备高准确性和领域相关性的指令数据集,为优化老年健康管理智能问答提供精准数据支持。
技术关键词
老年健康管理
数据集构建方法
大语言模型
指令
训练分类模型
答案
语义
无监督
生成提示词
格式
保健养生
爬虫
数据分类
随机森林
样本
基座
分类器
参数
代表
系统为您推荐了相关专利信息
重症监护室
监管系统
时序特征
故障预测模型
参数
像素点
缺陷检测方法
检测汽车内饰件
邻域
深度值