摘要
本发明提出一种基于Embedding‑FineTuning的检索增强生成改进方法,对电力电网的大规模多源异构数据进行预处理和清洗,确保数据的一致性和质量,并基于LumberChunker技术对处理后的文本数据进行动态划分,根据语义转折点划分文本块,生成适合微调训练的文本块;然后,采用T5模型基于文本块进行多轮问答的问答对生成,形成用于微调的问答对数据集;针对电力电网领域的实际应用场景,设计定制化的prompt模板,以引导模型生成过程;在问答对数据集上进行Embedding‑FineTuning微调训练,通过优化模型参数,提升模型在电力电网领域中的嵌入表示性能和准确性。
技术关键词
问答对数据
文本
多源异构数据
非暂态计算机可读存储介质
语义
修正错别字
电力
脱敏策略
句法结构
多轮对话
检索系统
处理器
生成方式
动态
数据格式
模板
存储器
训练集
核心
系统为您推荐了相关专利信息
实体间关系
预训练语言模型
实体匹配方法
知识图谱构建
大语言模型
数字仪表图像
数字仪表读数
图像分割网络
样本
网络训练方法
系统控制参数
闭环控制器
参数优化方法
精简系统
场景