摘要
本发明公开了一种基于大语言模型的低标注海外多国地址的解析方法,该方法具体包括如下步骤:S1,获取标注数据,从目标国地址数据库中获取地址数据,进行标注获得结构化数据;S2,将S1中获取的结构化数据进行拆分为训练集和测试集,通过训练集数据获取字段质量检测模型,根据获取的F1值筛选出质量差的字段;S3,获取高质量训练测试数据;S4,将S3中的高质量训练测试数据进行拆分,分为训练集和测试集,通过训练集数据并基于大语言模型训练获取打标助手模型;S5,W2NER小模型训练并上线。本发明通过少量的标注数据训练,结合字段质量检测算法和优化后的数据进行二次训练,实现了小型化且高效的海外地址解析模型。
技术关键词
大语言模型
解析方法
训练集数据
分布式训练
字段
数值
框架
列表
格式
算法
元素
速度
系统为您推荐了相关专利信息
信息收集方法
任务调度策略
场景
大语言模型
深度优先策略
电池
强化学习方法
路径生成方法
图谱
置信度阈值
代码漏洞检测方法
大语言模型
抽象语法树
漏洞检测装置
文本