摘要
本申请实施方式提供了一种训练样本的生成方法、装置、设备、介质及程序产品。所述方法包括:从固定内容文件中识别得出文本数据段;基于所述文本数据段和所述固定内容文件调用多模态大模型,生成所述固定内容文件对应的目录数据;其中,所述目录数据包括与文本数据段对应的目录项;所述目录项用于指示文本数据段的位置;依照所述目录项排列所述文本数据段得到所述固定内容文件对应的目标文本数据;其中,所述固定内容文件和所述目标文本数据形成所述训练样本。训练样本的生成方法、装置、设备、介质及程序产品可以实现对固定内容文件包含的文本信息的结构化处理,增强训练样本的结构化程度,提升专业领域的专用大模型的训练效果。
技术关键词
文本
数据
目录
生成方法
计算机程序产品
多模态
计算机设备
可读存储介质
关系
生成装置
处理器
识别模块
存储器
专业
标记
系统为您推荐了相关专利信息
智能评估系统
时序卷积神经网络
SVM分类器
环境监测数据
指标评价体系
模拟器
执行面向对象
片上系统
验证方法
检查工具
报文统计
数据通信设备
计算机程序产品
识别方法
颜色