摘要
本申请公开了一种标书数据集的构建方法、装置、电子设备及存储介质,涉及人工智能技术领域。其中,该方法包括:获取标书模板和历史标书数据集,其中,标书模板中至少包括N个级别的标题,历史标书数据集里至少包括M个历史标书文件,其中,N和M为大于1的整数,每个历史标书文件中至少包括多个级别的标题;计算标书模板中所有标题与历史标书文件中所有标题之间的语义相似度;根据语义相似度从历史标书数据集中筛选出符合标书模板的标题进行组装,得到目标参照文本,其中,目标参照文本中的标题按照标题级别顺序进行排列;根据目标参照文本确定目标标书数据集。本申请解决了现有技术中针对垂直领域的标书微调数据集构建的效果差的技术问题。
技术关键词
模板
数据
文本
语义
可读存储介质
指令值
电子设备
人工智能技术
计算机
处理器
处理单元
存储器
程序
分词
字符