摘要
本申请提供一种问答对数据集的生成方法、装置及问答模型,属于人工智能技术领域,方法包括对答案数据集中的每个答案数据源进行切分,获得多个第一答案片段,每个第一答案片段配置有来源元数据;为问题数据集中的每个问题匹配至少一个第一答案片段,构建用于生成问题的答案的上下文集合;对于问题数据集中的任一问题,基于问题和问题的上下文集合生成答案,基于问题和答案构建基于问题的问答对,问答对包括问题、问题的答案以及答案的引用标记;将所有问题对应的问答对的集合作为问答对数据集。本申请为答案数据集切分获得的每个答案片段附带来源元数据,从而使得问题对的答案中配置有明确的引用标记,使得答案可以追溯至具体数据源。
技术关键词
问答对数据
生成方法
语义向量
生成答案
问答模型
非暂态计算机可读存储介质
有效性
大语言模型
标记
计算机程序产品
种子
处理器
人工智能技术
模块
标识
电子设备
生成装置
系统为您推荐了相关专利信息
验证码生成方法
自动语音识别系统
生成对抗网络
语音验证码
语音活动检测
多模态信息
推荐系统
模态特征
局部纹理特征
上下文环境信息