摘要
本发明涉及一种用于针对输入文本挖掘拷贝数变异数据的方法、设备和介质。该方法包括:将所获取的关于拷贝数变异的上下文信息和查询信息进行拼接,以便生成输入文本序列;将上下文词汇序列和查询词汇序列转化为词索引序列,以便至少基于词索引序列,生成输入向量序列;将输入向量序列输入预训练语言模型,以便通过堆叠的多头注意力和前馈网络生成输出向量,所述输出向量包括每个词汇的向量上下文表示;以及基于每个词汇的上下文表示,预测每个词汇作为实体起始或结束的概率,以便确定拷贝数变异实体,用以生成关于拷贝数变异的结果表示。本发明能够针对存在复杂的CNV描述形式的输入文本准确并高效地进行CNV数据的提取。
技术关键词
拷贝数
实体
文本
序列
关系
预训练语言模型
模式
处理单元
索引
数据
可读存储介质
染色体
人类
注意力
自然语言
坐标
校正
存储器
计算机