用于针对输入文本挖掘拷贝数变异数据的方法、设备和介质

正文

推荐专利

申请号：CN202510408379

申请日期：2025-04-02

公开号：CN119903177B

公开日期：2025-07-08

类型：发明专利

摘要

本发明涉及一种用于针对输入文本挖掘拷贝数变异数据的方法、设备和介质。该方法包括：将所获取的关于拷贝数变异的上下文信息和查询信息进行拼接，以便生成输入文本序列；将上下文词汇序列和查询词汇序列转化为词索引序列，以便至少基于词索引序列，生成输入向量序列；将输入向量序列输入预训练语言模型，以便通过堆叠的多头注意力和前馈网络生成输出向量，所述输出向量包括每个词汇的向量上下文表示；以及基于每个词汇的上下文表示，预测每个词汇作为实体起始或结束的概率，以便确定拷贝数变异实体，用以生成关于拷贝数变异的结果表示。本发明能够针对存在复杂的CNV描述形式的输入文本准确并高效地进行CNV数据的提取。

技术关键词

拷贝数实体文本序列关系预训练语言模型模式处理单元索引数据可读存储介质染色体人类注意力自然语言坐标校正存储器计算机

用于针对输入文本挖掘拷贝数变异数据的方法、设备和介质

站点导航

APP 下载