一种生物医学文本预训练生成方法

正文

推荐专利

一种生物医学文本预训练生成方法

申请号：CN202510270273

申请日期：2025-03-07

公开号：CN120372013A

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开了一种生物医学文本预训练生成方法，其包括以下步骤：将输入的生物医学文本句子分成更小的片段或词块，再通过标记嵌入、片段嵌入和位置嵌入进行处理得到预处理文本；将预处理文本经过自注意力机制生成文本嵌入向量；采用聚类算法对文本嵌入向量进行聚类，最终将所有嵌入向量分成个聚类，每个聚类由一个质心表示；在每个聚类中选择离中心最近的m个向量，按照在文档中出现的顺序排列；将选中的上下文嵌入向量由BertSum进行编码，并通过六层Random Transformer进行解码，将抽取摘要转化为生成摘要。本发明确保了提取的文本与源文本之间更高的语义相似度，强调候选摘要与原始文档之间的整体语义一致性。

技术关键词

文本生成方法摘要 Attention机制序列注意力机制解码器编码器令牌黄金超参数质心集矩阵标记表达式聚类算法

系统为您推荐了相关专利信息

面向服务器应用程序的入侵检测和取证分析方法及装置

机器学习模型异常事件分析方法互联网安全技术日志数据处理

一种基于Node2vec的轻量预测PPI的方法

蛋白质相互作用网络模态特征 Word2Vec模型离散化步长多尺度

一种汽车散热翅片工作状况监测方法

汽车散热翅片工作状况监测皮尔逊相关系数序列信息熵

一种基于卡方过滤的双分支网络视频分割方法

视频分割方法分支特征提取网络标签阶段

基于原型感知学习的遥感图像的伪标签生成方法、弱监督变化检测模型的训练及检测方法

变化检测模型标签生成方法遥感图像变化检测原型像素

一种生物医学文本预训练生成方法

站点导航

APP 下载