摘要
本发明公开了一种生物医学文本预训练生成方法,其包括以下步骤:将输入的生物医学文本句子分成更小的片段或词块,再通过标记嵌入、片段嵌入和位置嵌入进行处理得到预处理文本;将预处理文本经过自注意力机制生成文本嵌入向量;采用聚类算法对文本嵌入向量进行聚类,最终将所有嵌入向量分成个聚类,每个聚类由一个质心表示;在每个聚类中选择离中心最近的m个向量,按照在文档中出现的顺序排列;将选中的上下文嵌入向量由BertSum进行编码,并通过六层Random Transformer进行解码,将抽取摘要转化为生成摘要。本发明确保了提取的文本与源文本之间更高的语义相似度,强调候选摘要与原始文档之间的整体语义一致性。
技术关键词
文本
生成方法
摘要
Attention机制
序列
注意力机制
解码器
编码器
令牌
黄金
超参数
质心集
矩阵
标记
表达式
聚类算法
系统为您推荐了相关专利信息
机器学习模型
异常事件
分析方法
互联网安全技术
日志数据处理
蛋白质相互作用网络
模态特征
Word2Vec模型
离散化步长
多尺度
汽车散热翅片
工作状况监测
皮尔逊相关系数
序列
信息熵
变化检测模型
标签生成方法
遥感图像变化检测
原型
像素