摘要
本发明公开了化学反应大语言模型训练方法及合成路径规划方法,属于化学信息人工智能技术领域。该方法通过将化学反应表达为SMILES格式反应句子,利用以原子、标点符号、数字等为单位的token生成数字化序列,采用基于Transformer架构的大语言模型进行掩码填充自监督预训练,学习化学反应规律。结合蒙特卡洛树搜索算法,对目标分子实现多步逆合成路径规划,输出策略概率和价值估计;通过多任务微调,支持分子性质分类、反应条件回归及工艺参数补全。本发明提升了化学反应建模效率和合成路径规划的智能化水平,适用于新药研发、材料发现等领域。
技术关键词
大语言模型
路径规划方法
蒙特卡洛树搜索
分子
阶段
搜索算法
策略
三元组
注意力机制
节点
序列
人工智能技术
解码器
编码器
异常数据
多任务
中间体