摘要
本发明公开了一种基于LDA主题建模的地铁建设风险分类方法,涉及工程风险管理技术领域。包括从施工单位安全巡查系统中导出隐患文本记录,获得初始文本内容,正则化处理获得清洗后的文本内容,进而构建词典,将词典输入分词工具中,获得分词结果,构建词袋模型,结合分词结果计算TF‑IDF权重,形成语料向量集合,确定LDA超参数,将语料向量集合以及LDA超参数输入至LDA模型中进行训练,获得训练好的LDA模型,将待检测文本输入至LDA模型中,获得主题关键词以及文本主题分布,并进行风险分类,形成结构化风险文本数据库。本发明能够实现隐患信息的结构化与标准化分类,提升风险识别的准确性和全面性。
技术关键词
风险分类方法
词袋模型
主题关键词
分词
构建词典
巡查系统
风险管理技术
中文文本
参数
指标
语义
表达式
术语
字符
符号
批量
系统为您推荐了相关专利信息
训练样本集
语言模型训练方法
分词
大语言模型
文本
分类识别方法
语义向量
标签文本
注意力
产品标签
数据处理方法
大语言模型
结构化查询语句
脚本
非易失性存储介质