摘要
本发明公开了一种基于规则库的司法文书向量化分段和段落标注方法,包括:S1:构建包含分段规则和段落标注规则的规则库;S2:获取待标注的司法文书;S3:通过正则表达式为预处理后的司法文书中的各个文书部分匹配对应的分段规则和段落标注规则;S4:根据分段规则的匹配结果对司法文书进行分段,得到若干个文书段落;S5:根据段落标注规则的匹配结果对各个文书段落进行段落标注,得到每个文书段落的标注信息;S6:对所有带标注信息的文书段落进行向量化后,作为司法文书的标注结果进行输出。经过本发明向量化的司法文书,能够提高大语言模型对其含义和司法判断逻辑的理解,提升利用大语言模型人工智能技术辅助生成司法文书的准确度和质量。
技术关键词
标注方法
标注规则
同义词规则
分段
机器学习算法
语义规则
大语言模型
大规模语料库
文本规范化
BERT模型
样本
构建决策树
同义词库
机器学习模型
人工智能技术
格式
模式
逻辑
系统为您推荐了相关专利信息
权限控制方法
团队
分布式一致性算法
分布式架构
负载均衡策略
DOA估计方法
脉冲噪声
协方差矩阵
阵列信号处理技术
阵列结构
天然裂缝
水平井分段多簇压裂
气液两相流动
水力
应力场
注意力机制
并行神经网络
时间卷积网络
混合网络
锂离子电池