摘要
本申请涉及文本处理技术领域,尤其涉及一种基于大数据的法律文档处理方法及系统,方法包括:对案情描述进行分词,得到多个描述词;在案例库中计算各描述词的匹配有效性;将归一化后的匹配有效性与所述描述词的TF‑IDF值的乘积作为加权系数对各描述词的语义向量加权求和,得到案情特征,依据案情特征和历史案例的案例特征间的相似度,得到案情描述的相似案例。通过本申请的技术方案,能够提高相似案例检索结果的准确性。
技术关键词
语义向量
大数据
案例库
有效性
计算机程序指令
文本处理技术
分词
标签
偏差
存储器
处理器
尺寸