摘要
本发明公开了一种大规模语料处理方法及系统,该方法包括基于多个主题词获取相关联的初始语料数据;将初始语料数据按照预定的编码格式进行转换;对转换后的初始语料数据进行处理,以获取单一有效语料数据并存储;对单一有效语料数据按照预定的分类标准进行语体分类标注,以获得相应的语体分类标注数据;基于语体分类标注数据,利用卡方检验法分析多个主题词之间的关联性;基于多个主题词之间的关联性对相关联的语料数据进行批量处理。采用上述技术方案中的大规模语料处理方法和处理系统,可以基于多个主题词之间的关联性对检索获得的大规模的语料数据进行批量处理,在提高处理速度的同时,还能够确保处理结果的准确度。
技术关键词
大规模语料
数据获取模块
字词
批量
可读存储介质
格式
处理器
标记
编码
存储器
计算机
终端
字符
语义