摘要
本公开涉及一种文本处理方法、装置和存储介质。该方法包括:获取多条搜索记录,每条搜索记录包括查询文本和点击文本,查询文本表示搜索时被输入的文本,点击文本表示搜索时被点击浏览的内容对应的文本;基于多条搜索记录将查询文本划分为至少一个查询文本集合;其中,每一查询文本集合内的查询文本对应于相同的点击文本;基于查询文本集合确定具有上下位关系的词对。根据本申请实施例,可以实现利用搜索记录日志,基于搜索时输入和浏览的内容确定具有上下位关系的词对,减少了人工识别的成本,在保证了词对具有较大覆盖范围的同时提高了上下位关系词对的识别精度。
技术关键词
文本处理方法
特征值
词语
关系
文本处理装置
非易失性计算机可读存储介质
计算机程序指令
大语言模型
处理器
滑动窗口
同义词
存储器
模块
日志
精度