一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质

AITNT
正文
推荐专利
一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质
申请号:CN202410888364
申请日期:2024-07-04
公开号:CN118410773B
公开日期:2024-08-27
类型:发明专利
摘要
本发明涉及一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质,属于自然语言处理和信息检索技术领域。本发明采用文档的词频逆文档词频来表征文档内容,采用类别标签和关键词序列来表征层次化类别信息。采用文本特征自编码器对文档内容表征进行编码,最大程度的在哈希码中保留文本原始语义。采用对比学习优化文档编码器,将类别信息嵌入哈希码。采用基于预训练语言模型的自编码器编码类别信息和关键词序列,支持对原始类别和扩展类别标签序列在统一空间进行语义编码,从而支持可扩展的动态层次化类别信息。在使用阶段,将文档内容和类别标签序列的组合编码作为文档语义编码,从而支持用户自由定义类别和关键词的文本语义哈希检索。
技术关键词
可扩展类别 序列 哈希方法 语义 重构 标签 文本 模块 关键词 解码网络 编码器 层级 超参数 网络优化 预训练语言模型 机器可读存储介质 存储器存储指令 信息检索技术 哈希装置
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号