基于数据湖的推荐系统数据处理方法、装置及存储介质

正文

推荐专利

申请号：CN202411551835

申请日期：2024-11-01

公开号：CN119065613A

公开日期：2024-12-03

类型：发明专利

摘要

本发明提供了一种基于数据湖的推荐系统数据处理方法、装置及存储介质。将不同模块的特征数据进行分类，然后根据所述特征数据的实时性需求，将特征数据细分为短期有效类别以及长期有效类别，再将所述长期有效特征采用永久存储列簇以保证数据完整性，而短期有效特征则分配至定时过期列簇，从而可以解决推荐系统特征数据的高效存储与访问。本发明结合了Flink、Lindorm、Paimon的协同作用，构建了完整的数据处理与分析流程，实现特征的时效性与数据的深度利用，为推荐系统的持续优化提供坚实的技术基础。得益于链路的时效性，本发明可有效解决约10%的特征穿越问题，3%的重复样本问题，使用更精准的样本进行训练后，线上用户的使用率提升了2%，留存提升0.8%。

技术关键词

推荐系统数据处理方法机器学习模型训练特征异常数据分区策略可读存储介质样本数据处理装置时效性生成标签离线队列处理器归属地消息存储器计算机

系统为您推荐了相关专利信息

电池剩余容量估计方法、装置、设备及存储介质

电池充电数据充电截止电压电池剩余容量曲线样本

基于声学分析和机器学习模型的药瓶内药片无损计数方法

无损计数方法卷积神经网络模型声音采集模块计数装置回放模块

配电网需求侧响应方法、装置、设备及系统

需求侧响应策略需求侧响应方法配电网运行状态强化学习模型时间序列特征

多模态数据处理方法、设备、介质及计算机程序产品

数据处理方法内存视觉特征矩阵多模态特征

用于虚拟终端的漏洞识别方法、装置和非易失性存储介质

漏洞识别方法非易失性存储介质检测终端数据包过滤规则虚拟终端系统

基于数据湖的推荐系统数据处理方法、装置及存储介质

站点导航

APP 下载