摘要
本发明提供了一种基于数据湖的推荐系统数据处理方法、装置及存储介质。将不同模块的特征数据进行分类,然后根据所述特征数据的实时性需求,将特征数据细分为短期有效类别以及长期有效类别,再将所述长期有效特征采用永久存储列簇以保证数据完整性,而短期有效特征则分配至定时过期列簇,从而可以解决推荐系统特征数据的高效存储与访问。本发明结合了Flink、Lindorm、Paimon的协同作用,构建了完整的数据处理与分析流程,实现特征的时效性与数据的深度利用,为推荐系统的持续优化提供坚实的技术基础。得益于链路的时效性,本发明可有效解决约10%的特征穿越问题,3%的重复样本问题,使用更精准的样本进行训练后,线上用户的使用率提升了2%,留存提升0.8%。
技术关键词
推荐系统
数据处理方法
机器学习模型
训练特征
异常数据
分区策略
可读存储介质
样本
数据处理装置
时效性
生成标签
离线
队列
处理器
归属地
消息
存储器
计算机
系统为您推荐了相关专利信息
电池充电数据
充电截止电压
电池剩余容量
曲线
样本
无损计数方法
卷积神经网络模型
声音采集模块
计数装置
回放模块
需求侧响应策略
需求侧响应方法
配电网运行状态
强化学习模型
时间序列特征
漏洞识别方法
非易失性存储介质
检测终端
数据包过滤规则
虚拟终端系统