【趣码乐园教育】生产逻辑

【趣码乐园教育】生产逻辑

以滑窗统计为例,具体讲解下生产逻辑:

根据时间轴按照指定的粒度切分不同的分片

收到新的数据上报,根据 eventTime 合并到对应分片

根据配置的窗口大小,取出对应分片合并计算特征结果,同时注册下一次触发的定时器(分片滑出窗口的时间)

定时器触发按照 triggerTime 扫描出在窗口大小内的分片数据,进行合并计算

窗口的滑入滑出均以分片为单位,因为分片为特征的最小精度

混合状态存储架构

在实时特征生产场景中,Flink 任务常常需要处理大规模状态数据。生产环境中可能会遇到两个主要问题:

当状态数据量达到 TB 级别时,在保证数据不丢失、不重复的语义下,一旦发生故障需要恢复,恢复速度会很慢,导致业务中断时间较长,通常超过 10 分钟

目前 Flink SQL 的状态恢复机制较为严苛,在很多场景下,作业变更无法从原先状态恢复,对于新增特征的需求,希望能够在状态上直接进行更新,实现无损重启。

为了解决这些问题,框架实现了状态的冷热数据分离,热数据在 FlinkState 内,冷数据 (包含热数据) 存储在外部存储 (Redis,HBase)。

在任务执行过程中,会优先从 FlinkState 中读取数据。如果 FlinkState 中没有找到所需的数据,则会从外部存储系统中加载。每次执行 checkpoint 操作时,会将状态的变更部分同步到外部存储中,以此确保数据的一致性。这样的设计既保证了数据的高可用性,也提高了系统的容错能力。

任务恢复时,不再将全量数据同步拉取、同步加载。而是同步加载热数据,运行时按需查询冷数据。热数据加载完毕后,整个任务即可开始运行。

若要在现有状态中添加新特征,可以采用旁路离线任务的方式,将新特征作为额外的一列写入外部存储。一旦数据同步完成,只需对现有的任务逻辑进行相应的修改,即可实现新特征的无缝集成。

特别声明:[【趣码乐园教育】生产逻辑] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

陕西噪音扬尘监测设备:为城市环境守护宁静与清新(噪音扬尘监测)

在陕西城市化快速发展的今天,建筑工地、工业企业等场所产生的噪声和扬尘问题日益受到关注。 对于社区、学校、医院等对声环境要求较高的场所,金叶仪器的噪声监测系统能够提供长期、连续的环境数据,帮助管理部门优化环境…

陕西噪音扬尘监测设备:为城市环境守护宁静与清新(噪音扬尘监测)

新学期学生信息登记咋高效?支持收资料 + 批量导出存档超实用~(学校学生信息)

用普通在线表格的话,家长手机填容易填串行、格式乱,信息公开没隐私,电脑操作对部分家长又有门槛,同样费时费力。还支持逻辑跳转功能,家长能根据自己的回答跳过不相关的问题,减少没必要的信息收集。 接龙管家自动汇…

新学期学生信息登记咋高效?支持收资料 + 批量导出存档超实用~(学校学生信息)

九门》全阵容官宣,盗墓传奇再掀风云(九门分别)

此次回归,相信他能在续集中为我们带来更精彩的表演,继续带领观众走进那个神秘莫测的盗墓世界。 陈瑶在剧中饰演霍仙姑,作为九门中唯一的女性♀️当家,陈瑶将如何演绎霍仙姑在家族权斗中的坚韧与智慧,令人好奇。徐正溪饰演二…

《<strong>九门</strong>》全阵容官宣,盗墓传奇再掀风云(九门分别)

风水轮流转,6年前用“公式相声”叫板『郭德纲』的李宏烨终于被反噬(风水轮流转,往死里转是什么意思)

李宏烨,这个自称“公式相声”创始人的博士,在6年前的一档节目中,公然向相声界泰斗『郭德纲』发起挑战。他带着“公式相声”的理论和作品,来到了节目现场。 他的相声开始有了温度和深度,观众的反响也越来越好。 这一次…

风水轮流转,6年前用“公式相声”叫板『郭德纲』的李宏烨终于被反噬(风水轮流转,往死里转是什么意思)

浓妆艳抹、浓妆艳抹,“姨味十足”的6位男星,爹妈都快认不出了(浓妆艳抹的含义)

但不知是入戏太深,还是本性使然,经过一段&quot;放飞自我&quot;的时期后,尹正的外形发生了明显变化。 在《何以笙箫默》中与『唐嫣』搭档时,『钟汉良』已经40岁,但身材管理依然在线,面部轮廓紧致,丝毫不显松弛,成功塑造了一部经

浓妆艳抹、浓妆艳抹,“姨味十足”的6位男星,爹妈都快认不出了(浓妆艳抹的含义)