【趣码乐园教育】生产逻辑

【趣码乐园教育】生产逻辑

以滑窗统计为例,具体讲解下生产逻辑:

根据时间轴按照指定的粒度切分不同的分片

收到新的数据上报,根据 eventTime 合并到对应分片

根据配置的窗口大小,取出对应分片合并计算特征结果,同时注册下一次触发的定时器(分片滑出窗口的时间)

定时器触发按照 triggerTime 扫描出在窗口大小内的分片数据,进行合并计算

窗口的滑入滑出均以分片为单位,因为分片为特征的最小精度

混合状态存储架构

在实时特征生产场景中,Flink 任务常常需要处理大规模状态数据。生产环境中可能会遇到两个主要问题:

当状态数据量达到 TB 级别时,在保证数据不丢失、不重复的语义下,一旦发生故障需要恢复,恢复速度会很慢,导致业务中断时间较长,通常超过 10 分钟

目前 Flink SQL 的状态恢复机制较为严苛,在很多场景下,作业变更无法从原先状态恢复,对于新增特征的需求,希望能够在状态上直接进行更新,实现无损重启。

为了解决这些问题,框架实现了状态的冷热数据分离,热数据在 FlinkState 内,冷数据 (包含热数据) 存储在外部存储 (Redis,HBase)。

在任务执行过程中,会优先从 FlinkState 中读取数据。如果 FlinkState 中没有找到所需的数据,则会从外部存储系统中加载。每次执行 checkpoint 操作时,会将状态的变更部分同步到外部存储中,以此确保数据的一致性。这样的设计既保证了数据的高可用性,也提高了系统的容错能力。

任务恢复时,不再将全量数据同步拉取、同步加载。而是同步加载热数据,运行时按需查询冷数据。热数据加载完毕后,整个任务即可开始运行。

若要在现有状态中添加新特征,可以采用旁路离线任务的方式,将新特征作为额外的一列写入外部存储。一旦数据同步完成,只需对现有的任务逻辑进行相应的修改,即可实现新特征的无缝集成。

猜你喜欢

福斯特事务所设计的扎耶德国家博物馆开馆在即,探索阿联酋的历史与文化遗产(福斯特事务所设计的英国塞恩斯伯里视觉艺术中心)

由英国著名建筑事务所Foster + Partners设计的赛义德国家博物馆(Zayed National Museum)将于2025年12月正式开馆,成为阿联酋文化地标之一。博物馆计划与英国博物馆等国际机…

福斯特事务所设计的扎耶德国家博物馆开馆在即,探索阿联酋的历史与文化遗产(福斯特事务所设计的英国塞恩斯伯里视觉艺术中心)

864元,魅族清仓,迎来“重生”

好家伙,魅族Lucky 08作为一款首发价1799元(12GB+256GB)的中端机型,上市不到一年直接来了个五折腰斩,也是相当猛了。这波魅族Lucky 08的“五折清仓”,不少网友解读为魅族“重生”前的…

864元,魅族清仓,迎来“重生”

冰箱哪个品牌好?十大实力神机闭眼入!选对不踩雷(冰箱哪个品牌比较好一点)

双系统独立制冷:冷藏室(312L)与冷冻室(208L)独立控温,冷藏区存放榴莲时冷冻区冰淇淋绝不串味,温度波动≤0.2℃ 核心优势:专为三代同堂家庭设计的三区独立大容量(冷藏306L+冷冻186L+变温3…

冰箱哪个品牌好?十大实力神机闭眼入!选对不踩雷(冰箱哪个品牌比较好一点)

上海学校地埋式酸碱中和污水处理设备

4.节能减排:设备在运行过程中能够最大程度地减少能源消耗和化学品的使用量,有利于节能减排。 实验室产生废水时可以通过污水管进行排放,污水管将废水排放到调节池内,废水分批量向调节池内进行投放,废水排放到调节池…

上海学校地埋式酸碱中和污水处理设备

树莓派操控舵机转动,技术精髓与旋转原理大揭秘(树莓派如何控制舵机)

操控舵机转动,借助树莓派,简直令人称奇;它能精准执行我们预先设定的指令,仿佛我们亲自在指挥一群受过严格训练的士兵。在众多小型机器人项目中,树莓派凭借其出色的指令输出能力,可以引导舵机执行各种动作,进而完成既…

树莓派操控舵机转动,技术精髓与旋转原理大揭秘(树莓派如何控制舵机)