全局架构
序列产出流程链路
※ 在线流程链路
在线链路通过实时数仓提供全量表和实时流两种数据源,在特征平台下构建 1w 长度的实时用户画像,召回阶段 SP,将画像传给 SIM 引擎,在引擎中完成对用户序列 hard/soft search 等异步加工,最终传给 Nuroe,完成在线序列 dump 落表。
※ 离线流程链路
离线链路通过仿真在线的处理逻辑,利用请求 pv 表和离线数仓提供的 10w 原始序列,模拟在线序列 10w->1w->100 的过程,最终产出离线回溯序列。
最终通过在线 / 离线全链路数据的一致性验证,确认全流程数据无 diff(或 diff 可解释),序列流程可靠性达标,可交付算法团队用于模型训练。
序列产出全局架构
在线架构
在线侧抽象 GSU 模块支持社区搜索和增长搜索等多场景复用。该模块在 QP(Query Processing)阶段后,通过外调基于 DSearch 构建的 SIM 引擎进行用户序列处理。SIM 引擎内完成 hard/soft search 等用户序列加工,在精排阶段前获取 topk 序列特征及对应 sideinfo,并将其透传给精排模块,最终实现用户序列的落表存储。
在线通用 GSU 模块
离线链路
数据产出三阶段
※ 原始序列预处理阶段
通过收集一个用户,按照 [月初 ts+1w, 月末 ts] 将序列进行预处理。
※ pv 表合并序列表阶段
按照 user_id 将画像和 pv 表合并,将每个 request_id 的数据按照 request_time 过滤处理。
※ 用户序列加工阶段
完成 hard/soft search 等用户序列加工逻辑处理,包括对长期序列按照相似度过滤,对短期序列按照时间过滤等。