生鲜行业业务现状:
业务存量巨大
企业数量众多
多数企业供应链管理薄弱
IT现状:
多数企业IT薄弱,中小企业无能力建设
系统集中于执行层,计划、规划层建设弱
标准缺失,上下游打通难、协同难
IT软件企业散、成本高、服务有限、反应慢
图1:供应链云平台结构
由于生鲜行业品类对时效和品质高要求特性,如何在最短的时间内为客户提供网络化、可视化、一体化的综合服务,这就要求必须以IT平台为载体,互联互通,协同供应链所有参与方;将流程化、供应链管理思想赋能商家,实现物流、商流平台;进行全供应链计划与规划,提升链条整体竞争力,提升供应链网络整体竞争力,实现S2B生态;
九曳供应链目前服务的品类如下所示:
图2:九曳供应链服务品类
由于生鲜行业时效性要求很高,基于Hive构建的T+1数据仓库满足不了上游客户业务运营和仓储、干线、宅配的实时运营监控要求。所以九曳大数据团队在HBase(Phoenix)、Spark、Flink、Apache Druid关键技术栈基础上构建了喵鲸数据中台,功能包括支持公司所有产品数据服务、满足运营人员数据分析的多维自助式BI系统、在线机器学习系统(基于SQL机器学习库,后续文章单独介绍)。
各产品线数据需要实时同步到数据中台,因为产品线较多同时业务增长速度很快,所以数据库字段变化相对较多,因而需要一套可视化、自动化的数据采集工具代替手工操作。开源社区有阿里的canal、maxwell等binlog同步方案,其两者的工作原理不在赘述。但是这两种方案都需要手工操作与二次开发,增加了人力成本。多方考虑决定自研一款数据采集中间件MCP,待内部使用稳定后按照计划贡献给社区。
可视化:
数据流向可追踪
数据同步质量可监控
自动化:
任务分发不同target执行
任务通过cron调度执行
简单化:
无代理零侵入, B/S结构Web界面操作
架构特点:水平扩展、分区发送、断点还原、故障恢复、零丢失率。
图3:MCP架构图
路由可视化展示:
支持一对一、一对多、多对多
支持一个终端下多个schema
图4:路由可视化
多种自定义数据转换规则
图5:自定义数据转换规则
九曳处在高速增长阶段,产品线会持续增加,业务变化快等原因致使数据表、字段等元数据相应变化给数据同步工作带来了难度,MCP实时同步中间件通过可视化操作方式,不同任务管理模式满足多产品线数据同步,中间过程可控并降低了人工成本。
从传统BI数据仓库,到离线数据仓库,再到当下的实时数据仓库,分层设计理论一直沿用至今。实时数仓概念目前十分流行,其难点在于多个流数据表之间的聚合操作(后续安排文章详细介绍),多数采用的方式是流数据加上维表缓存数据。
业务模型分层设计如下图:
图6:业务模型分层图
批处理是流处理的一种特殊形态,如何能同时满足两种形态的数据共存,这就是Druid的特性之一,同时Druid具有位图索引,列式存储机制,满足毫秒级实时性要求,因此九曳大数据团队选型Apache Druid作为BI系统中领域模型数据的存储方案。BI展示层选型Apache Superset,其与Druid可以无缝集成,降低了可视化的开发难度。
在整个数据仓库构建过程中,提升数据质量是要点,数据治理是手段,没有好的数据那么分析结果也会大相径庭,数据治理是一个长期持续的过程,务必引起重视。
数据流转结构如下图所示:
图7:数据流转结构图
在仓储、干线、配送等业务运营过程中,需要数据分析指导业务,具有时效性高,分析维度不固定等特点,多维自助式BI就是在这种背景下构建完成的。既可以满足业务不确定的数据分析需求,同时不用单独开发固定报表(使用生命周期、使用频次不确定),提升了使用体验并及时达到数据分析指导业务的目的,又减少了报表开发周期和成本。
数据服务API
给数据中台插上AI的翅膀,基于智能算法的数据服务起到关键性作用,从响应业务到指导并创造新业务,达到智慧供应链的目的。
数据服务与各产品线通过API方式集成,业务数据通过Kafka流入实时计算引擎(基于Flink实现)中,通过喵鲸数据中台计算引擎完成后,利用主动推送和业务方拉取的方式打通。目前在运行的数据服务包含箱型推荐、ABC分类、客服客诉数据分析、结算多科目多规则清分计算服务、单量预测服务等。后续会利用喵鲸数据中台的计算力服务于所有产品线,并有计划上下游提供数据算法分析服务。
因为基于智能算法的数据服务将是后续工作重点之一,这里介绍部分使用场景和潜在价值,以下为业务生产系统使用的场景:
九曳供应链总订单预测、各云仓订单量预测数据服务(电商活动日):仓储运营根据单量数据提前准备仓库人员、配送运力。耗材采购根据单量提前采购,避免了耗材成本浪费。
箱型推荐算法服务:根据历史订单形态分析,并实时采集操作订单的使用箱型数据辅助推荐数据趋于更加合理,通过数据指导现场作业,同时可以节省了纸箱、泡沫型的使用,节约了成本。
宅配分单算法服务:通过九曳标准4级地址库,根据订单街道纬度、宅配商运力、服务质量等维度,分配到合适宅配商进行投递,提升了用户购物体验,降低了分单失败给客户造成的损失。
基于SQL机器学习库构建在线机器学习平台,降低算法使用难度
HBase(Phoenix)读写性能的持续优化
在实时数仓的多数据流聚合方案上提升
通过进一步的数据分析服务供上下游客户使用,提升运营
首发 | 富勒科技完成3亿元融资,经纬领投,高成和高瓴跟投
11572 阅读中国兵工物资集团有限公司2025届校园招聘供应链管理、仓储管理等岗位
4941 阅读近1500人!中远海运24-25届全球招聘启动
4231 阅读吉利十一月岗位火热招聘物流、供应链类岗位
3812 阅读顺丰社招仓储管理经理、KA客户经理、SME客户经理、灵活业务资源专员、散单管理岗等
3774 阅读立高食品2025届校园招聘物流类专业
3717 阅读拼多多集团-PDD | 2025届校招正式批网申时间延长至2025年1月12日
3686 阅读蜜雪集团2025届校园招聘供应链类岗位
3605 阅读梅花集团2025届校园招聘物流管理类与工程、供应链管理等专业
3512 阅读日日顺供应链2025届校园招聘
3387 阅读