放在物理世界,搬家从来都是一件复杂的事,而数字世界的搬家,其难度更甚。
一家大型工厂搬家,需要暂停一切业务生产,从前期的打包设备,到搬迁上路,再到新址装配机器,调试之后再行生产,往往历时数月之久,且往往可能出现各种意外,导致原本的预计时间持续后延。
一家IT企业的业务搬迁,其面临的难度在于,搬迁过程中“不停服”,在保障业务高可用的情况下,实现数据、业务系统、平台应用的无缝衔接,做到外界无感知。这就要求搬迁的时间必须足够短,搬迁方案足够完善,以及整个保障流程足够顺畅,对服务商的技术产品能力、运营保障能力以及协调能力提出了极高的要求。
近日,达达集团旗下达达快送成功实现全量业务迁移到京东云上。数万核计算资源、数百TB存储数据,在不停服的情况下跨云迁,其难度,不亚于将一座工厂原封不动从上海搬到北京,并且要求不能有丝毫差错。因为不同于物理世界可接受的合理偏差,数字世界的一丝一毫谬误,万分之一的错误,都将产生不可估量的巨大损失。
达达此次跨云迁移,可以说为整个业界提供了一次难得的实践观察机会,除了得以一窥数字世界的搬迁是如何进行的,也有助于让有意于跨云迁移的企业,吃下一颗定心丸。随着企业自身业务持续发展,选择服务更优、成本更低、效率更高的云服务商,将是永恒的话题,而达达成功的跨云迁移,足以让更多企业打消顾虑,走上云上的迁徙之路。
接下来,我们从备战、布阵、决战和战后四个阶段,来看看达达此次搬迁,面临的难点,以及对应的解决方案。
备战:兵马未动,粮草先行
李保平是京东云的技术工程师,在访谈中,他表示,2月16日的下午2点左右,小组长告诉他们:来了个大活——达达准备全量迁移到京东云。末了又加了一句,兄弟们好好干,项目完了boss要请我们喝酒。
那时刚刚过完春节,很多人还没从假期综合征中缓和过来,而这个春节没有回家。这一年,京东成为2022年央视春晚独家互动合作伙伴,面向全国人民发出了价值15亿的红包和好物,他作为技术工程师,与2000多名技术人员一起参与了除夕当晚的一线值守,保障了春晚活动的顺利进行。
对技术人最好的嘉奖,就是为他们准备一场盛大的“战役”。其实之前达达已经将大量业务放在京东云上,这次听说达达要全量迁移到京东云,还没从午休的混沌中清醒过来的李保平瞬间来了劲头,在内里感慨了句:大项目啊!
他知道,达达快送作为中国领先的本地即时配送平台,业务覆盖全国2700多个县区市,一年要送出十几亿个订单,几乎相当于给全国人民每人送一次。而人们选择达达配送的,往往都是着急要用的东西,送病历、送电脑、送着急签署的文件等等。作为背后支撑的IT系统,在此时显得尤为重要,如果因为出现系统故障导致平台不可用,哪怕仅仅5分钟,都将给用户带来非常大的损失,想到这里,他内心除了兴奋,也有了沉甸甸的责任。
“达达全量迁移”项目启动会也在随后紧锣密鼓召开,这是一场涉及内部的商务、售前、技术交付、产研、基研等各团队,以及客户侧多团队紧密配合的攻坚战,涉及数万核计算资源、数百TB存储资源的迁移,包括云主机、云盘、数据库、网络等云服务资源,以及计费系统、物流系统、流量分发等系统资源的调优适配,需要确保整个项目人员的协同配合。
很快,项目分工表给出来,项目计划表也划定出了节点和任务编排。
按照项目排期,整个项目划分为四个大阶段(准备阶段、部署阶段、迁移阶段、割接保障阶段),从当前到2月下旬是准备阶段,接着到3月底是部署阶段,然后是半个月左右的正式迁移阶段,到4月18日前实现交割保障,正式完成整个迁移工作。
这样确保达达能够在预留出2个月的时间,为参与年度的618大促,提前进行演练、压测。
布阵:运筹帷幄,决胜千里
IT业务的跨云迁移,是一个复杂的系统工程,要充分考虑技术可行性、终端用户体验以及迁移成本三个关键因素,为了业务稳定性和连贯性,大部分企业都会选择分批次、分阶段的逐步迁移。
达达迁移到京东云,也经历了长达3年多的漫长的过程。从最早的以京东云为辅,仅使用数据库以及算力;到中期通过双活架构,在京东云与其他云厂商灵活切换,并逐渐将更多业务量放在京东云;到此次全量切到京东云,全部使用京东云的产品和服务。可以说,正是李保平和同事们数年来坚持不懈地践行“以客户为中心”,才能有今天客户的信任,愿意把身家性命托付在京东云之上。
跨云迁移是一场没有硝烟的战争,正式迁移前的排兵布阵优劣,直接决定了战场的胜负成败,某一个链条的疏忽,可能造成全盘皆输。
针对此次达达快送的全量迁移,京东云和达达团队制定了周密的方案和机制,来确保迁移的顺利进行。
首先是人员协同。双方各自成立了项目组,并确定了例会制度,项目进展每周面向项目组全员及时通报,有问题第一时间开会解决,从人员层面确保了商务、售前、技术交付、产研、基研等各团队人员各司其职,有机协同。
其次是迁移方案。业务的跨云迁移工作主要包含应用迁移与数据迁移,因为跨云的异构性,迁移前需进行充分的调研并制定完备的实施方案,其中会涉及大量应用改造、数据迁移、迁移脚本、迁移自动化工具及繁琐的人工操作,并且通常会针对于不同应用场景规划不同的迁移方式。
随着项目各项准备工作紧锣密鼓开展起来,李保平和同事们也快速忙碌起来了。制定Redis迁移方案,制定QA环境下MySQL迁移方案,加速预热镜像部署,Redis同步集群测试和工具资源预估,MySQL数据同步和迁移时间预估,进行专线高可用测试保障迁移网络稳定,压测资源开通保障等等,各类前期准备工作有条不紊快速推进着。
再次是商议迁移过程中可能出现问题的应对方案,以及迁移结束后的测试交割等等。如商讨如何确保当晚一次性完成流量平滑切换,需要京东和达达一起制定好方案。
因为业务不能中断,迁移过程中也要保证服务的高可用性,对于前期的准备,李保平打了一个形象的比喻:达达此次的跨云迁移,相当于把一辆高速行驶的汽车上的乘客,换乘到另一辆高速行驶的汽车上,根据运动相对论,两辆汽车速度一致视为相对静止,这样乘客就可以平滑地从一辆车换到另一辆车上。京东云此次提供的就是这种平滑的换车服务,虽然外面看起来惊心动魄,但经过周密的计划和详尽的准备,给客户提供了拎包入住的一站式体验。
决战:善战者无赫赫之功
兵法讲,“善战者无赫赫之功,故善者之战,无奇胜,无智名,无勇功”。
这句话的意思是,善于打仗的人没有什么显赫的功劳,他们打仗不需要用奇谋,也不会被人们称其聪明,他们好像平平常常就取得了胜利,一点不像人们想象中的那么激烈勇猛。
放在“达达快送全量迁移至京东云”这一项目中,对项目组而言也是如此。因为前期的充足准备和详尽谋划,考虑到了各种可能的意外情况和问题,等到真正迁移时,反倒大家没那么紧张了。
时间回到正式迁移前三天,项目牵头人发出邮件:今天晚上22:00是达达4年以来迁移的最重要时间点,21:00前请给出今天晚上达达整站迁移相关产品standby专家名单,并且需要发给客户相关负责人,以最快的效率解决客户问题。经历过多次大项目的李保平知晓,这是吹响决战前的冲锋号了。
正式迁移日期转瞬即至,项目牵头人再度发出邮件:达达切量所涉及的IaaS、网络、专线、Redis迁移、数据库DBA等保障团队及保障工作上周已经拉通和准备完毕,并已在内部群同步过给大家,值班表也同步给客户侧运维负责人,今天晚上技术服务和产研团队将会密切关注客户侧的切量进展确保切量成功,有问题随时联系,感谢各团队的支持。
接下来是正式迁移。数万核计算资源、数百TB存储数据,将全量切换到京东云上。
因为前期和达达团队的紧密沟通,以及充分的准备工作,整个迁移过程有惊无险,即使有些小问题,也很快解决了。如在进行Redis迁移过程中,出现了部分业务无法迁移的状况,经双方紧急排查后,发现达达的代码中对集群存在事务性使用,是一个非标准化操作,对此,双方第一时间定位到代码,迅速组织了修改,确保了整个迁移的正常进行。
两天之后,小组长告诉李保平:达达全量迁移至京东云已经顺利完成了。
用李保平的话来讲,整个过程出乎意料地顺利,值守中途他甚至一度想拿起手机去“王者峡谷”遨游一番,但看看周围同事们都在聚精会神关注各种数据指标和迁移进度,他就还是放下了手机。
就像项目负责人事后总结所言:感谢各位领导和同事的不懈努力,没有资源和系统的稳定性,没有各团队的合力协作和鼎力相挺,迁移就是空中楼阁,善战者无赫赫之功!
战后:严阵以待,有备无患
达达一端连接着2700多个县区市的几千万用户和几十万商家,一端连接着数十万的达达骑士,承担起了将大量订单第一时间送到用户手中的重任,为过生日的用户送去了蛋糕,为过纪念日的女生送去了玫瑰花,也为疫情中无数的家庭送去了温暖和爱心。
虽然此次全量迁移已经结束,但京东云的技术人员们仍在忙碌着,因为要不了多久,“520大促”就要来了。这一互联网上兴起的“网络情人节”,根据往年经验,届时将会有大量集中的送单需求,这也将是达达全量业务跑在京东云上之后,第一次接受大规模业务场景验证,计算资源储备、业务扩容等等工作也在进行中。
而再过一个月,将迎来618购物季,届时流量暴涨,面对峰值日配送单量可能超千万单的流量洪峰,对于达达业务体系,也将是一次新的考验。
此前,京东云为达达搭建了多云双活架构,实现仓拣配各个环节数个系统之间的高可用性,将算力和存储需求全部迁移至云上,从而实现计算资源高弹性、成本压缩与业务稳定,保证整体可用性提高到99.995%。让达达向公有云迁移的过程中,对原有的技术架构进行全面梳理与革新,完成与京东到家、京东物流业务系统打通,实现传统架构向云原生体系的升级。
基于京东云4条裸纤承载多云之间的数据传输服务,实现双活架构的稳定与高可用性,确保了大数据的高效迁移,也更好地支持了通过同步工具实现双向数据的实时同步,满足用户的秒级延迟要求。此外,针对达达的计算需求,京东云提供了高可用组服务,更好地满足资源的弹性和高可用性要求,并利用原生容器POD满足达达对资源秒级启动的需求。
此次,随着达达全量业务迁移到京东云,相信经历过多年京东全场景业务及618、11.11等万亿级流量洪峰考验的京东云,将高效支撑起达达全量业务,在提升效率的同时,充分发挥云计算的弹性和高可靠性,为达达大幅降低成本,极大提升达达“仓拣配”全链路即时履约服务的数智化能力。
后记
外界评价曾国藩带兵打仗是“结硬寨,打呆仗”,貌似规规矩矩,自然而然就胜利了,但其背后体现出的精密计算与丰富经验,才是真正厉害的地方。表面上看起来的的顺利,绝不是偶然,而是趟过无数次暗礁险滩,最终才能游刃有余。
此次达达全量迁移,如果用一句话来概括,可以用“善战者无赫赫之功,善医者无煌煌之名”。可以说,京东云完善的搬迁方案、顺畅的运营保障流程、高效的人员协同,以及对客户业务场景的深刻理解,为达达数万核计算资源、数百TB存储资源的云上迁移提供了稳定支撑,才得以让此次搬迁能够零故障顺利完成。
截至2022年4月,达达已经在京东云部署了超5万核计算资源,实现落地配、即时配和电商系统的全面云化,运维效率提升30%,节省千万级IT成本,达达通过携手京东云,共同交出了一份满意的答卷。
当前,数字化浪潮奔涌而来,云上创新已经成为企业的核心议题,通过云厂商提供的高可用、高可靠的服务体系,让企业可以从复杂的IT系统中更多地解放出来,得以更加专注于业务本身。而达达快送全量搬迁到京东云,也为业界提供了有益的参考借鉴,云上搬迁虽然复杂,但并不是无解的命题,解放生产力,也将是未来很长一段时间内企业数字化变革的核心议题。
Tracy:绿色不是成本!
6409 阅读靠供应链暴赚、大建冷链物流,年营收77亿的奶茶品牌冲刺IPO
2785 阅读极智嘉冲刺港交所,为全球最大的仓储履约AMR解决方案提供商(附招股书下载)
2719 阅读跃点物流科技获350万美元A+轮融资
2610 阅读快递停摆风波再起,又是共配惹的祸?
1632 阅读顺丰、鲜生活、京东物流、万纬物流、普冷、菜鸟…谁家冷链能在2025实现新突破?
1535 阅读赢在供应链:外包战略的系统性思考
1499 阅读京东物流发布全球织网计划2.0路线图:全面构建海外仓配“2-3日达”时效圈
1350 阅读像吃大象一样优化物流成本:企业降本增效的系统方法
1199 阅读大胆预测:2025供应链趋势抢先看
1176 阅读