在预测案例1,我们依据渠道业务管理和代理商行为特征,以时间序列分析方法,为成熟渠道行业业务搭建了"渠道业务的自适应预测模型"。
这个预测模型,针对的是整体业绩预测,而并非直接导出供应链所需的产品预测。这是由于,成熟的渠道业务其产品需求结构也是相对稳定的,所以,产品预测可以直接依据整体业绩预测等比例换算即可。
如果业务市场不够成熟,例如行业占有有限、客户数量有限,那么产品需求结构的稳定度就完全依赖于行业、客户需求变化的同步性。不考虑到这一点,而单纯按照预测案例1去照猫画虎,就很有可能带来较大的预测偏差。
这种情况,需要不同的分析处理和预测模型。下面请看案例2。
****************************************
现有产品型号数量>500。已知产品结构树如下:
同时,现有17家客户,过去两年的客户需求记录如下:
我们是否可以搭建合适模型,用于预测未来?
****************************************
很明显,预测模型的质量首先取决于我们对这17家客户需求特征的把握。
虽然客户数量只有17个,并且通常也会有比较清晰的业务人员负责每一个客户的业务发展,但是,如果我们寄希望于业务人员能够讲清楚每个客户对这数百颗物料的后续月度需求,那也几乎是完全不现实的事情。
如果能够搭建一个有效的模型来描述需求结构和变化,就可以很好地提高供应链与业务人员的沟通质量和沟通效率,进而得到更好的预测质量。
为了完成这个目标,我们需要的是“聚类分析”。
(知识点:聚类分析 cluster analysis,是一组将研究对象分为相对同质的组群的统计分析技术。 这是现代数据挖掘、数据分析技术中的一个重要内容。通过对研究对象特征的梳理和定义,进行合理分类,它可以有效减少需要讨论的对象数目,有利于对研究对象的整体描述。)
对案例2而言,所谓“聚类分析”,就是将行为特征比较相似的客户归为一组。不同组别的客户,意味着会有不同的行为特征。
第一个问题,哪些行为特征是我们需要关心的呢?
首先,产品需求结构;其次,需求趋势。
把握了这两点,我们就能够把握未来产品需求。
以产品需求结构特征为例,我们来看看如何进行聚类分析。
应用数据透视表,我们可以得到客户需求的分类汇总如下:
也就是说,我们得到了17家客户的产品需求结构特征。每个客户都拥有各自的一维数组(或者说一维向量),代表各自在过去两年的实际需求结构。我们需要把结构相似的客户归为同类。
第二个问题,如何定量评价相似性?
(知识点:聚类分析技术,计算相似度主要有以下几种方法:
1. (向量视角的)夹角余弦、
2. (概率视角的)杰卡德相似系数、
3. (统计视角的)相关系数 )
其中,相关系数是最适合于Excel计算、同时也最直观的一种计算方法。
首先,建立相关系数矩阵。
基于之前我们曾经分享的“数据处理技巧:几个有用的Excel函数”,使用INDEX和MATCH函数为相关系数CORREL函数提供输入,可以很容易地搭建计算公式,如下图
请注意,所用公式的"$"锁定技巧,对于后续的分析处理极为有用。后续需要持续调整矩阵的行、列,这个公式写法,可以确保调整过程中计算结果总是有效。
这里以颜色直观表现相关系数的高低:深绿色>0.9,绿色0.7~0.9,浅绿色0.5~0.7。
这个相关系数矩阵,也叫“协相关矩阵”,实际上就是每两个客户的产品需求结构之间的相关系数。行标题和列标题,就是客户编号。所以,矩阵对角线(左上-右下)上的相关系数均为1。
其次,聚类过程(1)——相关系数矩阵调整和初步分组。这是一个图上作业。我们的目标是将最多的绿色集中在对角线上,实现的方式,是调整行、列的顺序,也即不停地剪切、插入。实现了这一点,也就将高相关性的客户集中到了一起。
调整结果如下图:
请注意,在调整过程中,一定要保持行、列同步调整,也即行、列的客户顺序永远一致。
图中的方框,就是依据相似度的分组,每个框内的客户都是高度相似的。
由于目前得到的结果存在很多交叉相关(方框交叠),这个结果还不是聚类的最终结果。我们还需要解开这些交叉。
再次,聚类过程(2)——分组检验及合并。
将上图中各个方框内相应客户合并,一共得到七个分组G01~G07。然后计算这七个分组与所有客户的相关系数矩阵。结果如下图:
请注意:为了呈现方便,这里隐藏了客户列。实际上,这里的计算公式仍然如前图类似。
上图中可以很清晰地看到,G02、G03、G04之间,G05、G06、G07之间,所覆盖的客户群非常接近。
因此,我们可以尝试将其合并,G11包含所有G02、G03、G04的客户,G12包含所有G05、G06、G07的客户。计算合并后的三个分组(G01未受影响)与所有客户的相关系数矩阵,结果如下图:
请注意,视实际分组效果,这个过程有可能需要重复进行多次,如果合并分组效果不好,还需要退回重新尝试其它合并方案。
这个分组结果显然更清晰。由于这个结果中的G11、G12仍然存在着部分客户重叠,因此,我们还需要最后整理和检验一下。
最后,聚类过程(3)——最终分组及检验。
以相关性更高为标准,我们将所有客户都强制划分唯一组别,并计算新分组与所有客户的相关系数矩阵,以检验分组质量。如下图:
可见,所有客户都已经被唯一分组所很好覆盖。这就是我们可接受的产品需求结构分组的最终结果。
还有客户需求趋势特征需要分析,这是另一个聚类分析工作。
分析的对象,是各个客户的月度需求走势。分析过程同上。对所有客户的月度需求记录进行相关系数矩阵分析,然后调整矩阵、尝试分组并调整、检验。最终得到可接受的需求趋势分组。
具体过程不再重复,这里仅展示分析结果如下:
请注意,这一客户分组与前一分组并不一致,这是很正常的结果。
将两个特征综合,我们就得到了下面的客户分类矩阵:
每一个分组内的客户之间,产品需求结构和需求趋势都是相似的。
总共有5个有效分组。
第三个问题,聚类分析结果的实际意义是什么?
(知识点:聚类分析作为监督学习,其结果对于特征选择是比较敏感的。例如,产品结构层次(产品大类or细分类别)、主要产品类别(例如ABC中是否放弃C类)的取舍等,都会影响到聚类分析结果。)
有鉴于聚类分析的敏感性,我们必须讨论聚类分析结论的实际意义,这既可以避免我们误入歧途,同时也是理解现实的必需步骤。毕竟,我们的分析过程以及模型搭建,都是要用来与业务有效沟通的。
这一过程,我们留待下一篇深入讨论。这里仅展示未经讨论的初步结果,如下图。
请注意:
(1) 蓝色百分比数字,是该组别的业绩占比;
(2) 需求趋势上,CG_A和CG_B有明显不同的旺季;
(3)需求结构上,各组别的产品侧重完全不同。请格外留意PG_B的纵轴高度是另外两个的三倍。
对于有限客户/行业的案例2,通过聚类分析,可以注意到案例中包含有5组不同客户,每组客户都有着不同的产品需求结构和需求趋势。
这种结构性的差异,对于我们理解和把握需求是重要的。基于客户的合理分组,我们就有希望避免同步性差异所带来的预测偏差。
(本篇完)
下一篇我们将继续从现实方向讨论案例2。
所有数据挖掘结论,都需要探讨其现实意义,并且以此作为其价值的判断依据。这将是我们下一篇的重点。
下周日再见~~
Tracy:绿色不是成本!
6703 阅读靠供应链暴赚、大建冷链物流,年营收77亿的奶茶品牌冲刺IPO
3219 阅读跃点物流科技获350万美元A+轮融资
2890 阅读顺丰、鲜生活、京东物流、万纬物流、普冷、菜鸟…谁家冷链能在2025实现新突破?
1906 阅读京东物流发布全球织网计划2.0路线图:全面构建海外仓配“2-3日达”时效圈
1581 阅读物流新央企成立!中国数联物流信息有限公司
1181 阅读中力股份上交所主板上市,电动叉车市场迎新机遇
1139 阅读顺丰、圆通、韵达、申通发布最新业绩
1020 阅读顺丰实现全货机国内航班首次可持续航空燃料商业飞行
954 阅读科技助力轮胎制造业转型,菜鸟与华勤集团通力轮胎自动化仓储升级项目正式启动
990 阅读