账号密码登录
验证码登录
微信登录

忘记密码注册新用户

账号申诉

忘记密码注册新用户

账号申诉

登陆成功

积分

首页

跨境电商如何使用线性回归模型预测运输费？有哪三个需要注意的关键点？

来源：弘毅供应链作者：卓弘毅 2022-03-21 2316阅读

[罗戈导读]线性回归在供应链中有许多的应用场景，比如说是预测运输费用。

我们经常会听到“建模”这个词，供应链中会涉及到许多的模型应用，比如预测，库存之类，这些都可以通过建立数学模型，经过分析后告诉我们：

发生了什么？（库存为什么这么多？）

将来会怎么样？（库存什么时候会降下去？）

我们该怎么办？（以后该如何合理下订单？）

这些都是基本的供应链模型。今天我来介绍线性回归模型，它可以用来预测未来，是预测性模型。我会用预测运输费用的场景，为大家介绍这个模型。

一、啥是线性回归模型？

线性回归是高中时候学的，知识早就还给老师了，好在原理并不复杂。我能整明白，相信大家也可以，所以请坚持看完本文。

线性回归在供应链中有许多的应用场景，比如说是预测运输费用。假设一家跨境电商K公司打算开拓一个新的海外市场，把货物从中国运到法国销售，每次都是用拼柜LCL出口，想要了解海运成本大概是多少。

由于是新的市场，K公司没有运费的历史数据供参考，好在K公司已在德国设立仓库运营了，所以有一些运费的数据。由于K公司的货物都是体积大但是重量轻的货物，需要根据货物立方数算运费。

运费是从中国工厂提货，到送至海外仓库的全部费用，其中包括了内陆卡车、海上集装箱运输、码头操作和进出口手续费等。

法国距离德国很近，因此K公司可以使用现有的数据来预测新市场的运输成本。此时，我们就可以使用线性回归模型来预测运费了。

先来讲讲什么是回归，它的全名是Regression towards the mean，也就是向平均数回归。

这又是什么概念呢？如果我们把K公司现有的出口德国的50条海运数据拿出来，横轴是货物的立方数，纵轴是对应的运输费用，用散点图来表示出来，看到的就是下图的效果。

p202203/21/70Ai9RAqi8.png

看着这张图，直觉告诉我们，似乎有一条直线，可以穿过所有的点。回归就是通过这堆点，来找一条尽可能地在所有点中间的线的过程。

p202203/21/eMbQ384r5r.png

这条红色的直线就是我们要寻找的目标，然后根据它来预测未来运输到法国的运费。线性回归就是根据已知，预测未知的模型。

我们看到实际发生的运费分布在红线的上下，造成差异的原因可能是运费波动，或是因为货物较重，也有其他的可能性，我们不必纠结细节，只需要关注这条红线的整体趋势，这样就能更快捷地预测出未来的运费情况了。

散乱的点不能体现出趋势，而回归的线可以预测未来。回归就是通过一堆看不出具体关系的点，来找一条尽量出现在所有点中间的线，进而让整体关系更加清晰可见，为我们提供洞察。

解释过了回归，再来说一下线性，这个概念是初中时就学过的，就更加简单了，相信大家应该还有印象。

举个例子，出租车计费由两部分组成，首先是固定的起步价，比如16元，哪怕你打车只是去前面200米的地方买份早餐，司机也收你16元，这是最低收费Minimum charge。其次是每公里车费，比如每公里收费2元，距离越远，收费越高。出租车计费的公式就是：车费=2元×公里数+16元

这就是一个经典的线性函数公式：Y=A×X+B

当X为零时，Y的值是16，这就是最低收费的起步价16元了。“线性”是那条直线，找到那条直线的过程就是“线性回归”。

现在我们理解了，所谓线性回归，就是在一堆散点中找出一条含有趋势性的直线，然后根据这种趋势预测未来情况。

二、如何使用线性回归模型？

1.统计分析

搞清楚概念后，我们就要开始找出运输费用中的这条直线了。在K公司的案例中，现有的数据只有2组，分别是每票海运的货物立方数和每票货物的运费，其中包括门到门的运费、港口操作费和进出口费用等。

这两组数值就是函数中的参数，我们要使用它们来找到直线，求解线性函数中的A和B的值。

A是一个系数，在它的影响下，运费会随着货量增加而上涨，这很容易理解，运输的货量越大，收费就越高，成正比关系。

A在线性函数中的名字是斜率，意思是每增加一个单位的货量，会增加多少的运费。

B也是一个系数，就像是前文中的出租车起步价一样，运费里也有最低收费，包括了海上和内陆运输的起步价，另外还有进出口和港口操作的固定收费。

B在线性函数中的名字是截距，也就是当X为零时Y的数值。在现实情况中，出货量不可能为零，X一定是大于零的数。

货物立方数叫做自变量，就是X。运输费用是随着货量而变动的，所以叫做因变量，也就是Y。

整个的公式就等于：海运拼箱运输费用=A×货物立方数+B

只要求出了A和B这两个系数的值，就可以把任何的X值——货物立方数代入公式，算出运输费用了。

K公司运输的汇总统计数据如下表。

p202203/21/KJJV4Zhxga.png

2.相关性分析

除了常规的统计外，我增加了一项，就是最后一行的相关性Correlation分析。运输费用和货量是两个变量，它们之间可能存在着一定的相关性。

根据我们的常识，运输的货量越大，运费也就越高，它们之间应该是正相关性，也就是运费随着货量的增加而增加。为了证明这点，我们需要使用相关性分析来验证一下。

在Excel中，使用公式=CORREL(数组，数组)就可以求得解。相关性的结果是在-1和+1之间。

当相关性为-1时，数组之间是负相关，X的值越高，Y的值越低。比方说天气越热，羽绒服越是卖不出去。

当相关性为0时，数组之间没半毛钱关系。就像是谁是中国首富和我没一丁点儿关系，因为我成不了中国首富，你们爱谁谁。

当相关性为+1，数组就是正相关性，也就是我们运费案例中的情况了。

CORREL(海运拼箱运输费用，海运拼箱运输费用)为1，因为是同一个数组之间分析，结果自然是1。

CORREL(海运拼箱运输费用，货物立方数)是0.81，比较趋向于1了，这个结果告诉我们，两组数据之间的相关性很强，值得进一步分析，来计算出A和B的值。

3.求解过程

求解过程略有点复杂，如果要解释清楚，估计还要花上不少篇幅，所以我就先一笔带过。强大的Excel可以帮我们很快地计算出结果，具体的方法是在“Data—Data analysis”中选择“Regression”回归即可。

p202203/21/mFTGq8JuDT.png

如果还没有安装Data analysis模块的朋友，可以在网上搜索一下安装的方法，在此就不做介绍了。如果无法安装，可能是Excel版本的问题，需要进行升级。

p202203/21/thrvap8BKf.png

求解过程很简单，如上图所示，只需要在“Input Y Range”中，把Y值的数组，也就是运输费用选中，然后在“Input X Range”中，把X值的货物立方数选中，点击“OK”就可以迅速地算出结果。

4.评估模型

在Excel的帮助下，我们可以很轻松地获得模型，但最重要的工作随之而来，就是要评估和验证模型。我们想要确保这个模型是合理的，而且在统计学上是有效的。

根据K公司的50组数据，可以得出这样的结果，里面的信息量较多，由于篇幅有限，本文只解释其中最重要的几个输出Output。

p202203/21/U9vdmZZVyi.png

(1) 模型的拟合程度

首先，我们要评估模型的拟合程度，它是回归直线与实际情况的匹配度，也被称为决定系数。在输出结果中，我们重点要关注“调整的R平方（Adjusted R Square）”的值。

R平方可以理解为模型能够解释实际情况的百分比。由于要去除自变量个数对R平方的影响，所以叫做调整的R平方，这个数值在0到1之间，数值越大，说明模型的拟合程度越好，越是能够说明问题；如果数值为零，这个模型啥也不是。

在上图中，调整的R平方是65%，说明拟合程度还不错，可以解释65%发生的情况，值得我们进一步分析下去。

(2)A、B系数

看过了整体的拟合程度后，我们要看看单个的系数情况怎么样。在本案例中只有两个系数，是很简单的场景，但在现实情况中肯定会大于这个数量。

还是以出租车为例，计费中有一项是时长费，这是根据行驶时间收费的项目，另外还可能有额外的司机奖励费，比如在春节期间每单要加6元。

为了便于说明，在这里我使用最少的变量进行分析。根据求解结果，我们可以把A和B的值代入公式：

海运拼箱运输费用=

156.41×货物立方数+664.52

p202203/21/jzHKC068uX.png

假设货物立方数为零时（实际上不可能），运费是664.52，这就是截距。当货物是4个立方，运费就是1290.18。就这样，我们找到了那条直线，只要输入3至15之间的任何一个数，就能够得出运费。

(3) 验证系数

我们还需要对系数进行验证，看看它们是否有效且合理，这里主要是看P值，它是用来判定假设检验结果的一个参数，P值越小，比如小于0.01，说明系数越是不可能为零。

系数如果是零，说明该系数是无意义的。截距的P值是0.000093，已经足够小了，说明这个系数是可用的，而斜率的P值更小，那就更好了。

(4) 上下限的值

最后是A、B系数上下限的值，这里使用的是模型默认的95%的置信区间情况下的值。

货物立方数系数的下限是123.32，上限是189.51，截距的下限是351.39，上限是977.66。在95%的置信区间里，系数的上下限就在这个范围内。

这里需要注意的是上下限值不能小于零，否则系数就没意义了。如果系数A是负的，那意味着运输的货量越高，运费反而更低，这是不合理，也是不可能的。因为两个系数的P值都是小于0.01，所以也不会出现上述的情况。

至此，我把这个简单的线性回归模型介绍完毕，本来想着尽量简化内容，但实际看来，里面包含的知识点是很多的，一篇短文恐怕难以讲清楚所有的内容。若有解释不清楚的地方，还请多见谅。

三、建模时的关键点

从模型构建和使用的角度，我们需要重点关注这几个方面。

1.选择模型的自变量

在建模之前，我们可能会有多个自变量X，此时就要想一想，该使用哪些？

我在本文中用了一个最简单的场景，所以只有1个自变量。在实际情况中我们会遇到多个自变量的情况，如果距离、重量等等，需要根据经验来判断、选择合适的自变量。

决定以后，我们要收集自变量的数据，但有些数据可能是缺失的，因此现实情况会更复杂一些，要做好心理准备。选择自变量是建模过程中最难的环节，需要我们对问题有充分的认知。

2.简单就是最好的

根据经验，在模型中尽量少用一些自变量，只要能解释问题就可以了，自变量越多，模型就越复杂。虽然调整的R平方会很高，却是人为“调”出来的，距离现实情况反而更远了。模型最终要在现实中验证，过度拟合可能会偏离实际情况。

3.模型验证

由于Excel可以快速运行分析，计算过程已成为最容易的一步。这导致我们可能想要尽快看到模型结果，忽视了前期思考和选择的过程。

因此，验证模型就更加重要了。调整的R平方、P值和置信区间的上下限，这三个是最重要的点，我们需要用常识和经验去判断它们是否合理。

总结一下，线性回归模型是供应链经常会使用的工具，听起来很高大上，但是原理并不复杂，使用Excel就能搭建模型。掌握基本的建模技能，可以帮助我们提高逻辑思考和数据分析能力，增加职场竞争力。

弘毅供应链

运输数据公司运费分析

免责声明：罗戈网对转载、分享、陈述、观点、图片、视频保持中立，目的仅在于传递更多信息，版权归原作者。如无意中侵犯了您的版权，请第一时间联系，核实后，我们将立即更正或删除有关内容，谢谢！

上一篇：陈磊接棒拼多多一年：营收放缓、“信任”危机与重农投入

下一篇：2022全球250大零售商排行榜，中国企业首进十强

罗戈订阅

周报、半月报、免费月报

1元 2元 5元 10元

支付宝付款

感谢您的打赏

中通快运招聘高级税务专员、结算专员、平台项目运营、客服专员、政府事务专员、省区财务经理

2024-12-02

顺丰净利领跑、中通份额被抢、申通“争三”，快递巨头有哪些新动作？

2024-12-02

美团社招运输主管、运营经理、冻品自营采购、服务站城市运营、城市仓配运营等

2024-12-02

2024年10月高速公路货物运输情况分析

2024-12-02

饿了么｜这些社招热门岗位，机会很大！

2024-12-02

政策协同发力，物流运行稳健向好——2024年1-10月物流运行分析

2024-11-29

活动/直播更多

12.7广州；12.21上海【线下公开课】仓储精细化管理：从混乱到有序

时间：2024-12-07 ~ 2024-12-08
主办方：冯银川
协办方：罗戈网

￥:2580.0元起

立即报名

报告更多

2024年10月物流行业月报-个人版

作者：罗戈研究

罗戈研究罗戈月报

￥:9.9元

立即购买

登陆成功

跨境电商如何使用线性回归模型预测运输费？有哪三个需要注意的关键点？

一、啥是线性回归模型？

二、如何使用线性回归模型？

三、建模时的关键点

相关文章

12.7广州；12.21上海【线下公开课】仓储精细化管理：从混乱到有序

￥:2580.0元起

2024年10月物流行业月报-个人版

￥:9.9元

会员滚动消息

热门资讯更多

登陆成功

跨境电商如何使用线性回归模型预测运输费？有哪三个需要注意的关键点？

一、啥是线性回归模型？

二、如何使用线性回归模型？

三、建模时的关键点

点赞成功

相关文章

12.7广州；12.21上海【线下公开课】仓储精细化管理：从混乱到有序

￥:2580.0元起

2024年10月物流行业月报-个人版

￥:9.9元

会员滚动消息

热门资讯 更多

热门资讯更多