1.1 数据之下的中国
本节内容主要涉及一个主题:如何脑洞大开地搜集和利用各种数据,以非常规的方式呈现出中国经济发展的三个截面。
数据之下的中国,是一个让你既熟悉又新鲜的中国。
1.1.1 2015年,中国人是怎么花钱的
在一波接一波的寒潮侵袭之后,期盼已久的春节假期终于到了。
同事同学们纷纷放假回家,连亲爱的学姐也不在上海,只留我一个人凄冷地坐在工作台前,独自迎接假期前最难熬的几天。
一个人的时候,总是会想很多。
是的。回首即将逝去的羊年,我感慨万千。虽然不出意外地又(为什么要加一个又字呢)穷困潦倒地度过了漫长的一年,但幸运的是在这期间认识了不少天南海北的朋友。
因此,虽然还在孤独地加班,但我仍然心系着祖国人民,安静地准备完成春节前的最后一项数据工作:
年度全国消费数据总盘点。
好吧,问题来了——
Q1:2015年,全国人民到底花了多少钱?
2015年全球范围内可使用银联卡商户共3390万家,ATM共200万台,境外共发行银联卡5200万张。
根据刷卡交易统计,2015年全年,全国人民的刷卡交易总金额达到53.9万亿元。
53.9万亿元,是个什么概念呢?
我们可以想象一下:如果把这53.9万亿元全换成100元的人民币钞票,并将其一张一张紧挨着排列起来的话,这些钱大概可以绕地球赤道2100圈;从地球排到太阳的话,可以走一半多一点的路程。
假如这还想象不出来的话,我们可以换个角度来看:
根据国家统计局的数据,2015年,全国GDP总额约为67.7万亿元。也就是说,仅是刷卡消费,全国人民就刷掉了年度国内生产总值的79.6%。
亲爱的,你2015年创造了多少GDP?又刷掉了多少份额呢?
算好了吗?
好的话,我们不妨再来研究一下第二个问题,看看你的消费和全国总体水平相比如何呢?问题来了。
Q2:这53.9万亿元,都是怎么花掉的呢?
首先,让我们来看看这些钱是在什么时间内被花掉的呢?
我们统计了境内日均刷卡的交易金额,并将其细分到每一个小时。2015年日均逐小时交易曲线见图1-1,银联卡交易类型占比见图1-2。
图1-1 日均逐小时交易曲线
图1-2 2015年银联卡交易类型占比
假如我们把2015年全年浓缩到一天来看的话,可以发现:14:00~15:00和8:00~9:00是全国人民刷卡的高峰时段,分别占全天交易总额的12%与8%。
亲爱的,你的卡是不是在这个时段内被刷爆的呢?
看完了交易时间,我们再来看一下交易的类型。我们将年度刷卡交易总金额分配到交易类型上,如下所述。
(1)从全国尺度上来看,最多的刷卡交易金额发生在批发行业,份额第一,大概可以购买16个阿里巴巴。
(2)份额第二的是金融行业,大概可以购买7个中国工商银行。
(3)份额第三的是零售行业(俗称买买买),大概可以购买5个沃尔玛。
也许你会觉得,这种全国宏观尺度上的消费特征,和个人没什么关系。那么,我们不妨从个人消费者的角度出发,看一下与市民生活关系最大的消费门类吧。
一般而言,各种消费类型中,与市民生活关系最大的应该是衣食住行金融教育六个大类。结果如何呢?
(1)排名第一:金融。毫无悬念。
(2)排名第二:住房。其交易总额大约是金融类的三分之一。
(3)排名第三:旅游。虽然交易总额排名第三,但也不过是住房类的零头而已。
(4)排名第四:衣(衣物类零售)。其总额大约是旅游的三分之一。
(5)排名第五:吃(餐饮)。交易总额与衣物类零售不相伯仲。
(6)排名最后:教育。其交易总额大约是餐饮的70%。没错,这个结果毫不意外、发人深省。
亲爱的,你的消费结构和全国人民相比,究竟怎样呢?
每个人的消费结构自然千奇百怪。
且不说个人,即使从省市的角度上去区分,也可以看到消费结构上的巨大差异。我们来看看:
Q3:全国各省的消费结构有什么样的偏好呢?
我们仍然将数据聚焦在衣物、餐饮、住房、旅游、金融和教育六个大类上。然后将各类消费金额占总消费金额的比例作为消费偏好的核心指标,分配到各省,可以得到以下结果。
(1)衣物类消费偏好前五名省市:云南、浙江、甘肃、山西、湖北。
想必云南四季如春,民族众多,姑娘们想怎么打扮就怎么打扮吧。见图1-3。
(2)餐饮类消费偏好前五名省市:海南、上海、西藏、宁夏、北京。
吃货集聚在上海、北京,这点毫不意外。但没想到海南、西藏、宁夏等边远地区的吃货能量同样惊人,见图1-4。
图1-3 各省衣物类消费占比
图1-4 各省餐饮类消费占比
(3)住房类消费偏好前五名省市:海南、四川、贵州、北京、安徽。
非常出乎意料的,前三名竟然不是以高房价著称的北上广哦!看来虽然北上广的绝对房价居高不下,但从真实的消费结构上,海南和四川的房价水平也不容小觑。相比北京排名第四,而上海甚至都没有挤进前五,见图1-5。
图1-5 各省住房类消费占比
(4)旅游类消费偏好前五名省市:西藏、海南、青海、新疆、云南。
从图1-6可以看到,西部的旅游消费偏好明显高于东部。而排名前五的省市,也都是以旅游胜地著称的地区。
(5)金融类消费偏好前五名省市:福建、重庆、广东、湖南、上海。
从图1-7可以看到,我国东南地区在金融类消费偏好中可谓一枝独秀,福建省拔得头筹。排名前五的省市中,上海市已经是最北方的地区了。
(6)教育类消费偏好前五名省市:陕西、四川、北京、海南、湖南。
从图1-8可以看到,陕西省、四川省在教育类消费上的偏好明显高于全国其他地区。我在想,这些地方的孩子们是不是从幼儿园就开始上补习班了?
说明一下:本书消费数据中没有统计到中国台湾地区的数据,所以地图上台湾地区的颜色与其他省市不同。
图1-6 各省旅游类消费占比
图1-7 各省金融类消费占比
图1-8 各省教育类消费占比
看完各省的比较,我们不妨再来聚焦北上广深四个一线城市的情况。
哪个城市最土豪呢?
从卡均消费金额的平均数来看,
深圳市人民卡均消费金额达到11.7万元,高居首位;广州市以7.6万元居第二位;而上海市以6.4万元的微弱优势战胜北京市的6.3万元,位居第三。
在感叹深圳市人民真土豪的同时,你是不是发现自己又拖后腿了?没关系,我们再来看看中位数,这次数字就变得和谐多了,见图1-9。
图1-9 2015年四大城市卡均消费金额(中位数)(单位:元)
深圳市人民卡均消费的中位数金额达到20000元,仍然居首,北京市、上海市以15000元并列第二,而广州市则以11000元收尾。
顺便说一句题外话:从刷卡消费特征上看,四个城市的市民最爱的餐饮品牌也截然不同。
(1)北京市民最爱海底捞,热气腾腾的火锅既热闹又抵御寒气。
(2)上海市民则最爱王品,上海市民依然很小资,对牛排情有独钟。
(3)广州市民最爱百胜(肯德基、必胜客的老东家),原来除了当地特色美食,肯德基、必胜客等西式快餐同样也受市民欢迎。
(4)深圳市民则最爱春满园,经典粤式老牌餐厅还是深深地征服了深圳人民的胃口,让其他外来饮食逊色不少。
以上,我们盘点了全国刷卡总交易、各类型及各省市交易的特征。接下来,我们聚焦进入一个更核心的问题:
Q4:2015年,都是哪些人在花钱呢?
我们以上海为参照吧。
我们选出了常住城市在上海、一年中刷卡交易笔数在20笔以上的银行卡50万张,作为研究的样本。并按照性别、年龄将持卡人分为6组,统计其在零售方面的消费特征。
结论来了:
男性花钱多、老人花钱多。
首先,我们不区分消费类别,计算出各个分组的刷卡交易总金额,得到图1-10。
从交易总金额来看,各个分组之间的差异并不太明显,但仍然可以看到:
(1)消费最多的是老年男性,其次是中年男性和青年男性;
(2)而在女性组中消费能力最强的中年女性,其消费份额也没能超过男性组中份额最小的青年男性。
这不科学啊!难道女性的花钱能力还不如男性?
我们再计算出每个组别的人均(取中位数,下同)刷卡交易金额,见图1-11。
没错,无论在哪个年龄组,男性的人均交易金额都比女性要高。
另外,可怕的是,随着年龄的增长,男性会花得越来越多!
图1-10 2015年交易金额的年龄性别分布
图1-11 各组持卡人年均交易金额(单位:元)
为什么会这样?
不着急,我们将每个组别按照消费类型再次抽取。然后比较一下各组零售消费(俗称买买买)占总交易金额的比例,就可以得到下面这张与总交易情况截然相反的图(见图1-12)。
从零售消费占总交易金额的比例来看,无论哪个年龄组,女性的比例都明显高于男性。而且无论男女,随着年龄的增大,这个比例都在显著地降低。
的确,就零售而言,女性才是主力。然而,虽然你会在商场里看到很多拎着大包小包的小姑娘,但请不要被这些假象所欺骗。
图1-12 各组持卡人年均零售交易额占总交易额的比例
逛商场买买买所花掉的,始终只是小钱而已。
真正能刷卡消费的,仍然是男人,而比男人还更能刷卡消费的,则是那些你在商场里看不到的老男人。
不要紧,是男人就总会老去,关键在于,未来又会怎样?
探讨未来的话,我们不妨加入一个隐藏在年龄和性别分组的迷雾之中,未加区分且表征未来的要素。
那就是:信用卡。
没错,让我们再来研究一下:
Q5:2015,你的钱是从信用卡上花出去的吗?
仍然使用上一组数据,但这次我们将其所持有的卡的类型分为信用卡和储蓄卡两种。在加入卡类型这个变量以后,持卡人自然地分为12组。
我们将以上分组按照卡类型分为两堆,可得到图1-13。
从年龄分布来看,储蓄卡用户中老年化程度更高,而信用卡用户更年轻化。
那么,交易金额呢?
我们再来分别比较各个组的年交易金额,可见图1-14。
从图1-14中可以看出以下内容。
(1)对女性而言,相同年龄段的信用卡用户要比储蓄卡用户花钱略多一些,这一差异在各个年龄组的分布是稳定的。
图1-13 不同类型卡用户性别年龄分布
图1-14 不同类型用户年均交易额(单位:元)
(2)而对男性而言,青年和中年组的信用卡和储蓄卡用户的消费差异并不明显,而老年男性的储蓄卡年均交易额则远高于信用卡(老男人的实力显现出来了)。
但是,如果我们聚焦零售,不同卡用户的消费情况差异将变得非常明晰,请看图1-15。
是的,结论非常清晰。
总体而言,在零售消费中,人们用信用卡刷出去的钱是储蓄卡的3倍。
假如区分性别进行观察的话,我们可以发现,男性在信用卡消费上的热情甚至超过女性:
图1-15 不同类型用户年均零售刷卡消费额(单位:元)
女性办了信用卡,与储蓄卡相比,一年在零售上要花2.7倍的钱;而男性在同样的行为上则达到了3.4倍!
因此,我们可以认为:
当你沉迷消费的时候,你既不用为自己是男性仍疯狂购物而感到羞愧,也不用为自己的年龄上涨仍狂热购买而感到忧虑。在购物这件事上,无论你是男性还是女性,年轻还是成熟,其实并无区别。而唯一能区别的,只是在于你是否有一张能支撑你刷刷刷的卡。
仅此而已。
当我准备关上计算机,结束本期盘点的时候,突然想到:以上盘点都是针对国内消费的。
然而,俗话说,有人的地方就有中国人。
我觉得有必要再看看:
Q6:中国人在海外都买了啥?
要想知道中国人在海外都买了啥,先要知道中国人都去了哪儿。
统计结果显示,从交易总金额来看,中国人最爱的海外消费地是中国香港、澳门、台湾地区,日本、韩国和泰国。
具体而言,境外交易中,53%发生在中国香港、澳门、台湾地区,15%发生在日本和韩国,欧洲仅占10%。
具体来看海外交易金额在全球的分布,见图1-16。
图1-16 2015年中国人海外交易金额分布
泰国作为中国人最爱海外消费地前10中的唯一发展中国家,除了美食美景以外,也跟各种影视作品频频在泰国取材有关吧。
那么,好不容易出一趟国,都买了什么呢?见图1-17。
图1-17 境外消费金额按大类分布
第一名:零售。意料之中。
第二名:汽车。OMG,真是让人大感意外呢!海外自驾、租车、购车潜力巨大呀。
然而,由于我买不起车,更买不起进口车,我决定还是重点关注一下零售。
海外零售,国人都买了什么?
以中国香港、澳门、台湾地区为例,我发现零售消费总金额最高的五大类商品为:金银珠宝、服装箱包、通信设备、家用电器、化妆品。
看来,抢奶粉的大陆人毕竟还是没有抢iPhone的多呀。
再看看境外其他地区的零售交易情况,与中国香港、澳门、台湾地区大致相同,但也有一些有趣的差异。
例如,在欧洲,办公用品高居中国人零售交易金额的第一位;在美国、加拿大,音像制品和书店排名相当靠前;而在日本、韩国和中国澳门、新加坡,糖果零食则非常受欢迎。
是不是工作狂、小清新和吃货在出国旅游的目的地选择上有所差异呢?
最后,我鼓起勇气,窥探了一个我从未涉足的领域:奢侈品。
啊,CHANEL、LV果然是非常受国人欢迎的呢。
虽然,跟我并没有什么关系。
盘点至此,算是大功告成了吧。
我关上计算机,从包里取出了自己心爱的信用卡,在灯下前后翻看。
它正面五颜六色的图案已被磨花,露出塑料本身的灰白,记录着岁月的沧桑,卡背面的签名已然模糊,连黑色的磁条上也若隐若现出清晰的浅色划痕。
我看着这张陪伴我刷遍上海各大商场的爱卡,似乎明白了“又”被自己度过的那一整年穷困潦倒的原因。
我轻轻地抚摩着这张卡,内心百感交集。
卡呀卡,虽然你的外表一如我的内心,然而世界那么大,我还是想带你去看看。
1.1.2 游遍全国,我们的假期够吗
十一长假到了,我收拾行李正准备回家。学姐忽然出现了。
她兴奋地说:“小团,我决定来一次说走就走的旅行。”
我鼓掌说:“学姐好棒!你要去哪呢?”
她说:“说走就走嘛,不能有特定的目的地,但为了不留下遗憾,我决定要游完全国所有的风景名胜、名山大川,一个不漏。你帮我算算要花几天时间?”
我为难地说:“学姐你这道题好复杂,可我现在要回家了,再晚一点就赶不上火车了。”
学姐真诚地说:“对啊,那你就快点算一下嘛,别误了火车啊。”
既然学姐这么“真诚”,我就勉为其难地在赶火车之前做一个简单的计算吧。
我国有哪些风景名胜和名山大川呢?
我们登录一下国家旅游局的网站,查询出中国所有的5A级景区,假设这些景区就是学姐口中的风景名胜和名山大川,那么把这些景区放到地图上,见图1-18。
图1-18 全国5A级景点分布
可以看到,5A级景区在中国大陆的31个省市自治区都有分布,而最密集的地方有三个:北京市及其附近、江浙沪包邮国以及西安—河南西北部的中原腹地。
学姐看着图说:“很好,那你快算算玩完一圈要多久呢?”
这个问题其实是数学中经典的旅行商问题。在本题的要求下,要想通过遍历所有可能的路线来找出最优解,即使用现在世界上最快的计算机也要好多亿年才能算出来。然而我还急着赶火车呢,所以只能采用近似算法——用什么近似算法呢?
老师说过:“什么都不懂就神经网络,什么都不会就遗传算法。”
所以我决定采用遗传算法。而用遗传算法求解的基本思路如下所述。
第一步:确定目标和约束条件。
根据学姐的要求,本题的目标是“找出总游览时间最少的路线”。
而约束条件是游遍所有景点且每个景点只去一次(我猜测学姐不愿意走回头路)。
同时,考虑到学姐虽然身体很好,但是游玩也不能太累,我们又增加了一个约束条件:每天花在景点间交通和景点游览的时间总和不能超过12个小时。
学姐,我给你留了12个小时用于吃饭睡觉上厕所及其他活动。
这样,第一步就算完成了。
第二步:计算出任意两个景点之间的代价,建立代价矩阵。
在学姐给我的题目中,代价就是时间。因此,这里我们只考虑交通时间和景点游览时间。
先来看交通时间:
由于学姐是突然决定出去旅游的,而国庆期间的机票火车票早已售罄,学姐可采用的交通方式只剩下自驾这一种(正好简化了我的计算)。
如何获取两个景点之间的自驾时间呢?这就要祭出一大神器——百度地图。通过调用百度地图API,我很快地把数据准备好了。
再来看景点游览时间:
我们不妨假设每个景点至少要玩半天;而某些大型的景点,如故宫、九寨沟、张家界等,至少要玩一天。
这样,代价矩阵也就建立好了,见图1-19。
图1-19 代价矩阵
是的,学姐我知道你其实根本就不想看这个矩阵,因此我把图片调低了精度,即使你点开也是看不清楚的。
第三步:随机生成若干旅游路线,并通过变异产生新的路线,经过数次迭代逼近最优解。
第三步是遗传算法的核心。我用Python写了一小段代码来实现。
通过以上三步,我们终于计算出了最优线路,见图1-20。
这个花花绿绿的路线是什么意思呢?
不同的颜色代表我们计算出的不同旅游区域。假如我们从北京出发的话,游览路线将依次经过“红橙黄绿青蓝紫”的区域。
也就是说,先玩北京及北京周边(红)——沿着山西甘肃青海一路向西玩到新疆西藏(红-橙)——云贵川大吃大玩(橙)——海南看海(黄)——两广两湖(黄-绿)——深入中原腹地(绿)——南下闽赣(青)——江浙沪皖(青-蓝)——山东和东三省(紫)——然后回到北京。
当然,游览方向也是可以改变的。北京出发也可以选择“紫蓝青绿黄橙红”路线,即先玩东三省,最后玩内蒙古、山西,再从西路回到北京。
那么,从其他城市出发,是不是也可以采用这条路线呢?
图1-20 游览线路1
当然可以。这是一条闭合的环线,无论从哪个点出发,绕一圈都会回到原点。比如,从上海出发的路线是“蓝紫红橙黄绿青”或“青绿黄橙红紫蓝”,广州出发的路线是“黄绿青蓝紫红橙”或“橙红紫蓝青绿黄”。
学姐,无论你何时想走,从何地出发,都可以遵循这条线路。
学姐十分开心,说:“太好了小团,一会把这张路线图打印给我。对了,游览完这条路线的话,大概几天呢?”
哦,让我算一下:
根据刚才设定的算法,自驾游遍全国201个5A级景区,至少需要1436个小时,然后按照“每天交通和游览时间不超过12个小时”的条件,可折合为120天,也就是4个月。
“学姐,一场说走就走、游遍全国风景名胜名山大川且毫无遗漏的旅行只要4个月。”
学姐却并没一丝一毫的激动,她冷静地说:“小团啊,虽说这个结果挺振奋人心的,但我怎么可能有连续4个月的时间出去玩呢?假如,我每次说走就走,都是在国庆和春节期间,每次也就7天,这样的话,要多少年才能玩完呢?”
学姐的深思熟虑非常现实。然而,要在算法中实现却比较难。
好吧,那让我们再算一下。
如果我们把“从中心城市出发——游览至少一个景点——回到中心城市”视为一次旅行,那么根据学姐的最新要求,本题的约束条件将变为:
由同一中心城市出发的多次旅行,每次旅行的时间不超过7天。
虽然遗传算法对解决这个问题依然适用,却是比较低效的。为了更快地逼近最优解,我需要借鉴梯度下降法写一段小程序,放在遗传算法之前。
现在的解题思路如下所述。
第一步:生成最低效路线。
假设每次旅行只去一个景点,也就是我们需要201次旅行。这样显然是非常低效的,但同时可以帮我们去掉一些在现行约束条件下无法到达的景点。
第二步:路线合并。
随机选择一个景点,合并入其他的路线里,将旅行次数减少为200次。通过遍历,找出总时间最少的合并方案。
第三步:初始路线生成。
依此类推,将所有可能被合并的路线都合并掉。若某个方案的总时间已达到7天,不能再放进新的景点。
第四步:遗传算法优化。
将初始路线放进刚才的遗传算法里优化,得到最终结果。
假设中心城市为北京,那么最优线路见图1-21。
我们悲伤地发现,无论如何安排,想要从北京出发,七天以内自驾玩完新疆西藏的11个景点是不可能的了(注意:我们不鼓励超速驾驶和夜间驾驶)。
那么,去掉这11个景点后,学姐需要花费多少个长假,才能游遍其他所有的景点呢?
从北京出发,自驾玩完除新疆西藏以外的190个5A级景点,假如仅限每年国庆和春节出游的话,最少需要3958小时,按“每天交通和游览时间不超过12个小时”,折合下来需要:23.5年。
图1-21 游览线路2
学姐,请你慢慢努力吧,23.5年之后请告诉我你旅行胜利的消息。
我转身就要出门赶火车,但学姐拉住了我:
“自古美人如名将,不许人间见白头。杨过都等到小龙女了,我却还没遍历过我的‘男朋友’(咦,学姐你不是要去景区吗)。小团,你再算一下,要是我坐飞机、动车呢?不差钱!”
我好像明白了什么。
但我马上就要误火车了,算了,就勉为其难地简单回答一下吧。
首先,我从网上找到了省会城市之间的航班和高铁信息,然后综合考虑自驾、飞机、高铁三种交通方式,算出了任意两个景点间的最小交通时间。
学姐说:“这样不够科学吧?为什么只找省会,很多地级市之间也有飞机呀。还有普通动车你也没考虑。”
我假装没听见。
简言之,修改一下预设条件,并采用跟之前相同的算法,我们得到了如下的结果,见图1-22。
图1-22 游览线路3
假如学姐综合采用自驾、飞机、高铁等交通方式,仅限每年国庆和春节出游,不计成本,游遍全国所有5A级景区,至少也需要2597个小时,按“每天交通和游览时间不超过12个小时”的条件的话,总花费时间折合为:15.5年。
算完这个数字,我来不及管学姐了,夺门而出,一路狂奔,抢到一辆出租车,赶到了火车站,前脚踩上火车,后脚车门关闭。我深吸了一口气,决定给学姐发一条消息:
“学姐,说走就走的旅行,其实并不适合你。”
短暂的任性带来的往往是持久的悔恨,旅行并不是忽发奇想,不要着急。人们说:旅行,是一辈子的事。
我觉得这句话很有道理。
不是因为旅行这件事值得花一生去做,而是因为你没有那么多的假期。
1.1.3 淘宝改变了哪些城市
话说周一早上,我第一个来到单位打卡。打开计算机,忽然发现本来整理干净的计算机桌面上竟然多了一个压缩文件。解压一看,大小竟达2.15G,吓了我一跳。咦,是哪位大神趁周末黑了我的计算机给我塞了那么大一个病毒呢?有如此仇怨么?2.15G的病毒?百思不得其解,我左右环顾一下,还没有同事来,于是以迅雷不及掩耳盗铃之势摁下了Ctrl+X,将其剪切到了我的私藏文件夹中。若无其事地开始工作了。
下班后同事陆续回家,我戴上耳机,调低屏幕亮度,打开了我的私藏文件夹,准备继续还未看完的韩剧。但一不小心却瞄到了放在文件夹角落里的那个诡异文件。好奇心忽然开始作祟,我决定奋不顾身地准备打开看看这个2.15G的病毒到底是何方神圣。双击。竟然打不开!什么鬼?居然还是JSON格式的文件。一怒之下用二十分钟写了个小程序,把这个文件丢了进去。我的破计算机开始疙疙瘩瘩地呻吟,而一个庞大的千万级数据文档露出本来的面目,以下这些文字内容,也都由此而来。
哦,对了,忘了说了,这个“病毒”的文件名是:“2014年12月淘宝全网商品数据”。
淘宝改变了哪些城市?
在大众的感知中,淘宝与城市是挂不上边的两个事物。城市是一个涉及空间属性的概念,而淘宝作为一种互联网经济模式,它有空间属性吗?
按照马云的理念,阿里巴巴(淘宝)是一个基于互联网的能够无差别支持商业梦想的伟大虚拟平台。就这个意义而言,淘宝是一种抹平了传统商业的地域属性且彻底颠覆了“产地-渠道-市场”的传统商品交换逻辑的商业模式。
换句话说,淘宝应当是一种去空间化的、相对扁平的、反集聚的商业模式。
那么现实如何呢?见图1-23。
图1-23 淘宝商品所在地区
从数据上看,毫无疑问,商品数量的分布并不扁平,反而是高度集聚在少数城市当中,我们将每个城市的淘宝在售商品数量和排名取对数制作出图1-24。
图1-24 各市淘宝在售商品数量和排名的关系
看到这张图,我们长舒一口气。原来每个城市的淘宝在售商品总数量和其排名,是基本符合齐夫法则的(Zipf's Law)。这也就意味着:
淘宝作为一个高度市场化的经营平台,它在空间上自然产生了某种程度的集聚。由于空间上的集聚,使淘宝对城市的影响并不是均衡的,而是对不同的城市有不同程度的影响。
在这样一个认识的前提下,问题来了:
淘宝在哪些城市或哪些区域聚集呢?
淘宝商品数量分布见图1-25。
图1-25 淘宝商品数量分布
图1-25是淘宝网在卖的商品数量在全国各个地级以上城市的分布。很明显,淘宝的商品数量高度集聚在东部沿海地区。为了观察其空间集聚的程度,我们再用核密度进行分析,得到图1-26。
从图中可以得出以下几个结论:
(1)淘宝商品分布的高密度地区仍在东部沿海地区;
(2)其中最强的两个区域仍然是“长三角包邮国”与珠三角省港深;
(3)北京虽然也较强,但却孤独地矗立在华北平原当中,骄傲地俯瞰着其南部的河北、山东等省的各个孤点。
图1-26 淘宝商品指数核密度
当然,商品总数量只是其中一个指标。事实上,我们还比较了店铺数量的聚集和商品种类的丰富度。但在全国尺度上来看,基本也呈现相同的态势。可以参看图1-27(上图是店铺数量分布,下图是商品种类数量分布),不再具体展开了。
事实上,这三个指标之间有着很强的相关性。我们按照城市在商品总量上的排名,取出了前50名(否则图太长看不清楚)。分别叠加了店铺数量和商品种类数量制作出图1-28。
如图1-28所示,总体而言每个城市的商品数量与店铺数量呈现出了高度统一的趋势。在这两个指标上面,排名前十的城市分别是:上海、广州、金华、北京、深圳、杭州、苏州、温州、佛山、台州。而每个城市的商品种类数曲线则略有一些局部的波动,但前十名梯队仍然不变,且呈现与商品和店铺数量统一的总体规律。
图1-27 淘宝店铺分布和商品种类分布
图1-28 各市若干淘宝指数比较(TOP50)
做完这张表,我弱弱地问:“金华排名第三?难道火腿真的那么受欢迎吗?”这时远处传来一个微弱的声音:“义乌,在金华。”
果然解释了一切。但第二个疑惑仍未得到解答:
到底菏泽究竟是有什么逆天的独门特产呢?
按下菏泽的问题先不表。我们起码得到了这样一个初步的结论。
在互联网时代,淘宝商品并没有扁平地分布在全国尺度的空间当中,而是保持了高度的集聚。其集聚的空间范围基本上是三个城市群:
(1)长三角;
(2)珠三角;
(3)北京。
虽然看到了淘宝在空间上的集聚状况,但淘宝商品和卖家的集聚程度并不一定意味着淘宝对城市的改变程度。对于这三个城市群而言,其经济和人口本来就高度集聚,淘宝的集聚也可能只是一种附属现象。因此,某城市的淘宝指数(商品量/卖家量/商品种类数)高,并不意味着淘宝对城市的改变(影响)程度大。在此我们还需要探讨另一个问题:
如何判断淘宝对城市的改变(影响)程度呢?
简单地说,假如我们认为淘宝指数的集聚在某种程度上是城市经济集聚的附属现象,那么我们需要做的是把城市自身的经济集聚特征剥离出去,然后再看淘宝指数的变化。也就是说,我们需要将各个城市的淘宝指数和其总体经济指数合在一起进行综合比较。
在这里,我们选择了城市的GDP作为被剥离的指标。我们从《中国城市年鉴2014》中整理了相关城市的GDP指标,然后将每个城市的“淘宝指数/GDP指数”作为淘宝影响指数,度量淘宝对城市改变程度的指标。在这个度量体系中,相同GDP的城市,淘宝指数越高,改变程度越大;相同淘宝指数的城市,GDP指数越小,改变程度越大。
我们利用每个城市的“淘宝指数/GDP指数”,制作出图1-29。
图1-29 淘宝影响指数分布
可以看到:这一指标密度最高的地区虽然仍在东部沿海,但和淘宝指数的空间分布图已经不完全一致了。我们把这两张图(上图是淘宝指数分布,下图是“淘宝指数/GDP指数”分布)放在一起比较。见图1-30。
通过淘宝指数和淘宝影响指数的比较可以看到,在剥离城市自身经济发展水平的因素后,淘宝对城市影响的真实状况如下:
图1-30 淘宝指数和淘宝影响指数
(1)淘宝对北京的影响作用大幅度地降低了,降到了与石家庄差不多的程度;
(2)淘宝对包邮地的影响作用仍然极强,但其影响的重心则向南大幅移动,从上海移至浙南地区;
(3)淘宝对珠三角的影响作用仍然极强。在保持了原有影响的同时,其高强度影响范围向东侧沿海大幅度地延伸,一直连接到了福建沿海地区。
总体而言,虽然淘宝指数在三大城市群均高度集聚,但事实上对这三大城市群的改变程度是截然不同的。那么,最后一个问题来了:
淘宝对哪些城市改变程度最大呢?
我们把全国地级以上城市再按照GDP排名(取了前50名),然后叠加了每个城市的淘宝指数,得到了图1-31(GDP是红线,淘宝指数是蓝线)。
图1-31 各市淘宝指数和GDP指数的比较(前50名)
从图1-31上,我们可以清晰地看到每个城市GDP指数和淘宝指数的关系:淘宝指数曲线偏离GDP曲线越高,淘宝对该城市的改变程度越大;越低,则反之。
于是,我们看到了那些淘宝指数远远高于GDP指数的城市:杭州、佛山、东莞、泉州、南通、温州、临沂、台州……
同时我们也看到了那些淘宝指数远远低于GDP的城市:大连、唐山、长春、大庆、鄂尔多斯、包头……
目测太不科学了。让我们用一个唤起悲惨童年回忆的方法来结束吧。请看下面这张成绩单(见图1-32)。
图1-32 排名变化前10名&后10名
(由于图表面积有限,我们只列出了从GDP排名到淘宝指数排名跃迁度最高的十名和GDP排名到淘宝指数排名下降度最多的十名。另外部分数据不全的城市和体量过小的城市没有列入计算之中。)
补充说明:
大家一定会有疑问,“为什么只使用淘宝商品和卖家数据?而忽略了买家和交易数据?”
对于这个疑问,我们有以下两个非常认真的解释。
原因一:在这个答案里,我们更多的是从城市产出(而非消费)角度来思考淘宝对城市的改变;同时用于对比和剥离的城市GDP也与城市产出(而非消费)的关联度更强。因此我们觉得用淘宝商品和卖家数量与城市经济指标进行对比,在逻辑上有着更强的说服力。
原因二:我们真的没有那个数据。