导 航
查看: 33576|回复: 40

[综合数据] 百度人口迁徙大数据:北京、上海、广州、重庆、武汉、西安六大中心

[复制链接]
发表于 2018-1-13 09:45:20 | 显示全部楼层 |阅读模式
中国地级以上城市人口流动网络研究——基于百度迁徙大数据的分析

如今,“大数据”已经渗透到全球范围内社会经济的各个领域,带有地理位置信息的大数据,为人口地理学研究的发展提供了新的方法与手段。百度迁徙数据是通过对比用户位置的变化,将8小时内所有位置发生变化的智能终端用户数量进行计算分析,可以全覆盖铁路、公路、航空等各类交通工具。本文数据采集于2015年9月14~21日,通过“百度迁徙”网页,依次统计中国334个城市的前10位流入和流出城市的排序。由于“百度迁徙”中列出的是相对权重比例数,如由A城市流入B城市的人数占流入B城市总人数的百分比,是个相对重要性系数,因此需要采用权重赋值法对数据进行标准化处理,将前10位流入或流出城市按照排序依次赋上数值10到1,用以表示人口流动加权网络中某城市的前10位流入或流出城市的得分系数。以纵坐标的城市作为流出城市,横坐标为流入城市,输入前10位的关系数据,构建334个城市间人口流动网络的邻接关系矩阵表,最终得到一个334×334的有向多值网络矩阵。本研究采用复杂网络分析方法,构建中国334个城市和地区(含331个地级及以上城市和香港、澳门、台湾地区)间人口流动网络,测度并分析该网络的复杂性结构特征,为今后的人口流动与城市网络研究提供了一种新思路。

一、 地级市人口流动网络的空间格局与层级划分(一) 行政等级越高的城市在人口流动网络中地位越高,影响范围越广;入度与出度分布呈现出相似的集聚性,整体上大部分城市的人口流入和流出保持着相对平衡

本文主要通过复杂网络分析工具Gephi,计算中国334个地级及以上城市的人口流动网络度值,发现各地级市之间的网络地位差异较大。另外,城市行政级别的高低与网络度值存在一定的相关性。4个直辖市(北京、上海、重庆和天津)的网络总度值及排序高于副省级城市与普通省会城市,大部分副省级城市高于普通省会城市,大部分省会城市高于其他地级市。从总度值的平均值上来看,直辖市为2 476,约为副省级城市(620)的4倍,是普通省会城市(231)的11倍,网络地位优势比较明显。

整个人口流动网络中,网络地位最高的城市是北京,入度值为1 967,出度值为2 034、总度值超过4 000。网络地位最低的为临沧、大兴安岭、海北州、克拉玛依等32个总度值为0的城市,可以看出这些城市有着共同的特征:城市规模小且均位于边疆地区,人口的流入流出相对较少。在对人口流入的吸引力(入度)上看,排名前30位的城市包括4个直辖市、15个副省级城市、7个省会城市和4个其他地级市(苏州、桂林、三亚、香港),入度值均在90以上。而人口流出前30位的城市,依然包括4个直辖市、15个副省级城市、8个省会城市和3个其他地级市(苏州、邯郸和徐州),出度值均在100以上,说明在对人口流入的吸引力与人口流出的辐射能力来看,行政等级高的城市都处于明显的优势地位。

从城市的入度与出度空间分布看,人口流动呈现出相似的集聚性:网络地位较高的城市均主要集中分布在京津冀、长三角、珠三角、渝蓉与长江中游等国家级城市群内,另外还零散地分布在中西部地区的省会城市,如西安、郑州、兰州等。虽然城市节点在入度与出度的网络空间格局大致保持较高程度的相似性,但少数节点仍存在较大的差异,如乌鲁木齐、三亚、桂林、青岛等城市入度值明显大于出度值。从整个空间分布图来看,入度分布更加倾向于在长三角地区集聚,而出度分布倾向于在京津冀地区集聚。这表明长三角地区对于人口具有强大的吸引力,而京津冀城市群则表现出更强的人口辐射能力。

通过对照网络中334个节点的入度与出度,发现两组数据排序的相对一致性。经SPSS相关性检验,Pearson相关系数高达0.983,sig值小于0.05,可以看出节点的入度与出度呈现出显著的正相关关系。通过统计,有279个城市节点的入度与出度之差的绝对值小于等于30,占总数的83.53%。这在一定程度上表明城市节点的入度与出度的相对平衡,也可以说人口在城市间可以自由流动,大多数城市不存在单向的阻碍流动的约束力。当然也存在部分节点入度与出度存在较大的差值。如图2所示,典型的入度盈余(入度-出度)较大的节点有成都、杭州、昆明、厦门、三亚、青岛、桂林、香港、澳门等大型城市,在中小城市中也有黄山、酒泉、上饶、北海、张家界等。不难看出,这些均为典型的旅游城市,在人口流入的吸引力上有着较大的优势。出度盈余的节点有深圳、武汉、郑州、南昌和太原等,多为区域核心节点(省会城市),在人口流动网络中主要起辐射控制作用。还有部分节点处于一种入度与出度的“相对平衡”状态,如北京、上海、重庆、西安等,这些节点的总度值恰好处于整个网络中第一序列之中。这些城市人数众多,流动频繁,人口的流入和流出处于“高水平”的均衡状态。另外一些小城市(如宜昌、威海、常德、安顺、三明、衢州等)入度与出度值几乎相等且均小于30,表明人口流动处于低水平的均衡状态。
回复

使用道具 举报

 楼主| 发表于 2018-1-13 09:46:34 | 显示全部楼层
(二) 东部沿海三大城市群仍是人口流动的热点区域,但西部地区中心城市网络地位大幅提升,交通与地理区位也是人口流动网络的主要影响因素

根据所有城市节点的总度值进行排序,发现城市间人口流动网络显现出明显的等级层次性。为了增强同级间的同质性和各层级间的差异性,本文采用自然裂点分级法将334个节点分为5个层级。从城市节点分级统计可以发现,第一序列中(全国性网络副中心以上)西部城市占有较大的比例,如重庆、西安、成都等;部分边缘城市在网络中处于较高的地位,如昆明、长春、哈尔滨、兰州等位列区域网络中心。这些都说明对西部及偏远地区而言,省会城市或区域核心城市是人口流动的第一目的地,其次才是北上广深等一线城市。这也印证了人口迁移的一般规律,尤其农村人口首先向区域内的中心城市(省会城市)集聚,然后再向更高级别的核心城市迁移,对于中西部及偏远地区人口净流出省份的单核心城市而言,这种吸纳能力往往显得更强。另外,赣州、邯郸和南阳等经济条件并不突出的城市,凭借着庞大的人口基数和优越的交通区位条件而在网络中占有较高的地位。这些都与传统的人口迁移研究结论并不完全一致,其中的一个主要原因在于,传统意义上的人口迁移主要影响因素为迁出地与迁入地的经济推拉力影响,而即时性的人口日常流动由于受到空间距离的限制和出行方式的影响,人们更倾向于向邻近大城市和交通枢纽流动,这就造成拥有广阔腹地的西部地区核心城市重庆、成都和西安在网络中占有重要地位,而偏远地区的省会城市和一些中小城市凭借优越的交通区位条件成为区域内的人口集散中心。这在一定程度上也反映出基于人口流动的城市网络体系并不完全遵循已有的基于经济规模的城市等级体系,城市在人口流动网络的地位高低和作用大小不仅取决于经济与人口规模,也受地理区位和交通条件等因素的共同影响。
回复

使用道具 举报

 楼主| 发表于 2018-1-13 09:48:51 | 显示全部楼层
二、 人口流动网络流向分布的空间格局与核心城市的流场分布
(一) 地级市人口流动网络流向分布上形成“东南密集,西北稀疏”的态势,并呈现“两大四小”多中心网络空间格局

借助ArcGIS中的网络分析工具,提取334个节点城市间边权值(两个城市之间人口流动的得分系数)大于0 的联系流。依据前文的节点总联系分级,将边权值分为“高、中、低”3个层级,以便进一步分析中国城市人口流动网络联系的空间格局。

中国城市人口流动向东部沿海城市群和少数大城市集中的态势依然维持,流向分布上呈现明显的“东南密集,西北稀疏”的态势。由此可见,“胡焕庸线”不仅反映了两端人口空间分布的相对稳定性,也反映了城市间的人口日常流动的空间格局。虽然西部地区的人口流动日趋活跃,但东部地区作为主要人口集散地的局面未发生根本改变,大部分西部地区和偏远地区的城市的首位联结城市均位于东南沿海。这也揭示了经济吸引力在人口流动中的核心作用。此外,综合考虑城市节点层级分布与城市间网络联系强度,发现城市人口流动呈现“两大四小”多中心网络空间格局,尤其是在高值联系流上更为明显。具体来讲,“两大”指北京和上海,“四小”指重庆、西安、广州和武汉,分别为京津冀、长三角、渝蓉、关中、珠三角和长江中游城市群的龙头城市。这六大节点的网络联系覆盖了全部334个城市,可以说6个中心节点在整个网络中处于绝对主导地位,是全国范围内主要的人口流动集散中心。

为了进一步体现“两大四小”核心节点在人口流动网络中的重要地位,通过提取这6个核心城市的网络联系边,分析它们各自联系覆盖的区域范围与强度。由于人口流动网络是个典型的有向网络,因此,本文将网络联系分为入度网络与出度网络两种,以便对比讨论分析。通过对比观察,发现六大核心城市在人口流动分布具有以下特征。1. 各中心节点均有明确的辐射范围界限,等级越高的节点城市,辐射范围越大。2. 对照流入来源分布和流出去向分布(高值联系8~10),发现各中心节点在人口流向分布上并非是均衡的,而是呈现明显的空间分异性。3. 通过统计六大中心节点人口流动联结城市数目来看,如河南、山东、四川、广东、江苏、河北、湖南、安徽和湖北前10位人口大省是中国人口流动的主要流出地。

三、 地级市人口流动网络的复杂性分析

(一) 地级市人口流动网络的入度与出度累计概率分布均呈现明显的幂律分布,体现出“二八定律”,符合无标度网络特性,反映出人口流动空间分布的非均衡性(二)整个网络表现出较高的易达性和运行效率,并呈现典型的小世界网络特征,表明人口可以在城市间自由有序流动

利用复杂网络分析工具pajek,对整个网络的平均路径长度和聚类系数进行计算,以考察该网络结构的可达性和集聚性。计算结果显示,整个城市网络的平均路径长度为1.995,在全部可能存在联系的111 222条连接路径中,不需中介就直接产生联系(长度为1)的最短路径有6 388条,占5.74%;长度为2(只需要通过1次中介就可连接)的最短路径有98 978条,占88.99%,因此,累计有近95%的节点之间最多只需要一次中转就可产生联系。整个网络表现出较高的易达性和运行效率。

聚类系数反映的是网络中节点的互联水平,即与某节点相连接的两个节点是否也存在连接关系。结果显示,整个城市网络的平均聚类系数为0.341,表现出较强的集聚性。通过分析网络中每个节点的聚类系数,发现聚类系数最大值(C=1)的节点的度数均低于10,而高度值节点如北京、上海、重庆、西安、广州和武汉,聚类系数均小于0.1。这表明在网络中低度节点主要倾向于与高度节点连接,从而导致产生较高的聚类系数。

本文通过构建一个334个节点的随机网络来对比分析,结果显示,随机网络的平均路径长度为2.05,略大于实际网络,而聚类系数为0.118,远低于实际网络,这也表明实际的城市网络呈现出典型的“小世界网络”特征。这种网络的无标度性与小世界特征说明网络具有较高的连通性和可达性。同时也表明,随着中国城市化进程的加速,交通设施的不断完善,引导着人口在城市间自由有序地流动。

回复

使用道具 举报

发表于 2018-1-13 11:26:45 | 显示全部楼层
虽然看不大懂,但觉得有人的地方就有江湖还是条真理
回复

使用道具 举报

发表于 2018-1-14 16:37:42 | 显示全部楼层
花果园的山歌 发表于 2018-1-13 11:26
虽然看不大懂,但觉得有人的地方就有江湖还是条真理

回复

使用道具 举报

发表于 2018-1-15 13:33:32 来自手机 | 显示全部楼层
结论和表格呢?文字表述不易懂
回复

使用道具 举报

发表于 2018-1-17 10:44:44 | 显示全部楼层
西安不大可能前几名,郑州、成都有可能
回复

使用道具 举报

发表于 2018-1-30 20:45:18 | 显示全部楼层
hcqgcg 发表于 2018-1-17 10:44
**** 作者被禁止或删除 内容自动屏蔽 ****

西安为什么进不了前几名?      
回复

使用道具 举报

发表于 2018-2-13 14:58:04 | 显示全部楼层
不错         
回复

使用道具 举报

发表于 2018-2-18 16:33:24 | 显示全部楼层
inter2015 发表于 2018-1-30 20:45
西安为什么进不了前几名?

这个数据可以了解一些直观信息

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复

使用道具 举报

发表于 2018-3-3 09:13:25 | 显示全部楼层
一壶好酒 发表于 2018-2-18 16:33
这个数据可以了解一些直观信息

这数据出自统计局?
回复

使用道具 举报

发表于 2018-3-13 12:17:18 | 显示全部楼层
学习一下   
回复

使用道具 举报

发表于 2018-3-14 19:46:00 | 显示全部楼层
“两大”指北京和上海,“四小”指重庆、西安、广州和武汉,分别为京津冀、长三角、渝蓉、关中、珠三角和长江中游城市群的龙头城市
回复

使用道具 举报

发表于 2018-3-16 22:41:27 | 显示全部楼层
除了 两个三角+北京,国内就没有什么整片区为人口持续规模化流入的地区了吧?
回复

使用道具 举报

发表于 2018-3-17 22:22:04 | 显示全部楼层
sxxrs 发表于 2018-3-16 22:41
除了 两个三角+北京,国内就没有什么整片区为人口持续规模化流入的地区了吧?

以郑州为中心的中原片区还可以吧?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|

GMT+8, 2024-5-18 01:40 , Processed in 0.076881 second(s), 3 queries , Redis On.

Powered by Discuz! X3.4 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表