中国智能城市信息环境建设与大数据战略研究
上QQ阅读APP看书,第一时间看更新

六、智能城市大数据发展战略分析

(一)智能城市大数据是“百宝箱”和“手术刀”

与智能城市相关的大数据有哪些?经本课题组分析,主要有如下数据。

(1)政府数据,即政府各级各部门掌握的管理城市经济、民生(医疗、就业、教育等)、环境、土地等数据。这些政府部门采集与管理的数据目前主要服务于城市管理者对整个城市的管理和服务,这些数据是开展城市大数据服务的主要数据来源。

(2)网络数据,主要指自媒体数据,即社交网络、博客、微博等用户生成的数据,区别于日志数据等。这些数据是网民对城市生活、生产、城市管理等各类信息的反映,是网络舆情分析的最好来源。

(3)传感数据,主要是通过城市各类传感器系统(如摄像头等)获取的城市环境、城市交通等数据。这类数据具有形式多样、量大、流式、实时等特点。对这些数据的处理可形成反馈回路,为改进现有服务提供依据。

(4)行业数据,如金融数据、地理数据、交通数据、电力数据、物流数据、农业数据、新媒体数据、医疗数据、教育数据、食品数据、制造业数据、贸易数据、港口数据、电商数据等,是一类无比巨大的数据,其蕴含的商业机会、政府决策、企业战略、个人发展等价值巨大,是名副其实的“金矿”所在。

上述与智能城市相关的这些不同的数据,可能有时描述的是同一实体、事件,但角度不同。政府数据提供客观事实,网络数据提供主观民意。对同一个问题,不同的数据能提供互补信息,可对问题进行更深入的剖析。

涂子沛先生于2014年在《数据之巅》一书中对数据的价值有很好的描述:“数据就是静态的历史,历史就是动态的数据。历史的碎片,就是游离的数据;历史的迷雾,就是模糊的数据;历史的盲点,就是缺失的数据。用数据构建的历史,因为精确的细节而永远鲜活,数据越丰富,后世的历史学家也就越能经由数据更好地再现当时的社会。”

城市大数据一方面映射城市方方面面的鲜活的历史和现实,同样也能够预演城市发展的未来。大数据运用将推进人类认识城市的发展规律。大数据将极大地延伸人类观察与研究发展规律的能力,为城市现代化提供新的强大工具。同时,大数据将促进在城市经济学和社会学的研究中引入基于数据的量化方法,使得城市社会科学的研究更加科学和精确,从而深刻理解城市的发展规律,辅助城市的规划和决策的制定。

此外,城市大数据将触发城市各个行业运作模式的深刻变革。在商务领域,亚马逊、阿里巴巴等通过收集和分析用户兴趣爱好,可准确判断用户需求,自动将商品属性与用户需求匹配,促进交易达成。Google、Facebook、腾讯、百度、阿里巴巴等很多互联网公司也正在逐步转型为“数据公司”,未来经营的战略核心将更多地依托挖掘、分析和运用沉淀在其平台上的海量数据,并和全社会分享。

因此,智能城市大数据与城市的自然资源、人力资源一样,成为智能城市重要的战略资源。城市大数据研究和应用是城市现有产业升级与新产业崛起的重要推动力量,如果落后,就意味着失守战略性新兴产业的制高点。

城市大数据也正在引发研究城市的科学思维与研究方法的一场革命。智能城市是大数据的百宝箱。智能城市的建设使得各类信息资源在智慧城市的离散框架下获得有效的“感知”,并为智能城市集成建设获得数据信息的积累和沉淀,为智能城市的知识集成提供各类数据汇集的百宝箱的资源。对基于这些百宝箱的大数据资源的深刻应用的一个可能的观察认识是:

智能城市(一体化知识)=∑智慧城市(行业知识)+大数据技术

在智能城市获得大数据资源的基础上,再应用大数据的信息分析技术和挖掘技术,可以使得人们在传统地分析海量数据的基础上,分析不相干的事件之间可能存在的因果关系和其他联结关系,大大拓展人们认识事物的视野,摆脱传统的行业统计数字对规律或潜在关系的认识的局限性。从这点来看,大数据是求解智能城市问题的“手术刀”,是破解智能城市建设发展过程中诸多问题的必然选择之一。无论是涉及政府、企业还是个人的问题,可能都离不开大数据分析方法。

大数据技术和方法不是现有科学技术的简单应用,它对科学技术的发展具有变革性的推动作用。我们不但需要突破传统的数据分析技术的限制,还需要更多地考虑将大数据技术与蓬勃发展的其他新一代信息技术结合起来,形成智能城市大数据处理“技术簇”,使得智能城市大数据的处理既快又好,真正挖掘出大数据的大价值。这一技术趋势已经比较明显。香港科技大学的倪明选(2013)提出了一个观点:逐渐融合的云计算与大数据。这对我们深入研究城市大数据具有很大的技术参考价值。

(二)城市大数据将成为智能城市的基础设施的组成部分

未来信息环境建设不再以系统为核心,而是以大数据为核心。城市大数据处理系统将成为智能城市的基础设施之一,它是智能城市的软基础设施。未来制定智能城市的发展规划,需要将城市信息环境与大数据的规划纳入城市的总体规划之中。过去的城市规划比较强调“硬空间”的规划,未来的城市规划需要将大数据基础实施纳入“软空间”的规划,成为智能城市总体规划的有机组成部分。

未来城市大数据系统将如同城市硬件基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。大数据的计算和存储需求推动着存储硬件、网络基础设施和新的计算处理方式的发展。大数据技术通过快速采集、发现和分析,从大量多类别的数据中提取价值,将是IT领域新一代技术的主要方向。采集、存储并处理快速激增的数据已成为大数据系统必须面对的一个挑战。电子交易、社交媒体、传感器等都提供了丰富的新数据源,非结构化数据在数据中所占比例极高,催生了大数据的全新分布式计算范例的发展,并将推动分析技术的发展,如面向非结构化数据设计的Hadoop、NoSQL等。

对于大数据分析而言,最重要的基础设施是存储设备。随着数据量的飞速增长,存储设备也必须可扩展。大数据分析涉及对社交媒体和交易数据的跟踪,需要进行实时决策,不能出现大的延迟。存储设备还必须能够在同一时间处理来自不同源系统的数据。

大数据的出现为数据中心带来了前所未有的新型工作负载,处理这些工作负载需要使用不同的基础设施。在基础设施中安装大量商用服务器需要调整电源、调节温度以及其他物理设施。埃森哲研究表明,“以数据为中心”的设计理念显得格外重要。这就包括分析数据中心的容量、存储和网络要求,确定可能的数据来源,计算需要管理的数据集大小,了解分析工作负载(数量和速率)以及CPU和I/O工作负载,明确大数据平台与传统商务智能工具的集成程度。

数据在基础设施层面有三类技术:存储、管理和计算。IOE模式I指IBM的服务器,O指Oracle的数据库,E指EMC的存储。从20世纪70年代就逐步成型了,当时对数据的认识是线性维度。到了大数据时代,数据的巨大规模和快速变化超过了硬件能力的增长,而且数据之间的复杂关联使得线性思维无能为力。此外,还有社会因素,数据与人在不断互动,甚至人就是动态的数据集。在这种情况下,采用原有的IOE模式就难以应对大数据处理了,数据中的价值也无法被有效挖掘出来。现在大数据有许多应用,例如:通过Google查询,可以知道流行病在某区域的分布;通过舆情的分析,可以预测选举的结果。

大数据存储不同于传统的EMC,它是一种高效率、低成本、多层次柔性的存储架构,不是集中到一起存储,而是把数据放在云和端。实际上,数据存储的分布很关键,哪些在主服务器、哪些在客户端,这要比提高单个存储的性能更重要。目前,Hadoop开源分布式系统已成为大数据处理的主流技术,包括资源调度、存储管理等各种数据工具。

在大数据管理方面,过去的关系数据管理在解决冗余、一致性、复杂查询优化上做得非常好,在Hadoop体系下,数据规模、增量速度和灵活性远远超过Oracle,但在数据价值挖掘和分析方面还不能提供较好的技术支持。所以,大数据管理只是打碎了旧的模式,新的模式还没有规范化和体系化。