大数据与人工智能导论
上QQ阅读APP看书,第一时间看更新

2.1 数据的多样性

在大数据时代,数据格式变得越来越多样,涵盖了文本、音频、图片、视频、模拟信号等不同的类型;数据来源也越来越多样,不仅产生于组织内部运作的各个环节,也来自于组织外部。

2.1.1 数据格式的多样性

早期的数据,在企业数据的语境里主要是文本,如电子邮件、文档、健康/医疗记录。随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频、模拟信号等,真正诠释了数据格式的多样性。下面主要介绍几种常见的数据格式。

(1)文本数据

文本数据是最普通也是最常见的数据类型。例如,每天用社交软件产生的大量信息都是采用文本的形式进行记录和保存的。现在计算机处理得最完善和最成熟的就是文本数据。

(2)音频数据

音频数据比较具有代表性的是mp3格式的数据。许多用户在线听音乐读取的就是网络上的音频数据,音频数据相对于视频数据而言,占据的存储空间较小,但是没有视频画面的内容,只有声音的数据。用户的电话通话录音、微信的语音信息等都是音频数据。

(3)图片数据

图片数据比较常见,百度首页专门有图片搜索栏目,主要内容包括:摄影写真、高清动漫、明星写真、高清壁纸、风景图片、卡通头像等。图片数据主要用于记录静态信息,给人以直观的感觉。随着搜索技术的发展,图片搜索取得了非常大的进展,目前可以根据图片搜索类似的图片数据。

(4)视频数据

日常生活中的视频数据非常普遍,如微信的视频聊天数据、QQ的视频聊天数据、各种媒体网站(如腾讯视频、爱奇艺、土豆、优酷等)上的电影数据、电视剧数据等都是视频数据。这些数据的特点是:数据占据存储空间大、在网络的传输中占据大量带宽资源。目前对于描述视频文本的数据处理技术非常成熟,但是对于如何检测某个视频里面是否出现指定的信息或图像等技术还在试验阶段。一方面,由于视频文件比较大,即使对其进行检测也需要对其里面的每一帧图像进行图像处理,识别图像中的物体,由于视频由许多帧构成,因此数据处理的工作量巨大。另一方面,由于图像处理的精度有待于进一步提高,对视频处理有时需要识别运动的物体,这种需求对视频的处理技术带来了更为严峻的挑战。

2.1.2 数据来源的多样性

数据主要可以划分为以下4个来源。

(1)来源于使用者自身产生的数据/信息。人们通过电子邮件、短信、微博等产生的文本信息、音频和视频。这些数据结构松散、数量巨大,亟待从中挖掘有意义的结论和有用的信息。

(2)来源于机器自身配备装置的测量报告。现在,越来越多的生产商在机器中配置了监视器和传感器,能够连续提供机器整体运行情况。处理和挖掘这部分数据中有效的信息,有利于生产商从中赚取利润。

(3)计算机产生的数据可能包含关于因特网和其他使用者行动和行为的有效信息,从而提供对他们的愿望和需求潜在的有用认识。

(4)存在较强关联性的其他领域的数据。

接下来将介绍在交通领域中数据来源的例子。北京市交通智能化分析平台数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和GIS数据。从数据体量和速度上也达到了大数据的规模:4万辆浮动车每天产生20 M条记录;交通卡刷卡记录每天19 M条;手机定位数据每天18 M条;出租车运营数据每天1 M条;高速ETC数据每天500 k条;针对8万户家庭的定期调查等。发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能的机会。更甚者,交通状况与其他领域的数据都存在较强的关联性:有研究发现,可以从供水系统数据中发现晨洗的高峰时间,加上一个偏移量(通常是 40~45 min)就是交通早高峰时间;同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出晚上的堵车时点。国外的研究还发现了交通事故率与睡眠质量的关联,不一而足。

2.1.3 数据用途的多样性

(1)应用于医疗

大数据应用于医疗方面,主要是通过收集数据对大数据加以分析,从而对疾病起到预防和治疗作用。患者戴上大数据设备后,该设备可以收集到有意义的数据,通过大数据分析可以监测病人的生理状况,从而帮助医生对病人进行及时、准确、有效的治疗;据新华网报道,大数据分析可以在几分钟内解码整个DNA,从而找到新的治疗方法,同时还能使人们更好地理解和预测疾病模式。

(2)应用于金融行业

大数据在金融行业的主要应用是金融交易,很多股权交易都是利用大数据算法进行的,这些算法可以迅速决定是否将商品卖出,使交易环节变得更加简洁、准确。在这个大数据时代,把握市场机遇、迅速实现大数据商业模式创新尤为重要。

(3)应用于地理信息

地理信息系统需要对相关空间信息进行及时处理,还有大量存储数据和工作任务,将大数据技术合理应用于地理信息系统不仅能及时处理地理信息,还能提高处理结果的准确度。

(4)应用于消费

要想立足于未来市场,构建大数据库并充分利用大数据技术尤为重要。淘宝、京东等企业会通过大数据技术自动记录用户的交易数据,并对其信用进行分析记录,日积月累后形成一个庞大的数据库,为后续的金融业务布局提供数据进行征信及风控。

(5)应用于制造业

大数据影响生产力,即通过大数据分析使机器和设备在应用上更加智能化和自主化,使生产过程更加简洁、准确、安全,以提高生产制造的能力。除此之外,大数据技术能够帮助企业了解顾客喜好,从而投其所好,生产市场需求的产品。