1.1 数据分析与Python
1.1.1 数据科学和数据分析的始末
有人说,自从20世纪40年代末,计算机诞生的那一刻,数据科学就随着计算机的发展而来了。然而也有着不同的声音,正如香农的那句名言“敌人知道系统”,意思是敌对势力知道你使用的算法和密文,但依然无法破解出明文,加密/解密在那个靠电报通信的年代,对于战争固然重要,但这个例子说明,远在计算机还没有诞生的那个年代,数据科学就已经存在了。
然而,数据科学的兴起还是21世纪初的事。2008年,中本聪发布《比特币:一种点对点的电子现金系统》,“区块链技术”使得电子支付领域一个去中心化的支付系统由理论转为现实。支付宝和微信等快捷支付方式的发展又带动了电商的发展,信息技术日新月异。随着“机器学习”“大数据”“云计算”等技术日趋成熟,“深度学习”和“深度信念神经网络”被提出,20世纪70年代提出的“人工智能”不再是虚无缥缈的幻想,2008年前后,说起“人工智能”时,人们可能还不清楚具体是指什么,毕竟那个时候也没有太多相关的产业和产品真正落地。
随着“人工智能”产业的发展,其依赖的机器学习虽已足够成熟,但机器学习需要大量的数据集来支撑它。人们在将挖掘到的数据投入生产环境中时,往往发现虽然使用的是真实数据,但是训练效果并不是很好,后来发现是个别数据的不准确性或者遗漏、缺失造成了这些“事故”。
人们开始寻求“纯净”的数据集,把明显错误的数据删除,但难度更大的是寻找缺失的数据。如同一张Excel表格应该有满满的数据,但有不少单元格是空着的,这可能是因为数据遗失了,或者在写入的时候出现了问题,而导致乱码或者不能使用。如果全都选择整行丢弃,未免太可惜了。人们尝试用“人工智能”算法,即机器学习和深度学习这样的算法将缺失的数据补齐,这样就大大弥补了重复爬取的麻烦。但是怎么补齐呢?要想解决心中的问题,现在开始学习本书的内容吧,相信读者在看完本书后会受益匪浅。