1.1 数据分析与Python_Python数据分析从小白到专家-QQ阅读男生中文轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.1 数据分析与Python

1.1.1 数据科学和数据分析的始末

有人说，自从20世纪40年代末，计算机诞生的那一刻，数据科学就随着计算机的发展而来了。然而也有着不同的声音，正如香农的那句名言“敌人知道系统”，意思是敌对势力知道你使用的算法和密文，但依然无法破解出明文，加密/解密在那个靠电报通信的年代，对于战争固然重要，但这个例子说明，远在计算机还没有诞生的那个年代，数据科学就已经存在了。

然而，数据科学的兴起还是21世纪初的事。2008年，中本聪发布《比特币：一种点对点的电子现金系统》，“区块链技术”使得电子支付领域一个去中心化的支付系统由理论转为现实。支付宝和微信等快捷支付方式的发展又带动了电商的发展，信息技术日新月异。随着“机器学习”“大数据”“云计算”等技术日趋成熟，“深度学习”和“深度信念神经网络”被提出，20世纪70年代提出的“人工智能”不再是虚无缥缈的幻想，2008年前后，说起“人工智能”时，人们可能还不清楚具体是指什么，毕竟那个时候也没有太多相关的产业和产品真正落地。

随着“人工智能”产业的发展，其依赖的机器学习虽已足够成熟，但机器学习需要大量的数据集来支撑它。人们在将挖掘到的数据投入生产环境中时，往往发现虽然使用的是真实数据，但是训练效果并不是很好，后来发现是个别数据的不准确性或者遗漏、缺失造成了这些“事故”。

人们开始寻求“纯净”的数据集，把明显错误的数据删除，但难度更大的是寻找缺失的数据。如同一张Excel表格应该有满满的数据，但有不少单元格是空着的，这可能是因为数据遗失了，或者在写入的时候出现了问题，而导致乱码或者不能使用。如果全都选择整行丢弃，未免太可惜了。人们尝试用“人工智能”算法，即机器学习和深度学习这样的算法将缺失的数据补齐，这样就大大弥补了重复爬取的麻烦。但是怎么补齐呢？要想解决心中的问题，现在开始学习本书的内容吧，相信读者在看完本书后会受益匪浅。