Python数据预处理技术与实践
上QQ阅读APP看书,第一时间看更新

3.1 数据与数据采集

数据是指未经过处理的原始记录,如一堆杂志、一叠报纸、开会记录或整本病人的病历记录等,数据因缺乏组织和分类,是无法明确地表达事物代表的意义的。人工智能领域中的数据主要有3类:结构化数据、半结构化数据和非结构化数据,其表现形式不仅仅指文字,也包括图片、音频、视频等一系列可以存储知识的原始资料。

世界上每时每刻都在产生大量的数据,包括物联网传感器数据、社交网络数据、商品交易数据等。为了挖掘这些数据背后的价值,首先需要采集数据,因面对的场景的不同,采集数据的策略也会有差异。比如,针对关系型数据库中的数据、本地存储的文件、图片、音视频数据,直接拷贝即可;如果面对的是庞杂无序的网络数据,则需要采用网络爬虫技术进行处理了。接下来我们将从不同层面对数据的采集和存储方法进行介绍。