深入浅出Python量化交易实战
上QQ阅读APP看书,第一时间看更新

1.2.2 没有数据是不行的

所谓机器学习,其实就是通过若干算法,使用数据训练模型并做出预测的过程。那么数据的重要性就不言而喻了。假如模型是马路上跑的汽车,那么数据就是让汽车正常运转的燃料。常规的数据包括经济统计数据、市场交易数据和上市公司财报。如今,人们使用的数据范围更广,甚至包括卫星图像、信用卡销售、股民情绪分析、手机地理位置定位和爬虫抓取等来源。理论上来讲,我们这里说的数据包括任何可以使用机器学习提取交易信号的信息。

举一个例子,如果在某家上市公司公布财报数据之前,我们可以获取该公司在招聘网站上发布的招聘岗位数量,就可以先于财报数据发布了解到该公司的运营状况。假如该公司的招聘人数在上升,则可能说明该公司业绩良好,自然其股票的价格也可能上涨;反之,假如该公司的招聘人数锐减,则说明该公司的经营可能有困难,则可能会导致该公司股价下跌。

当然,最直接有效的数据还是那些能够直接体现用户消费的数据,如支付数据。在后面的章节,我们会具体来讨论如何使用外部数据,并将其添加到模型的训练当中。