Python机器学习入门与实战
上QQ阅读APP看书,第一时间看更新

1.3 如何选择合适的算法

算法对机器学习来说还是比较重要的。

选择算法时,首先考虑使用机器学习算法的目的。如果想要预测的是目标变量的值,就可以考虑监督学习算法,不然就可以考虑非监督学习算法。选择了监督学习算法之后,需要确定目标变量类型。如果目标变量是离散型,如“是/否”“3/5/9”“高/中/低”等表示状态的值,就可以选择分类器算法;如果目标变量是连续型,如“0~100”“-100~100”等,则需要选择回归算法。

其次需要考虑的是数据问题,充分了解数据,对实际数据了解得越充分,越容易创建符合实际需求的程序。针对数据问题可以主要看以下特性:特征值是离散型变量还是连续型变量,特征值中是否存在空值,何种原因造成这种空值,数据中是否存在异常值,某个特征发生的频率如何,等等。

机器学习可在一定程度上缩小算法的选择范围,一般并不存在最好的算法或者可以给出最好结果的算法,同时还要看看不同算法的执行结果,最终比较哪一种算法的结果是最好的,还可以用多种算法相结合来提高算法执行结果的正确率。