通用步骤
- 选择数据:将数据分成三组:训练数据、验证数据和测试数据
- 数据建模:使用训练数据来构建使用相关特征的模型特征工程
- 训练模型:使用验证数据来修正模型,对算法模型进行微调
- 测试模型:使用测试数据验证准确度等表现
- 使用模型:部署已经训练好的模型并对新数据进行预测
- 调优模型:使用更多数据、特征进一步提升算法的性能表现
机器学习的经典算法
- 决策树 (Decision Tree)
- 随机森林(Random forest)
- 支持向量机(Support Vector Machine)
- 回归分析(Linear/Logistic Regression)
- 朴素贝叶斯(Naive Bayes Classification)
- 循环神经网络(Recurrent Neural Networks)
- 卷积神经网络(Convolutional neural networks)
- ....
决策树 (Decision Tree)
- 场景:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估
- 举例:信用评估、赛马结果预测等
随机森林(Random forest)
支持向量机(Support Vector Machine)
- 场景:超平面的线性规划,擅长进行变量的二元分类操作
- 举例:新闻分类、手写识别
回归分析(Linear/Logistic Regression)
- 场景:是个拟合的过程,擅长寻找变量间的关联关系
- 举例:路面交通流量分析、垃圾邮件过滤
朴素贝叶斯(Naive Bayes Classification)
- 场景:擅长寻找独立属性中的关联关系
- 举例:情感分析、消费者分类
循环神经网络(Recurrent Neural Networks)
- 场景:适合大量上下文有关联有序内容进行预测分析
- 举例:机器翻译、语音识别、图像字幕等
参考资料
- http://usblogs.pwc.com/emerging-technology/a-look-at-machine-learning-infographic/
- https://usblogs.pwc.com/emerging-technology/machine-learning-methods-infographic/