您还没有绑定微信,更多功能请点击绑定

探索未知.预测未来------利用机器学习(CART)预测合格率

1.png


人类一直试图让机器具有智能,也就是人工智能(Artificial Intelligence)。从上世纪50年代,人工智能的发展经历了“推理期”,通过赋予机器逻辑推理能力使机器获得智能,当时的AI程序能够证明一些著名的数学定理,但由于机器缺乏知识,远不能实现真正的智能。因此,70年代,人工智能的发展进入“知识期”,即将人类的知识总结出来教给机器,使机器获得智能。 无论是“推理期”还是“知识期”,机器都是按照人类设定的规则和总结的知识运作,永远无法超越其创造者,其次人力成本太高。于是,一些学者就想到,如果机器能够自我学习问题不就迎刃而解了吗!机器学习(Machine Learning)方法应运而生,人工智能进入“机器学习时期”。机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。机器学习最大的突破是2006年的深度学习。深度学习是一类机器学习,目的是模仿人脑的思维过程,经常用于图像和语音识别。深度学习的出现导致了我们今天使用的(可能是理所当然的)许多技术。当你问你的iPhone关于今天的天气时,你的话语会用一种复杂的语音解析算法进行分析。如果没有深度学习,这一切都是不可能的。

机器学习与统计区别

3.png


4.png


机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类,更具体的说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是期望的结果,只是这个函数过于复杂,以至于不太方便形式化表达。
通常学习一个好的函数,分为以下三步: 
1、选择一个合适的模型,这通常需要依据实际问题而定,针对不同的问题和任务需要选取恰当的模型。 
2、判断一个函数的好坏,这需要确定一个衡量标准,如回归问题一般采用欧式距离,分类问题一般采用交叉验证函数。 
3、找出“最好”的函数,如何从众多函数中最快的找出“最好”的那一个,学习得到“最好”的函数后,需要在新样本上进行测试,只有在新样本上表现很好,才算是一个“好”的函数。
机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。有三种主要类型的机器学习:监督学习、非监督学习和强化学习。

5.png


6.png


【案例分享】为了预测过程输出性能,提高客户满意度及产品质量,现从数据库中批量导入了2019年5月份生产报表,检测产品能否满足规格要求及相关生产环境,试分析影响产品质量的相关原因及预测结果。
本例共有9个变量,近5000个测试数据,其数据表如下:

7.png


在Minitab最新发布的版本Minitab19.2020中,除了可以将Python的脚本可以导入Minitab加载分析之外,还增加了机器学习的CART分析法。我们将上述案例用CART分析步骤如下:
1、统计---预测分析---CART分类,将响应和影响因子分别填入对应位置

8.png


2、点击 先验/成本,设置误分类成本

9.png


误分类成本就是判断错误的风险,例如,在医学影像检测中,把健康的人误诊为病人还不是最糟的情况,只要医生能对诊断结果进行复查,并把健康的这个人找出来就可以了。但反过来,未能诊断出真正的病人而不提供给他任何治疗,则就非常危险了。默认情况下,Minitab 使用相等的成本 1。
3、点击 验证,选择验证方法

10.png


设置模型验证:数据通常被分为训练数据和测试数据
训练数据(学习数据)通常被用来创建模型及评估模型的系数;测试数据通常检模型性能,通过测试数据得到拟合值,在用训练数据的数据和对应的拟合值进行比较来检验模型的预测性能通过验证,防止模型过度拟合若用同一组数据来拟合模型并评估模型的拟合优度,会导致过度拟合,过度拟合的模型并不能用于很好的预测…..

11.png


12.png


4、点击 选项,设置节点分裂方式

13.png


默认的节点分裂,选择 基尼

14.png


对所有对话框点击 确定,查看Minitab输出(部分):

15.png


默认情况下,Minitab 为误分类成本在最小误分类成本 1 个标准误内的最小树生成输出。也可以识别最优树的序列中探索其他树。终端节点数越多,模型就越复杂。

16.png


17.png


ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。
点击ROC图左下角的预测,可以根据模型预测不同场景下的输出概率。

18.png


总结:
机器学习是目前业界最为火热的一项技术,从网上的每一次淘宝的购买东西,到自动驾驶汽车技术,以及网络攻击抵御系统等等,都有机器学习的因子在内,同时机器学习也是最有可能使人类完成“AI 梦”的一项技术,各种人工智能目前的应用,如微软小冰聊天机器人,到计算机视觉技术的进步,都有机器学习努力的成分。作为全球领先的统计分析软件,Minitab在2018年收购了SPM,并在Minitab.19.2020版中增加了预测分析的CART分类和CART回归功能,能够帮助我们了解一些机器学习的相关知识与概念,更好的理解为我们带来莫大便利技术的背后原理,以及让我们更好的理解当代科技的进程。

0 个评论

游客无法查看评论和回复, 请先登录注册

发起人

小何也疯狂
小何也疯狂

Minitab让您的数据会说话!

推荐文章

文章状态

  • 发布时间: 2022-06-01 15:08
  • 浏览: 1215
  • 评论: 0
  • 赞: 2