1.1 统计学习方法的定义与分类


统计学习的概念

统计学习的定义

统计学习 (Statistical Machine Learning) 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

  • 以计算机和网络为平台
  • 以数据为研究对象
  • 以预测和分析数据为目的
  • 以方法为中心
  • 是多领域交叉的学科

统计学习运用到的领域

在这里插入图片描述

统计学习的步骤

  1. 得到一个有限的训练数据集合
  2. 确定学习模型的集合 — 模型
  3. 确定模型选择的准则 — 策略
  4. 实现求解最优模型的算法 — 算法
  5. 通过学习方法选择最优模型
  6. 利用学习的最优模型对新数据进行预测或分析
#mermaid-svg-njHMCLdbAvj4hQYW {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-njHMCLdbAvj4hQYW .error-icon{fill:#552222;}#mermaid-svg-njHMCLdbAvj4hQYW .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-njHMCLdbAvj4hQYW .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-njHMCLdbAvj4hQYW .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-njHMCLdbAvj4hQYW .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-njHMCLdbAvj4hQYW .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-njHMCLdbAvj4hQYW .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-njHMCLdbAvj4hQYW .marker{fill:#333333;stroke:#333333;}#mermaid-svg-njHMCLdbAvj4hQYW .marker.cross{stroke:#333333;}#mermaid-svg-njHMCLdbAvj4hQYW svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-njHMCLdbAvj4hQYW .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-njHMCLdbAvj4hQYW .cluster-label text{fill:#333;}#mermaid-svg-njHMCLdbAvj4hQYW .cluster-label span{color:#333;}#mermaid-svg-njHMCLdbAvj4hQYW .label text,#mermaid-svg-njHMCLdbAvj4hQYW span{fill:#333;color:#333;}#mermaid-svg-njHMCLdbAvj4hQYW .node rect,#mermaid-svg-njHMCLdbAvj4hQYW .node circle,#mermaid-svg-njHMCLdbAvj4hQYW .node ellipse,#mermaid-svg-njHMCLdbAvj4hQYW .node polygon,#mermaid-svg-njHMCLdbAvj4hQYW .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-njHMCLdbAvj4hQYW .node .label{text-align:center;}#mermaid-svg-njHMCLdbAvj4hQYW .node.clickable{cursor:pointer;}#mermaid-svg-njHMCLdbAvj4hQYW .arrowheadPath{fill:#333333;}#mermaid-svg-njHMCLdbAvj4hQYW .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-njHMCLdbAvj4hQYW .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-njHMCLdbAvj4hQYW .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-njHMCLdbAvj4hQYW .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-njHMCLdbAvj4hQYW .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-njHMCLdbAvj4hQYW .cluster text{fill:#333;}#mermaid-svg-njHMCLdbAvj4hQYW .cluster span{color:#333;}#mermaid-svg-njHMCLdbAvj4hQYW div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-njHMCLdbAvj4hQYW :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}
训练集
测试集
数据
学习系统
模型
预测系统
预测结果

统计学习的分类

在这里插入图片描述
部分分类的解释:

概率模型和非概率模型:概率模型由条件概率来表达,非概率模型由函数来表达,决策树、朴素贝叶斯是概率模型,而感知机、支持向量机、神经网络这些是非概率模型。

参数化和非参数化模型:参数化模型一般处理简单的问题,非参数化模型一般处理复杂的问题。

在线学习和批量学习:在线学习,每次都接受一个样本,然后学习模型进行预测,之后不断重复的模型,适用于实时数据;批量学习,是一次接受所有样本,然后学习模型进行预测的模型。