机器学习基础之《特征工程（4）—特征降维》

一、什么是特征降维

降维是指在某些限定条件下，降低随机变量（特征）个数，得到一组“不相关”主变量的过程

1、降维
降低维度
ndarry
维数：嵌套的层数
0维：标量，具体的数0 1 2 3...
1维：向量
2维：矩阵
3维：多个二维数组嵌套
n维：继续嵌套下去

2、特征降维降的是什么
降的是二维数组，特征是几行几列的，几行有多少样本，几列有多少特征
降低特征的个数（就是列数）

二、降维的两种方式

1、特征选择
2、主成分分析（可以理解一种特征提取的方式）

三、什么是特征选择

1、定义
数据中包含冗余或相关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征

2、例子：想要对鸟进行类别的区分

特征？
（1）羽毛颜色
（2）眼睛宽度
（3）眼睛长度
（4）爪子长度
（5）体格大小

比如还有的特征：是否有羽毛、是否有爪子，那这些特征就没有意义

3、方法
Filter（过滤式）：主要探究特征本身特点、特征与特征和目标值之间关联
（1）方差选择法：低方差特征过滤，过滤掉方差比较低的特征
（2）相关系数：特征与特征之间的相关程度
（3）方差选择法在文本分类中表现非常不好，对噪声的处理能力几乎为0，还删除了有用的特征

Embedded（嵌入式）：算法自动选择特征（特征与目标值之间的关联）
（1）决策树：信息熵、信息增益
（2）正则化：L1、L2
（3）深度学习：卷积等
（4）对于Embedded方式，只能在讲解算法的时候再进行介绍，更好的去理解

4、模块
sklearn.feature_selection

5、低方差特征过滤
删除低方差的一些特征，前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度
（1）特征方差小：某个特征大多样本的值比较相近
（2）特征方差大：某个特征很多样本的值都有差别

6、API
sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
删除所有低方差特征，设置一个临界值，低于临界值的都删掉
Variance：方差
Threshold：阈值

7、Variance.fit_transform(X)
X：numpy array格式的数据[n_samples, n_features]
返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征

8、数据计算
我们对某些股票的指标特征之间进行一个筛选，数据在factor_returns.csv文件当中，除去index、date、return列不考虑（这些类型不匹配，也不是所需要的指标）