有监督学习、无监督学习

有监督学习:分类问题、回归问题
分类问题:对分类型变量进行预测,比如根据身高、体重、三维预测性别,这里性别就是分类型变量。
回归问题:对连续型变量进行预测,比如根据房屋面积、地理位置、建筑年代等进行销售价格的预测,这里销售价格就是连续型变量。

无监督学习:数据降维、聚类问题
数据降维:对事物的特性进行压缩和筛选。例如对图像的像素进行识别,数据维度会非常高,所以会进行数据降维。
聚类问题:根据数据的相似性,把相似的数据划分成一个簇。与分类问题不同的是,我我们不会预先知道每一簇的含义。我们会对背景相似,消费喜欢相似的大量用户,推广他们感兴趣的广告和促销产品。

经验:就是数据。
特征:反应数据内在规律的信息叫做特征。
经验特征标记/目标。两个部分。我们一般使用特征向量来描述数据样本。对标记/目标取决于监督学习的种类。有监督有,无监督没有。

性能:完成任务质量的指标

对于预测性质的问题(有监督学习):
分类问题:根据预测正确类别的百分比进行预测。<–准确性。
回归问题:衡量预测值和实际值的偏差大小。

Python

python数据类型有:数值型(整数,浮点)、布尔值(TRUE/FALSE)、字符串、元组、列表、字典。
元组:(1,‘abl’,0.4) <-- 一个包含3个元素的元组。元组中的数据不用统一。t[0]的值为1,t[1]的值为‘abc’。索引起始值是0。元组一旦开始初始化就不可改变内部元素。
列表:[ ]与元组类似,但是可以改变内部元素。
字典:{1:‘1’,‘abc’:0.1,0.4:8},字典叫做d,则d[1]的值是’1’;d[‘abc’]的值是0.1

幂指数运算:2.0**3

语法

if语句:if-elif-else

for语句:对字典进行循环遍历,输出每组键值对。

d={1:'1','abc':0.1,0.4:55}
for k in d:
	print k,":",d[k]

def 函数:return 返回值

def foo(x):
	return x**2
foo(8.0)