机器学习(一)-EW帮帮网

一, Supervised Machine Learning (监督机器学习)

1,定义:学习X到Y或输入到输出的映射的算法，学习算法从正确答案中学习。即教机器如何做事情(数据集+学习算法=模型)，根据已有的数据集，知道输入和输出结果之间的关系，并根据这种已知的关系，训练得到一个最优的模型(即在面对只有特征没有标签的数据时，可以判断出标签)。

2,主要类型:

回归(regression)和分类(classification)

回归:学习算法必须从无限多可能的输出数字中预测数字，如预测房价

分类:学习算法必须对一个类别做出预测，如判断肿瘤的良性或恶性

二,Unsupervised Machine Learning(无监督机器学习)

1,定义:给定的数据与任何输出标签Y无关，本质上是一个统计的手段，在没有标签的数据里发现潜在的一些结构的训练方式。(让机器自学，学会自己做事情)

2,类别：

聚类(clustering) 降维(Dimensionality Reduction) 异常检测(Anomaly Detection)

聚类:将数据样本分为相似的组别或者簇的过程，通过计算样本之间的相似性来将相似的样本聚集在一起。如数据分析，市场细分。

降维:将一个大数据集压缩成一个小得多的数据集，同时尽可能的保留数据的特征。

异常检测:用于识别与大多数数据样本不同的罕见或者异常数据点。

三,线性回归模型(Linear Regression Model)

1,监督学习算法过程:

输入训练集(输入特征+输出目标) ---> 监督学习算法产生函数(function)

f的作用于新输入的x，进行估计或预测，输出y，此时的y称为y-hat，f称为模型 (model)。(注:y-hat仅是一个估计值,若输出为y，则代表训练集中的实际真实值)

2,f的表示：

f(X)=wx+b (w和b被称为模型的参数，可在训练期间调整的变量)

3,成本函数(cost function)

用于衡量一条直线与训练数据的拟合程度，即

b=0 时f(x)=wx+0 和 J(x) 关系图象

线性回归的目标是找到参数w和b，使成本函数J的值最小

b!=0时 f(x)=wx+b 和 J(x) 关系图象

成本函数的最小碗底为同心椭圆的中心点

四,梯度下降(Gradient Descent)

1,定义:通过迭代找到目标函数的最小值，或者收敛到最小值。

2,实现过程：

①计算新的w和b

temp_w = w - Alpha * ( J(w,b)对w求一阶导 )

temp_b = b - Alpha * ( J(w,b)对b求一阶导 )

(注:此处Alpha为学习率,Alpha范围在(0,1) )

②同步更新w和b

w = temp_w

b = temp_b

③迭代至找到最小值或收敛到最小值

3,线性回归中的梯度下降:

公式:

机器学习(一)