深度学习小白白入门乱记

机器学习主要分为三类：监督学习、非监督学习、强化学习

根据输出是连续还是离散的，把监督学习分为回归问题和分类问题。根据分类个数，还可分为两类分类问题或是多类分类问题。

监督学习本质上是一种知识的传递。

非监督学习的训练数据只有输入而没有分类标签等输出。其目标是根据数据的分布发现数据的规律。例如当前比较热门的生成对抗网络(GAN)。

常见任务包括降维和聚类。

获取新知识的唯一途径。（？？）

朴素贝叶斯分类器(Naive Bayes Classifier)非常简单，其假设样本的特征在给定分类的条件下是相互独立的。

特征(Feature)是被观察现象的一个可以测量的属性。好的特征让学习变的容易，无关的特征会干扰模型。

假设输入X = $(x_1,x_2,…,x_n)$，NBC会计算给定X条件下分类是$C_k$的概率$P(C_k|x_1,x_2,…,x_n)$。通过贝叶斯公式，可以得到：

$P(C_k|X) =P(C_k|x_1,x_2,...,x_n)=\frac{P(x_1,x_2,...,x_n|C_k)}{P(X)}$

根据条件独立假设，给定了类别$C_k$之后各个特征$x_i$和$x_j$是独立的，因此上式可写为：

$\frac{\prod_iP(x_i|C_k)P(C_k)}{P(X)}$

给定X，分母$P(X)$是一个固定的用于归一化的常量。（概率加起来等于一），可以忽略它。

在预测的时候只需知道$P(x_i|C_k)$和$P(C_k)$就可以计算出未归一化的$P(C_k|X)$，因此可以挑选概率最大的$k$作为预测的分类。

举例：用于垃圾邮件分类。

逻辑回归是一个用于二值分类问题（binary classification problem）的算法。

将线性输出域范围的$(-\infty,+\infty)$映射到$(0,1)$区间上。此处须提到重要的$Sigmoid$函数：

$\sigma(x) = \frac{1}{1 + e^{-x}} = \frac{e^x}{e^x+1}$

$|x|\rightarrow 0$时，$\sigma(x)$近似线性函数$y = \frac{1}{4}x+\frac{1}{2}$。

应用举例：图像分类（Y or N），图像在计算机中由三个独立矩阵保存（R、G、B）,$6464$。把像素亮度值提取出来放入一个特征向量（很长，维度 = $6464*3$）

训练集（Notation）：输入样本X = $[x_1,x_2,…,x_n]$，$x_i（i=1,2，…,n）$为特征的值。