模式识别与机器学习第一讲(下)

雷锋网 AI科技评论按,本文作者Frankenstein,首发于知乎专栏闲敲棋子落灯花,雷锋网 AI科技评论获其授权转载。

本文接模式识别与机器学习第一讲(上)。关键词:随机变量、条件概率、边际概率、sum rule、product rule、贝叶斯公式、先验概率、后验概率、独立、概率质量函数、概率密度函数、累计分布函数、多元分布、换元、期望、条件期望、方差、协方差。

1.2 Probability Theory

动机:模式识别里的一个关键概念是不确定性。不确定性的来源有两个:测量的噪声以及数据集大小有限。概率论提供了一种量化和操作不确定性的工具,是模式识别的根基之一。当我们同时运用概率论和决策论,我们可以基于给定信息做出最优预测,无论信息是否完整、明确。

如没有特别强调,以下X,Y均表示随机变量。严格地说一个随机变量X:\Omega\rightarrow E是一个从样本空间(sample space, 潜在结果的集合)\Omega到可测空间(measurable space)E的可测函数(measurable function)。这涉及到测度论的知识,远远超出了本书对读者数学知识的假设。鉴于我们这里不追求严格的定义,可以认为一个随机变量是一个可以从一个集合中取不同值的变量。


条件概率p(Y=y_{j}|X=X_{i})表示已知X=X_{i}的情况下,Y=y_{j}发生的概率,被称为给定X=X_{i},Y=y_{j}的条件概率。我们可以把这一定义拓展到给定多于一个条件的情况下如p(Y=y_{j}|X_{1}=x_{1,i}, X_{2}=x_{2,i},\cdots)


sum rule: p(X)=\sum_{Y}p(X, Y), 这里的p(X)常被称为边际概率(marginal probability),因为它可经由取便其它变量(如Y)的所有可能值时,计算X与它们的联合分布的概率的总和来得到。

product rule: p(X, Y)=P(Y|X)P(X)


symmetry property: p(X,Y)=p(Y,X)

基于product rule和symmetry property,我们可以得到大名鼎鼎的贝叶斯定理/公式(Bayes' theorem):p(Y|X)=\frac{p(X,Y)}{p(X)}=\frac{p(Y,X)}{p(X)}=\frac{p(X|Y)p(Y)}{p(X)}。由sum rule, product rule和symmetry property可得p(X)=\sum_{Y}p(X,Y)=\sum_{Y}p(Y,X)=\sum_{Y}p(X|Y)p(Y)\sum_{Y}p(Y|X)=\sum_{Y}\frac{p(X|Y)p(Y)}{p(X)}=1。因此上式中p(X)可被看做使左边取所有可能Y值的条件概率之和为1 的归一化常数。

sum rule,product rule以及symmetry property像条件概率一样可以被拓展到多于两个随机变量的情况。

贝叶斯定理的一个重要解释涉及先验概率(prior probability)和后验概率(posterior probability)。通俗地讲,先验概率是我们一无所知的情况下根据经验、常规情况计算的,后验概率是在我们得到了新的信息情况下对先验概率进行的修正,更加准确。我们可以考虑p(Y)Y的先验概率而p(Y|X)为知道XY的后验概率。


独立X, Y为两个随机变量,如果p(X,Y)=p(X)p(Y),我们称X独立于YY独立于X或者X,Y彼此独立。注意这种情况下p(Y|X)=\frac{p(X,Y)}{p(X)}=\frac{p(X)p(Y)}{p(X)}=p(Y)。我们还会经常见到两两独立(pairwise independence,一个随机变量的集合中任取两个随机变量都彼此独立)和彼此独立(mutually independence,对于一个随机变量的集合\{X_{1},...,X_{n}\},它们一起的联合分布概率等于它们各自的分布概率之积: p(X_{1}=a_{1},\cdots,X_{n}=a_{n})=\prod_{i=1}^{n}p(X_{i}=a_{i}))。


1.2.1 Probability densities

随机变量有离散型和连续性两种。离散型随机变量定义在事件的离散集合上(如筛子的点数,硬币的正反等等),连续型随机变量定义在事件的连续集合上(如区间)。就像离散型随机变量与概率质量函数(probability mass function)相关联一样,连续型随机变量与概率密度函数(probability density function)相关联。

a. 概率密度函数p(x)具有以下特点:

  • p(x)\geq 0;

  • \int_{-\infty}^{\infty}p(x)dx=1;

  • x(a, b)的概率为p(x\in(a,b))=\int_{a}^{b}p(x)dx


b. 换元/变量选择

给定x的概率密度函数p_{x}(x),令x=g(y),则有p_{y}(y)=p_{x}(x)|\frac{dy}{dx}|=p_{x}(g(y))|g'(y)|。一个相关的结果是概率密度函数的最大值取决于变量的选择。


c. 累积分布函数(cumulative distribution function)

x\in(-\infty,z)的概率为P(z)=\int_{-\infty}^{z}p(x)dx,P被称为累积分布函数。P'(x)=p(x)


d.多元分布

考虑多个连续型随机变量的联合分布。假设我们有D个连续型随机变量x_{1},\cdots,x_{D},我们可以用一个向量把它们“封装”起来:\mathbf{x}=(x_{1},\cdots,x_{D})使得p(\mathbf{x})=p(x_{1},\cdots,x_{D})。如此得到的概率密度函数仍然要满足 a 部分的特点。我们同样也可以考虑离散型随机变量和连续型随机变量的联合分布。


1.2.2 期望(expectation)和协方差(covariance)

期望:函数f(x)在概率分布p(x)下的平均值被称为f(x)的期望,用E[f]表示。

  • 对于离散型随机变量,\mathbb{E}[f]=\sum_{x}p(x)f(x)

  • 对于连续型随机变量,\mathbb{E}[f]=\int p(x)f(x)dx


给定概率分布采集到的N个数据点: \{(x_{1},f(x_{1})),\cdots, (x_{N},f(x_{N}))\},我们可以近似计算\mathbb{E}[f]的值为\mathbb{E}[f]\simeq \frac{1}{N}\sum_{n=1}^{N}f(x_{n})。由大数定理可知,随着N\rightarrow\infty,这一近似逼近\mathbb{E}[f]


当我们考虑多变量函数的期望时,我们可以在\mathbb{E}右下角加一个下标表示关于哪个随机变量取期望,如\mathbb{E}_{x}[f(\cdots,x,y,\cdots)]表示f关于x的期望。


条件期望(conditional expectation)f(x)在条件概率分布p(x|y)下的平均值被称为f(x)的条件期望,用\mathbb{E}_{x}[f(x)|y]表示。

  • 对于离散型随机变量,\mathbb{E}_{x}[f(x)|y]=\sum_{x}p(x|y)f(x)

  • 对于连续型随机变量,\mathbb{E}_{x}[f(x)|y]=\int p(x|y)f(x)dx


方差(variance)f(x)的方差为Var[f]=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^{2}]=\mathbb{E}[f(x)^{2}-2f(x)\mathbb{E}[f(x)]+\mathbb{E}[f(x)]^{2}]=\mathbb{E}[f(x)^{2}]-\mathbb{E}[f(x)]^{2}。可以认为方差衡量了f(x)\mathbb{E}[f(x)]附近的变化性。


协方差(covariance):对于任意两个随机变量X,Y,它们之间的协方差定义为cov[x,y]=\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}]=\mathbb{E}_{x,y}[xy-x\mathbb{E}[y]-y\mathbb{E}[x]+\mathbb{E}[x]\mathbb{E}[y]]=\mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\mathbb{E}[y],它反映了x,y一起变化的程度。

  • 一个随机变量与其本身之间的协方差等于其方差。

  • X,Y彼此独立时,cov[X,Y]=\mathbb{E}_{X,Y}[XY]-\mathbb{E}[X]\mathbb{E}[Y]=\mathbb{E}[X]\mathbb{E}[Y]-\mathbb{E}[X]\mathbb{E}[Y]=0

  • \mathbf{x},\mathbf{y}为两个随机变量的向量时,设\mathbf{x}含有m个元素,\mathbf{y}含有n个元素cov[\mathbf{x},\mathbf{y}]=\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y^{T}-\mathbb{E}[y^{T}]\}]=\mathbb{E}_{x,y}[xy^{T}]-\mathbb{E}[x]\mathbb{E}[y^{T}],此时cov[\mathbf{x},\mathbf{y}]实际上是一个m \times n的矩阵,并且矩阵中第i行的第j个元素代表了\mathbf{x}_{i}\mathbf{y}_{j}之间的协方差。

  • 对于任意一个随机变量的向量\mathbf{x}cov[\mathbf{x}]\equiv cov[\mathbf{x},\mathbf{x}]

1.2.3 Bayesian probabilities

这一节可以用一个问题来概括:什么是概率?之前知乎上也有类似的讨论:概率(Probability)的本质是什么? – 知乎

  • 庞加莱说,“概率仅仅是我们无知程度的度量,据定义,我们不晓得其定律的现象,都是偶然现象”。

  • 不少数学家说,概率是定义在\sigma -代数上,值域为[0, 1]的测度。

  • 频率论者(frequentist古典统计学者)说,概率是随机、可重复事件的出现频率。

  • 贝叶斯论者(Bayesian)说,概率提供了一种对不确定性的量化。

其它参考内容:

DS-GA 1003关于L1, L2正则化的slides:https://davidrosenberg.github.io/mlcourse/Lectures/2b.L1L2-regularization.pdf

雷锋网

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>