博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
PRML Chapter 1. Introduction
阅读量:5128 次
发布时间:2019-06-13

本文共 2213 字,大约阅读时间需要 7 分钟。

为了防止忘记,要把每章的重要内容都记下来,从第一章开始

2012@3@28 今天又回去稍微翻了一下第一章内容,发现第一次看的时候没有看透,每次翻都能翻出新的内容和感悟来。这主要得益于后面其他书里看到的一些内容后,再来看前面的某些话,就知道这些话不是白写的了,而是每一句都有一些深层的意义。

因此对于PRML这样的书,看一两遍是不够的,有空要多回翻

P 2

generalization的定义:The ability to categorize correctly new examples that differ from those used for training is known as generalization

P3

1) classification 和 regression 的区别:classification的目标结果是有限的(finite),离散的(discrete),而regression的目标结果是连续的(continuous)

2) 无监督学习的目标一般可以是:聚类、密度估计(density estimation)或降维(高维降成2、3维)以可视化(visualization)

3) exploration 和 exploitation 的区别:exploration 是开发未知领域,而exploitation 是利用已知状态

P10

regularization 作者提到在E(w)(这个函数名字现在忘记了,到时想起来改正)上添加一项|W|^2,就能避免w中的值过大导致over-fitting,这就是regularization 的作用。Wikipedia的解释:In  and , particularly in the fields of  and regularization involves introducing additional information in order to solve an  or to prevent .

Shrinkage  的概念,在Wiki中有

1.4 The Curse of Dimensionality

灾难就是,当输入数据的维数增大时,大部分数据的位置都将趋于整个数据空间的边缘。

直观的讲,当一个输入向量为v(x1, x2,  … , xn),有n维输入时,其实只要其中任意一个xi的值偏大,那么这个点就会处于整个数据空间的边缘位置,而对所有xi都比较小的可能性是很小的。

用书中P36页的定性描述可以表示为,在D维空间中一个直径为r=1的球体(sphere  超球体:hypersphere)体积,以及一个直径为r=1-ε与直径为r=1之间的空隙的体积,这两个体积的比值来说明维度灾难

如下图:

对于直径为r的超球体体积可以表示为VD(r)=KDrD,其中KD是一个只和D相关的常数,那么如下比例:

vp : VD(1)VD(1ϵ)VD(1)

就是ε那个空隙的体积和整个直径为r的超球体的体积之比。

我们可以发现,对于二维的圆,ε如果小,那么中间那个r=1-ε的圆的面积就会很大,导致整个vp的值很小。如ε=0.1时,vp=1(10.1)2=0.19,所以ε那个环只占整个面积的19%

但是如果D很大很大呢,这时我们就会发现,即使ε很小很小,但是vp也会趋近于1,就是说在高维超球体中,ε的那个环的体积即使在ε很小的情况下,也会占据超球体的大多数体积,所以整个超球体中的大多数点都分布在整个超球体的边缘!

不过我还不是很明白具体应用中维度灾难导致的后果,要继续仔细看。

 

P43

discriminative models vs. generative models。书中43页排列了三种由复杂到简单的模型:

(a)  同时对输入和输出数据进行建模,设x为输入特征,Ck为第k个输出类别,那么所求后验概率为 p(Ck|x)

贝叶斯公式如下:p(Ck|x)=p(x|Ck)p(Ck)p(x)

 

     那么产生式模型就要对每一对p(x|Ck)估计概率密度,同时再估计p(Ck)的单独概率密度(先验),而p(x)可由p(x)=kp(x|Ck)p(Ck)得到

     或者产生式模型还可以直接估计p(x,Ck),我的理解就是枚举所有x和Ck的派对出现的概率。

     今天才大致理解了何为产生式模型,所以产生式模型有如下典型(从那里抄来的),从上述角度看,就可以知道为啥朴素贝叶斯是典型的产生式模型啦。

 (b)   判别式模型直接对p(Ck|x)建模,而不估计p(x|Ck)的概率密度。因此这就是传说中的“判别式模型估计条件概率”。

      most discriminative models are inherently  and cannot easily be extended to 

      判别式模型大概有:

  • , a type of  used for predicting  or  outputs (also known as )

 (c) 最简单的模型,找一个 discriminant function f(x),直接将输入 x 映射为输入类别 Ck ,就是说,这个方法甚至不计算p(Ck|x)而直接得出答案Ck。

 

至此第一章大致看完,2012年3月1日,22:10

转载于:https://www.cnblogs.com/yymn/p/4454450.html

你可能感兴趣的文章
oracle 创建暂时表
查看>>
201421410014蒋佳奇
查看>>
导入导出数据库和导入导出数据库表
查看>>
linux下操作mysql
查看>>
【03月04日】A股滚动市盈率PE历史新低排名
查看>>
总结:Bias(偏差),Error(误差),Variance(方差)及CV(交叉验证)
查看>>
iOS7 界面适配-NavigationBar StateBar
查看>>
用canvas上传图片
查看>>
五子棋-开发环境搭建过程
查看>>
Java数据结构与算法解析(三)——队列与背包
查看>>
Xcode5和ObjC新特性
查看>>
.Net Discovery 系列之二--string从入门到精通(下)
查看>>
Loadrunner:录制APP脚本
查看>>
jvm slot复用
查看>>
高并发系统数据库设计
查看>>
js 点击获取验证码后的倒数60s
查看>>
杭电ACM-1.2.3 QuickSum
查看>>
基于mini2440的boa服务器移植
查看>>
我写的第4个程序(日志最近行读取函数)
查看>>
Git使用总结(一):简介与基本操作
查看>>