您的位置:首页 > 其它

模式识别

2016-03-25 19:50 337 查看
Pattern Recognition

A pattern is the opposite of chaos. It is an entity, vaguely defined, that could be given a name, such as human face, fingerprint image, handwritten word and so on. A pattern is an abstract object, such as a set of measurements describing a physical object.
Pattern recognition is the study of how machines can:

Observe the environment
Learn to distinguish patterns of interest
Make reasonable decisions about the categories of patterns

Hunger: 模式识别是把一类事物通过特征来描述,根据特征训练出一个模型,使用模型可以判别出事物的类别,同一类的事物具有相似的“模式”。模式识别可以应用的领域很多,包括:经济领域、计算机科学领域、生物领域等等。

Bayesian Decision Theory

Bayes Formula:posterior = likelihood * prior / evidence

Bayes Rule

Probability of Error:判定为某一类别的错误率 = 1 - 该类别的概率

Bayes Risk

Given observation x, if the true state is omiga, and we take action alpha, then loss is lambda.

Loss Function Minimum Risk Decision Rule Minimum-Error-Rate Classification

Hunger: 贝叶斯决策理论是根据贝叶斯公式求似然概率,作为类别判断的依据。考虑决策代价是将误判的代价乘以真实状况的概率(即真实类别的似然概率)。

Maximum Likelihood

Discrimination Function Decision Boundary

Normal Distribution

correlation:
http://www.mysanco.cn/index.php?class=wenku&action=wenku_item&id=106 http://www.mysanco.cn/index.php?class=wenku&action=wenku_item&id=107
分布函数 (概率)密度函数

Discriminant Functions for Multivariate Normal Density 实对称矩阵的对角化

Assume the likelihood probability is known forms of distribution, such as normal distribution.

Hunger: 参数估计是假定概率服从某个分布模型,该模型可通过相关参数进行描述和确定,通过样本计算出相关参数,从而得到样本的概率分布模型。另外,分类器可以用判别函数的形式表示,如条件概率、条件概率对数函数等。

Linear Models for Classification

假定判别函数(discriminant function)的形式已知,用训练的方法来估计判别函数的系数权值。判别函数是指由x的各个分量的线性组合而成的函数,或者是关于以x为自变量的某些函数的线性函数。以下求解判别函数的各种算法,不要求知道有关概率密度函数的确切的(参数)形式,从这种意义上来说,属于非参数化方法。

随机梯度下降法(Stochastic Gradient Descent

最小平方误差(LMSLeast Mean Squared)及伪逆(Pseudoinverse Method

(此处应有例子和公式推导,太复杂了不想打,复习一下梯度向量值函数求导线性代数吧。)

多分类问题

Hunger: 这是一种局部最优的方法,但比较简单。泛化线性判别函数,其分量有可能是一个激活函数(非线性)的函数值。

Neural Networks

Back Propagation Algorithm

反向传播算法(反传算法)是多层神经网络有监督训练中最简单也最一般的方法之一,是线性LMS算法(这个还没复习Orz)的自然延伸。

网络有两类基本运算模式:前馈和学习。对于前馈运算,包括了提供一个模式给输入单元、在网络间传递信号,然后在输出单元得到输出。对于有监督的学习,包括了提供一个输入模式,并改变网络参数使实际输出更加接近期望教师信号或目标值。

基本的学习方法是从一个未训练网络开始,向输入层提供一个训练模式,再通过网络传递信号,并决定输出层的输出值。此处的输出都与目标值进行比较,任一差值对应一误差。该误差或准则函数是权值的某些标量函数,它在网络输出与期望值输出匹配时达到最小。反向传播学习规则是基于梯度下降法的,权值首先被初始化为随机值,然后向误差减小的方向调整。

(此处应有例子和公式推导,太复杂了不想打,复习一下微分链式法则全微分就能懂了。)

径向基函数(RBF)神经网络:中间的隐含层的映射函数是RBF函数

References:
http://www.cnblogs.com/zhangchaoyang/articles/2591663.html http://blog.csdn.net/xiaowei_cqu/article/details/9027617
Hunger: 神经网络比起线性判别模型,中间多了几层隐含层,正是中间的隐含层使得它可以拟合更多非线性的判别模型。

Support Vector Machine

Data closest to the hyperplane are support vectors.

Margin of the separator is the width of separation between classes.

Lagrangian function & KKT condition

Hunger: 目前对SVM的理解还很表面,我觉得关键点在于利用support vector来训练和kernel trick吧。

Decision Tree

Hunt's algorithm

Impurity measures: Gini Index、Entropy、Misclassification error

Splitting criteria

Reference:http://mines.humanoriented.com/classes/2010/fall/csci568/portfolio_exports/lguo/decisionTree.html

Hunger: 决策树是一种判别速度很快的方法,因为只需要做一系列if-else的判断。生成决策树的关键在与如何选择split node的方法。关于剪枝那一部分我不懂。

AdaBoostAdaptive Boosting

The generalization ability of the ensemble is uaually significantly better than that of an individual learner. Boosting is one of the most important families of ensemble methods.

Hunger: AdaBoost是一种集成的分类方法,其优点是只需要一系列弱分类器,组合成一个强分类器,可以得到很好的分类效果。特点是每一次会选择分类效果最好的分类器,而且会调整训练样本的权重,着重于将目前分类错误的样本正确地分类。

Unsupervised Learning

The data have no target attribute. Some intrinsic structures in the data are expected to be found.

(Supervised Learning: Discover patterns in the data that relate data atrributes with a target(class) attribute.)

Clustering

Organizing data into classes such that there is high intra-class similarity and low inter-class similarity
Finding the class labels and the number of classes directly from the data(in contrast to classification)
More informally, finding natural groupings among objects

Examples: K-means Clustering Fuzzy C-means Clustering

Hunger: 关于cluster数目的选择,貌似有一个叫“elbow finding”的方法可以进行评价。关于Fuzzy C-means Clustering方法我没有很理解,只知道这种方法中每个样本有一定的概率属于某个cluster,即一个样本不一定(100%)只属于一个cluster。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: