模式识别(Pattern Recognition),是对表征事物或现象的各种形式信息,包括数值、文字和逻辑关系等,进行处理和分析的过程。它涉及描述、辨认、分类和解释事物或现象,是信息科学和人工智能的重要组成部分。
模式识别的概念最早于20世纪20年代提出,20世纪30年代,费希尔(Fisher)提出的统计分类理论为统计模式识别提供了坚实的理论支撑。进入20世纪50年代,美籍华人傅京孙教授引领了结构模式识别的研究潮流。20世纪60年代,扎克(Zadch)提出了模糊集合理论,这为模糊模式识别的诞生奠定了理论基础。在20世纪70年代初,中国紧随全球步伐,中科院自动化所率先开展邮政编码识别研究,揭开了中国模式识别研究的序幕。20世纪80年代的人工神经网络和90年代的支持向量机等,逐渐发展成模式识别的主流技术。直至2006年,深度学习的兴起为模式识别的广泛应用注入了新的活力,为其发展奠定了坚实的基础。
模式识别系统通常包括数据采集工具、预处理、特征提取与选择、分类器设计和分类决策等五个阶段。根据学习方式,模式识别分为监督模式识别和非监督模式识别等;按数据动态性,分为静态和动态模式识别。模式识别的基本方法主要包括统计模式识别、知识模式识别、模糊模式识别、神经网络模式识别等,其研究聚焦于模式类的紧致性、相似度、特征形成等问题,遵循奥卡姆剃刀原理、没有免费午餐定理以及丑小鸭定理等理论。模式识别在医疗诊断、遥感和数学领域,具有广泛的应用前景及应用价值。
相关概念
模式(pattern):客观事物或现象常常被划分为由相似但又不完全相同的个体组成的集合——类别,人们称这些客观事物或现象为模式,或将整个类别称为模式。广义上,存在于时间和空间中可以观察的事物,如果可以区分它们是否相同或者相似,则可以称之为模式。模式往往表现为具有时间或空间分布的信息,因此,将一类客观事物或现象的时间或空间分布的信息称为模式。
特征(feature):特征也称为属性,通常指样本的某些可以用数值去量化的特征,如果有多个特征,则可以组合成特征向量(feature 向量)。样本的特征构成样本特征空间,空间的维数就是特征的个数,每一个样本就是特征空间中的一个点。
分类(classification):分类是对个体客观事物或现象的所属类别做出的判断或决定,在统计学理论中通常称之为决策。
理论基础
统计学习理论
统计学习理论是研究小样本统计估计和预测的理论,它从理论上给出了经验风险最小化准则成立的条件、有限样本情况下经验风险与期望风险的关系等问题,主要内容包括研究经验风险最小化准则下统计学习一致性的条件、建立的小样本归纳推理准则等方面。
贝叶斯决策理论
贝叶斯决策理论是概率理论和统计学中的一个基本方法,通过对某一事件相关的先验知识和条件概率进行分析,估计事件发生的不确定性。贝叶斯推理是解决由观察到的现象去推断现象背后的规律的过程。
特征空间
特征空间是指在模式空间中对事物进一步抽象化,将事物映射为具有代表性的度量值,去除事物的冗余信息,并由一系列度量值组合成的空间。
历史沿革
早期探索
模式识别的概念最早于20世纪20年代提出,初期研究主要集中在数学方法上。1929年,古斯塔夫·陶谢克(Gustav Tauschek)在德国获得光学字符识别专利,标志着早期技术在光学和机械手段上实现模式识别的尝试。同时,作为统计模式识别基础的多元统计分析和判别分析在电子计算机出现前已被提出。
20世纪30年代,费希尔(Fisher)提出统计分类理论,为统计模式识别奠定了理论基础。到了50年代,美籍华人傅京孙(K. S. Fu)教授引入结构模式识别,进一步扩展了其应用领域。
初步开展
20世纪50年代末期,罗森布拉特发明了感知器,这是一种简化的数学模型,模拟人脑进行识别,并通过样本训练实现对未知类别的正确分类。1957年,周绍康通过使用统计决策理论方法解决模式识别问题,推动了从50年代末至60年代的研究快速发展。
学科形成
“模式识别”这个词被广泛使用并形成一个领域则是在20世纪60年代以后,并逐步发展成为一门综合性学科,其研究内容涉及数学、机器学习、图像处理、计算机视觉和人工智慧等多个领域。20世纪60年代扎克(Zadch)提出模糊集合理论,为模糊模式识别奠定了理论基础。
1962年,纳拉西曼提出了一种基于基元关系的句法识别方法。1966年由IBM组织在波多黎各召开了第一次以“模式识别”为题的学术会议,当时发表了52篇论文,方法多为模板匹配或统计决策,很多论文以文字识别为应用背景。中原地区在20世纪70年代初开始模式识别研究,最早是中科院自动化所开展邮政编码识别研究。
20世纪70年代,几本具有影响力的模式识别教材相继出版,包括福永(Fukunaga)的《统计模式识别导论》(Introduction to Statistical Pattern Recognition)、杜达(Duda)和哈特(Hart)的《模式分类与场景分析》(Pattern Classification and Scene Analysis),以及傅京孙(K. S. Fu)的《句法模式识别及其应用》。1972年,第一届国际模式识别大会(ICPR)的召开,标志着模式识别领域的正式形成。1974年,在第二届国际模式识别大会上,国际模式识别协会(IAPR)开始筹建,并于1978年的第四届大会上正式成立。
1979年,中国自动化学会成立模式识别与机器智能专业委员会,这是中国最早的人工智能相关学术组织。20世纪80年代,专委会组织了七次全国模式识别与机器智能学术会议,推动了该领域在中国的发展。
神经网络兴起
20世纪80年代人工神经网络和90年代支持向量机,成为模式识别的主要方法。1982年和1984年,荷甫菲尔德发表了两篇重要论文,深刻揭示出人工神经元,网络所具有的联想存储和计算能力,进一步推动了模式识别的研究工作,短短几年在很多应用方面就取得了显著成果,从而形成了模式识别的人工神经元网络方法的新的学科方向。
在手部生物特征识别方面,2000年日本医学研究者科诺(Kono)首次提出使用手指中的静脉血管进行身份识别,之后模式识别科研人员提出了多种特征表达模型,如细节点特征,即研究分叉点和端点,尺度不变特征变换;静脉纹路特征,即研究平均曲率、最大曲率、线性跟踪方法。
多年来,模式识别在理论和方法上得到了巨大的发展,一些技术已广泛应用。特别是自2006年深度学习方法和深度神经网络的提出,结合大数据和CPU并行计算技术,视觉感知如图像分类、目标检测和识别、行为识别等,以及听觉感知如语音识别的性能得到了显著提升,几乎全面超越了传统的模式识别方法。
近年发展
2009年,人们提出多视图聚类的思路,通过多视图聚类可以得到比单视图聚类更准确的结果。层次聚类也一直有更新的特化应用,如在强调基于环境而行动的强化学习中,利用蒙特卡洛搜索树中将树的返回值带入根,可以达到降噪和加速收敛的目的。
模式识别领域发展至今产生了大量的方法,而最流行的方式之一是深度学习,即基于深度神经网络的方法,已成为整个人工智慧领域统治性的方法。在2012年大规模视觉分类竞赛ImageNet中,深度卷积神经网络(CNN)首次成功用于大规模图像分类,将ImageNet分类精度相比前一年提升了10%以上。2012年以后,深度神经网络被扩展应用到多种视觉任务上(分类、检测、分割、行为识别等),新的模型和学习算法不断被提出,性能不断提升。
2018年,第24届国际模式识别大会(ICPR)在北京召开。同一年,第一届中国模式识别与计算机视觉大会召开,之后每年举办一届。
2021年,第四届中国模式识别与计算机视觉大会在广东省珠海市海泉湾维景国际大酒店举行。该大会由中国图象图形学学会(CSIG)、中国人工智能学会(CAAI)、中国计算机学会(中国计算机学会夏培肃奖)和中国自动化学会(CAA)联合主办,汇聚了国际模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,共同分享中国模式识别与计算机视觉领域的最新理论和技术成果。
模式识别系统
典型的模式识别系统由数据采集工具、预处理、特征提取与选择、分类器设计和分类决策5部分组成。
数据获取
数据的获取途径或来源有很多种方式。例如可以通过传统的问卷调查等形式获取数据信息,或者通过网络爬虫软件,按照实际需求自动抓取互联网上的相关数据以及通过各种传感器获取数据。数据可以是温度、湿度、文字、图像和声音等。
预处理
数据预处理可以有效地提高数据的质量,有利于提高模式识别和机器学习的性能。对由于信息获取装置或其他因素所造成的信息退化需要进行复原和去噪。对于离群点、不一致的值、重复数据及有特殊符号的值的也要进行相应的处理。
特征提取与选择
在获取了原始特征后,需要通过特征提取和选择获取生成有效特征。在保证识别精度的前提下,起到降维的作用,避免产生维数灾难。
分类器设计
假设样本集为,分别属于个类别:。分类器设计就是建立函数模型,对未知类别的样本进行判别分类的过程。其基本过程是采集样本构建训练集,建立判别函数,确定分类判别规则,确定分类函数机器相应的参数,利用判别函数对进行分类。同时,尽量保证所造成的错误率或损失最小。
分类决策
在特征空间中,用分类器设计确定的分类判别规则,将待识样本归为某一类别。
类型
按学习方式划分
监督模式识别
在监督模式识别下,先确定好需要划分的类别有哪些,并且能够获得定数量的类别已知的训练样本。在这种类别已知的情况下机器学习的过程称为监督学习。
监督的模式识别方法又可分为参数法和非参数法两类,其中参数法一般都是由统计学家提出来的,其判别效果的好坏依赖于样本是否符合假设的统计分布;而非参数判别分析法多由实验科学家或计算机模式识别专家提出,对样本分布没有特殊要求。在监督的模式识别中,经常将已知类别的样本分为两组,一组作为常规的训练集,另一组则组成测试集,目的是用于检测由训练集样本所得的判别模型的判别能力。在训练中所得的正确判别率称为识别率,而用测试集所得的正确判别率则称为预测率。通常,预测率对模型好坏的判别比识别率更重要,这是因为测试集的样本没有参与建立判别模型,用它们得到的预测率更能反映模型的真实情况。
非监督模式识别
在非监督模式识别下,分类之前并不知道要划分的类别有哪些,也不知道划分类别的数目,并且没有任何已知的样本可以用来训练。在这种情况下,根据不同样本的特征进行分类,同一个种类的样本从某个角度上看具有一定的相似性,不同的样本之间差异性比较大。如果根据样本特征向量中的不同特征去聚类,会得到不同的结果。
非监督模式识别有一个重要的特点:由于没有类别已知的训练样本,在没有其他额外信息的情况下,采用不同的方法与不同的假定可能会导致不同的结果,要评价那种结果更可取或者更符合实际情况除了衡量一些聚类性质的一般准则外,往往还需要对照该项研究的意图和在聚类结果基础上后续的研究来确定。
半监督模式识别
半监督模式识别介于监督模式识别和非监督模式识别之间,主要目标是让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,使用海量的标记数据和未标记数据进行模式识别工作,它既使用了无监督特征学习类算法利用所有样本(包含标记样本和无标记样本)学习出样本的隐特征或隐含变量表示,又在此基础上利用有监督分类器对无标记样本所对应的隐特征进行分类,从而间接地实现目标任务。
按数据的动态性划分
静态模式识别
静态模式识别指按照最大隶属原则对模糊事物进行判断归类的一种模糊模式识别,亦称直接模式识别。最大隶属原则实际上是对人们头脑中就模糊事物进行隶属反映过程的数学概括。例如,企业领导在对人才的录用做出定向决断时,总是根据某人的特点,权衡其是负责后勤还是科研或者汇总、外向经营等方面比较合适。其中“比较合适”的概念就体现的隶属度的大小,而“权衡的过程”就是比较隶属度大小的过程,亦即按最大隶属原则进行直接模糊模式识别的过程。
动态模式识别
动态模式识别指按照择近原则对模糊事物进行判断归类的一种模糊模式识别,亦称间接模式识别。“择近”就是指被研究对象与其它标准参照物之间的相近或相似的程度。而测定这种相近或相似程度的度量指标就称为“贴近度”。静态模式识别是通过比较隶属度或隶属函数取值的大小来确定被研究对象应归为哪类,这时识别模型是模糊的而被识别对象是确定的,但在许多情况下,被识别对象也是模糊的,这时用最大隶属法则就不能达到判别分类的目的。
基本方法
统计模式识别
统计模式识别方法是应用最广泛的一类模式识别方法。本质上,该类方法都是利用各个类的概率密度函数、后验概率等概念进行分类识别的。确定性样本一般采用确定性的方法如代数几何分类方法等来进行模式识别,随机样本或按一定的概率分布的样本则采用托马斯·贝叶斯决策分类的方法来进行模式识别。它们都是将样本转换成多维特征空间中的点,根据特征空间中点的分布情况确定类边界,设计相应的分类决策规则或判决函数,来进行分类决策。
结构模式识别
在模式识别中,许多实际问题是难以用统计模式识别来解决。1970年,美籍科学家傅京孙最早研究结构模式识别,着眼于对待识别对象的结构特征的描述。其基本思想是把复杂的模式分解为较简单的子模式的组合,子模式再分解为更简单的子模式的组合,最终得到一个符号串、树和图描述。在底层的最简单的子模式称为模式基元。其主要理论是形式语言和自动机。结构模式识别的优点是由简至繁,反映模式的结构特征。缺点是噪声对抽取特征基元有较大的影响。
模糊模式识别
在传统的集合论中,元素和集合是要么属于、要么不属于的关系,两者必居其一,而且二者仅居其一。在模糊集合论中,元素是以一定的程度(隶属度)属于某一个模糊集合,也可以属于多个模糊集合。模糊集合主要用来描述不精确的、模糊的概念。模糊数学就是建立在模糊集合基础之上的数学分支。
模糊模式识别是利用模糊数学的理论和方法来分析和解决模式识别问题,其基本思想是首先将模式类看成模糊集合,将模式的属性转化为对于模糊集合的隶属程度,然后利用隶属函数、模糊推理和模糊关系进行分类识别。模糊模式识别利用模糊技术来设计机器识别系统,可以更广泛、更深入地模拟人脑的思维过程,从而对客观事物进行更为有效的分类和识别。模糊模式识别方法已在工业、农业、军事、医学、管理科学、信息科学和工程技术等学科和领域中发挥着非常重要的作用。
神经网络模式识别
人工神经网络简称神经网络,是由大量简单的基本单元(称为神经元)相互连接而构成的复杂网络系统。其中,每个神经元的结构和功能比较简单,而构成的系统可以非常复杂。
人类感知外界信息依靠的生理基础是神经系统。人工神经网络就是在现代生物学研究人脑组织所取得成果的基础上提出的,用以模拟人类大脑神经网络的结构和行为。人工神经网络具有生物神经网络的某些特性,在自学习、自组织、联想记忆和容错方面具有较强的能力。因此,人工神经网络具有用于模式识别的理论和结构基础,可以处理一些环境信息十分复杂、背景知识不清楚、推理规则不明确的模式识别问题。实际上,模式识别是人工神经网络公认的最成功的应用领域之一。
主要算法
基于统计的模式识别
KNN法及其衍生法
KNN法,亦称K最邻近法,即未知样本的类别由其k个近邻的类别所决定。若近邻中某一类样本最多,则可将未知样本亦判为该类。
在多维空间中,各点间的距离通常规定为欧几里得距离。样本点和样本点j间的距离可表示为。
K最邻近法因其简单易用而在多个领域得到了广泛应用。在人脸识别领域,在云环境中使用Hadoop和KNN算法可实现人脸图像的标签和分类;在文字识别领域,基于聚类的改进KNN算法在对文本进行特征提取之后,根据DBSCAN把文本分成几类,再用改进的KNN算法对这几个类进行分类;在医学领域,KNN算法可以较好地识别出MRI图相当中的脑白质、脊髓、灰质三个部分的图像。
主成分分析法
主成分分析法(principal component analysis,PCA)是一种古老的多元统计分析技术,其目的是将数据降维,以排除众多信息共存中相互重叠的部分,把原来多个变量组合为少数几个互不相关的变量但同时又尽可能多地表征原变量的数据结构特征而使丢失的信息尽可能地少。
设第个主成分的方差贡献率为,设前个(q≤k)主成分的累积方差贡献率为:
。
主成分分析法被广泛应用于多指标评价中,如企业经济效益综合评价、上市公司财务分析、学生成绩分析与评价等。这种方法能够将多个相关指标转化为少数几个相互独立的综合指标,从而简化评价过程并提高评价的客观性。在多元质量控制领域,主成分分析法用于发现异常值和进行质量稳定性控制,从而有效地监控产品质量。
多重判别矢量法
多重判别向量法是模式识别中使用较为广泛的一种线性映射,这种线性映射使数据中各类别间分离性加强,它使用一组判别矢量来完成的。
设数据中模式矢量有个类别,对应有个互相独立的标准化矩阵,其中。第类中第个样本向量(由个特征变量构成)为。由第类样本构成的标准化矩阵为;为第类的样本数。
在雷达技术应用中,多重判别分析被用于距离向多干扰目标的鉴别,以及雷达目标距离剖面像的识别。这些应用主要解决了在长基线雷达组网背景下,鉴别过程计算复杂度高的问题,并显著提高了正确识别率。在经济预测领域,多重判别分析被用于上市公司财务困境的预警研究,通过对财务指标进行综合分析,该方法能够更全面、可靠地预测公司的财务状况,从而为投资决策提供支持。
线性判别分析法
线性判别分析是一种简单的非朴素托马斯·贝叶斯分类器,它假设每个类别所对应的正态分布具有相同的协方差,即。如下图,两个类别的数据分别服从两个协方差矩阵相同但均值不同的二维高斯分布。
在金融领域,线性判别分析法被用于建立信用评价模型,以对上市公司进行分类。在能源领域,LDA用于降维处理,以提高电力负荷预测模型的运行速度和预测精度。
Fisher判别分析法
若整个样本集中仅有两个类别,则多重判别矢量法只能产生一个判别矢量,此即为Fisher判别矢量。但是,欲将数据投影到判别平面上,必须选择一个第二矢量。萨蒙(Sammon)提出了解决此问题的一种算法,首先用多重判别矢量法求出Fisher判别矢量(此时的秩数为,故仅能得一个非零的本征值,其相应的本征矢量即为Fisher判别矢量)。
Fisher判别分析法被用于隧道围岩分类,这表明它可以有效地处理具有复杂特征空间的问题。此外,Fisher判别分析法还被应用于潜在滑坡的判识,进一步证明了其在工程安全评估中的实用性。
基于深度学习的模式识别
非线性映射法
非线性映射法可使多维图象映照到二维,映照中尽可能保留共固有的数据结构。
若样本集标准化矩阵表示为,则X映照至二维空间的结果Y可表示为。
在经济学领域,非线性映射方法被用于建立预测模型,以预测经济指标的未来走势。这种方法通过非线性映射给出松驰迭代求解方法,展示了其在经济预测中的可行性。非线性映射法在处理高维数据时,能够有效地解决“维数灾难”问题,通过降维技术简化数据结构,从而提高数据分析的效率和准确性。
基于聚类算法的模式识别
K-均值聚类
K-均值聚类(即K-means)算法是著名的划分聚类分割方法。划分方法的基本思想是给定一个有N个元组或者记录的数据集,分裂法将会构造K个分组,每个分组就代表一个聚类,K K-means算法的工作原理为首先随机从数据集中选取K个点,每个点初始代表每个簇的聚类中心;然后计算剩余各个样本到聚类中心的距离,将它赋给最近的簇;接着重新计算每一簇的平均值,整个过程不断重复,如果相邻两次调整没有明显变化,则说明数据聚类形成的簇已经收敛。 K-均值DBSCAN在金融服务行业中有着重要应用,特别是在银行客户细分和分类方面。通过对客户进行有效的分类,银行可以更好地理解其客户群体,从而提供更加个性化的服务。K-均值聚类算法在图像处理方面也有应用,利用K均值算法进行图像分割,可以增进对图像内容的理解,分割后的图像可进一步用于机器视觉、目标识别等领域。 层次聚类算法是通过将数据组织为若干组并形成一个相应的树来进行聚类的。根据层次的形成是自下向上还是自上向下,层次DBSCAN可以进一步分为凝聚型和分裂型。一个完全层次聚类的质量由于无法对已经做的合并或分解进行调整而受到影响,但是层次聚类算法没有使用准则函数,它所含的对数据结构的假设更少,所以它的通用性更强。 层次聚类算法在复杂网络分析中,用于发现网络中的社团结构,有助于更好地理解网络的内部结构。在天体识别与分类方面,层次聚类算法所代表的无监督自动化分类有望能够帮助天文学家搜寻未知的天体和天文事件类型。 决策树算法是一种逼近离散函数值的方法,从本质上来说,就是通过一系列规则对数据进行分类的过程,可以分为生成和剪枝两部分。 在客户关系管理方面,决策树算法可以利用商业银行提供的客户信息和银行业务信息等数据,通过客户存款情况,研究忠实客户的特征,以帮助银行留住客户并最大化客户价值。决策树算法也被应用于智能导学系统中,对学习者进行分类,并应用不同的教学计划。 随机森林(Random 中国森林资源)或随机决策森林是一种用于分类、回归和其他任务的集成学习(系综 learning)方法,一个随机森林是由多棵决策树组成的,其工作原理是随机选择在同一训练集的不同数据样本上创建决策树,从每棵树上得到预测,并通过投票的方式选择最佳解决方案。随机森林的目的是降低方差,这是以小幅增加偏差和损失一些可解释性为代价的,但一般来说会大大提升最终模型的预测能力。对于分类问题,按照多棵分类树投票决定最终分类结果;对于回归问题,由多棵树的预测值的均值决定最终预测结果。 在电力用户信用评价中,随机森林算法可以根据电力用户的一些基本信息对用户信用等级进行的合理划分,并达到理想的效果。在销售预测中,利用随机森林的集成思想通过随机重组将原始的一维预测变量重组为高维变量,并将输出求和值作为最终预测,以解决销售预测历史数的据稀疏性与波动性。 模式类紧致性主要是指样本的分布是否存在相互混合或边界线很复杂的现象。为了能在某个空间中进行分类,通常假设同一类的各个模式在该空间中组成一个紧致集。从这个紧致集中的任何一点可以均匀地过渡到同一集中的另外一点,而在过渡途中的所有各点都仍然属于这个紧致集即属于同一模式类。此外当紧致集中各点在任意方向有某些不大的移动(相应于被观察现象有某些微小的变形)时它仍然属于这个集合。 下图表示了两类样本在空间中的3种分布情况。图a紧致性较好,样本容易区分,是线性可分。图b紧致性一般,分界面比较复杂,但样本可以分开,是非线性可分。图c紧致性非常差,无法将它们完全正确分类。 同类事物属于相同类别是由于某些属性是相似的,分类就是根据事物之间的相似程度进行划分的。描述样本点之间相似性的函数有相似系数和距离函数两种。 已得到广泛应用的相似性度量是在空间中定义的某种距离。给定一个输入样本集合,用D维空间中的一个点表示某个样本,两个样本和之间的相似性度量应该满足以下要求: (1)相似性度量应该为非负,即。 (2)样本本身之间相似性度量应该为最大。 (3)相似性度量应满足对称性,即。 (4)在模式类满足紧致性条件下,相似性应该是点间距离的单调函数。 特征是决定相似性与分类的关键。底层特征是靠近原始数据输入的一层,该层直接受到信息源物理特性的影响,人的视觉系统会首先提取图像的亮度、颜色等信息,形成直线、边缘等一系列简单的底层特征;在底层特征的基础上,视觉系统对这些底层特征进行组合抽象,形成如灯、轮子、窗等中间层特征;在中层特征的基础上,视觉系统对中层特征进一步进行组合抽象,形成能够表示车辆的特征。基于深度学习的方法就是采用多层神经网络逐层抽取图像特征的方法,它获得了具有良好判别能力的特征,极大地促进了模式识别领域的发展。 从输入的原始数据中直接得到合适的特征往往需要复杂的非线性运算,直接找到特征提取方法十分困难,可以从生物的视觉信息处理系统中寻求启发。在动物和人的视觉神经系统中,存在对特定特征起反应的神经元,形成由简单到复杂逐层提取特征的结构。以人的视觉系统识别汽车为例,并将特征粗略地分为底层、中间层、高层3个层级,描述逐层提取特征的过程。 奥卡姆剃刀(Occam's Razor)原理是由14世纪逻辑学家、圣方济各会硕士奥卡姆的威廉(William of Occam)提出的一个原理。该原理简称为“如无必要,勿增实体”(在多种等价物和多种实现方法中提倡选择最简单的模型或假设,尽量避免产生超出解释、观察所严格需要的更为复杂的理论),即尽量不要把问题复杂化,要尽力把没用的、会引起问题复杂化的因素剔除掉。 1997年,沃尔珀特(Wolpert)和Macerday提出了没有免费的午餐定理(No Free lunch,NFL)。该定理指出,没有最好的算法,每种算法总有它的优势和缺陷。NFL定理可以简单表述为:对于所有可能的问题,任意给定两个算法A和A',如果A在某些问题上表现比A'好(差),那么,A在其他问题上的表现一定比A'差(好),即任意两个算法A、A'对所有问题的平均表现度量是完全一样的。该定理隐含指出,任何一种分类算法甚至都不比搜索空间的线性列举或者纯随机搜索算法更优。 20世纪60年代,模式识别研究的鼻祖之一、美籍日本学者渡边慧证明了“丑小鸭定理”。这个定理指出“丑小鸭与大天鹅之间的区别和两只白天鹅之间的区别一样大”,即世界上不存在分类的客观标准,一切分类的标准都是主观的。 维度约减:维度约减也称为降维。由于处理的样本数据可能是高维的,不同的维度中的数据存在一定的相关性,有的维度对分类没有多大作用,加上计算机的速度和存储容量毕竟是有限的,所以,对于给定的数据,通常要进行特征提取,即进行特征选择或变换,实现数据降维,以便进行高效的模式识别。 学习与分类阶段:学习阶段就是实现从大量的样本中归纳出同类样本的共同特征,形成类别判定的特征量化标准,构成分类器。分类阶段就是对待识别样本依据特征量化标准进行归类,确定样本所属类别。 相似性基础:样本间的相似性是模式识别能够得以进行的基础,“相似”并不意味“相同”,被识别为同一类的样本只是被认为它们是相似的,模式识别可克服一定的噪声完成样本分类。即使被识别的对象产生的样本存在一定的形变或其他失真的描述,模式识别系统也可能仍能正确识别,因为样本学习训练起到的是一种内插作用。但对于未出现的样本,模式识别系统只能给出一个类别预测。至于类别是否与之相符,仍需人类专家加以确认。 不可识别现象:模式识别系统的设计不管有多准确,效率有多高,都可能存在不可识别或被拒绝识别的对象或样本。 过程不确定性:模式识别过程是一个存在不确定性的过程,因为其分类器是根据有限数据设计的不可能包括样本的所有可能分类情况,因此,识别的结果只能在一定的概率或信度上表达了事物所属的类别,有时可能会出现错误。 在语音识别中,模式识别主要研究不同语言的识别问题,可以将不同人所讲的话转变成文字信息。模式识别技术上采用的办法是先用不同类型的传感器将光、声信号转变成电信号,用计算机对电信号进行处理,再用与已有模式比较的办法(例如统计法、结构分析法等),确定电信号所代表的原信息的模式。利用基因算法训练连续型马尔可夫模型的语音识别方法现已成为语音识别的主流技术,该方法在语音识别时识别速度较快,也有较高的识别率。 各种形式的字符与文字识别是模式识别的另一个典型的应用,包括印刷体的光学字符识别(OCR)、手写体数字识别、手写体文字识别等。 单字识别是OCR的基础,汉字识别首先需要进行特征提取,通常分为数量特征和结构特征。数量特征通过对图像进行统计计算,如多方向投影后的像素密度;结构特征则根据汉字笔画结构提取特征点并编码为数字特征。每个字通过特征向量表示,识别过程即在所有可能的字中匹配当前样本,从而判断具体字符。这些方法被广泛应用于文档处理、表单识别、电子档案管理等领域。 指纹识别是模式识别领域中使用最早,也是最为成熟的生物鉴定技术。指纹识别技术通过采集指纹图像(手指表面脊和谷的映像组合),并对图像进行处理以提取不同的特征来识别独一无二的指纹。根据提取的特征不同,可以将指纹识别方法分为图像统计法、纹理匹配法、细节特征法和汗孔特征法,其中主流方法是细节特征法。细节特征包括指纹的脊终点和分叉点信息。细节特征法匹配准确度高,匹配难度适中,在网络安全、金融机构、医疗机构应用广泛并且发展前景广阔。 在医疗诊断中,模式识别可以应用于心电图、心音、多普勒信号、染色体和DNA序列等方面,以此来作为判断疾病的基础。心电图反映的是人体上电势的变化,医生根据病人的心电图与正常人的心电图进行比较,查找其中存在的差异。这样的识别过程可以帮助医生快速地找到疾病的原因或部位以此来进行针对性诊断。医院内的模式识别应用十分广泛,已成为医生诊断过程中的必备手段。 遥感是在卫星的辅助下,监测地球上的各种现象并进行分析,对未来的状况进行预测,对导致的原因进行分析。在气象卫星的辅助下,气象学家就能很好地预测热带气旋,对其是否会形成强飓风进行判断,政府可根据相关预测情况来决定居民是否需要搬离,以此来降低飓风带来的损失。但是天气预报也存在不准确的情况,主要是不完善的识别系统不能准确分析大气云层现象,最终导致误判。这就需要相关研究人员深入研究遥感方面的识别问题,提升天气预报的准确性,将其带来的损失降到最低。 为实现模式识别的可解释性和鲁棒性,未来的发展方向是结合统计和结构、知识实现对模式、感知场景和行为的生成表示,如结构化概率密度模型、概率知识图等,这样的表示模型对学习和推理算法都会提出更高的要求。图神经网络作为一种结合统计与结构的新型方法,由于其强大的上下文融合与学习能力,正在迅速成为一种主流的结构模式识别方法。 相比于深度神经网络监督学习,模式识别未来会朝着小样本、无监督、弱监督、多模态协同学习、在线自适应等方向发展,最终实现类人终生学习,但在计算上如何实现还有待探索。在智能游戏中比较成功的强化学习是一种类人学习方式,是自我学习方式的一种,对类人终生学习有所启发,但其收敛性的理论保证和收速度也还存在不足。 模式识别的目的是对识别对象和感知场景的结构理解,而不只是分类或赋予概率置信度。对可靠性和鲁棒性要求高的应用场合(如医疗诊断、无人驾驶、空中机器人自主决策),可解释和可理解的模式识别方法非常重要,因为机器识别不能保证100%正确,不能解释的识别结果难以让人接收。随着结构模式识别理论方法的发展,未来可解释的模式识别将会越来越受到重视并取得重要进展。 一般来说,基于可解释的表示模型和类人学习,模式识别系统在结构理解、小样本学习、在线自适应等方面的能力将越来越强,开放环境下的鲁棒性和可靠性越来越高,将促进已有应用的性能提升和应用扩展,并催生一些新型模式识别应用,如机器人环境感知、智能驾驶、空中机器人、盲人视觉辅助、医疗诊断、手术导航、智能教育机器人等。 机器学习是指计算机从已知的经验数据集中提炼并学习一些规律,然后将学习到的规律应用在未知的新数据上进行预测,并不断改变自身以提高在未知数据上的性能表现的方法。 模式识别是指对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。 中科院自动化所副所长刘成林:模式识别研究现状与趋势.微信公众平台.2024-04-13 PRCV2021.第四届中国模式识别与计算机视觉大会.2024-04-13层次聚类算法
基于监督学习的模式识别
决策树
随机森林
基本问题
模式类紧致性
相似和等价
特征的形成
基本准则
奥卡姆剃刀原理
没有免费午餐定理
丑小鸭定理
特点
评价指标
应用
语音识别
文字识别
指纹识别
医疗诊断
遥感
发展趋势
感知场景等的生成表示
类人终生学习
可解释的模式识别
促进模式识别应用扩展
相关对比