浅析图像识别的基本理论及其应用

发布时间： 1

摘要
　　本文主要对图像识别的基本理论进行阐述，并重点分析图像识别方法的种类、区别与联系，最后介绍了图像识别的应用。
　　关键词：图像识别；理论；应用
　　一、图像识别概述
　　图像识别是近二十年来发展起来的一们新型技术科学，它以研究某些对象或过程(统称图像)的分类与描述为主要内容。图像的含义十分广泛，其原义是指各种图片(图画、影像包括浓淡、色彩)，后来人们把声音图也归属于图像，称作声音图像等等。具体来说，它可以是各种物体的黑白或彩色图画、手写字符、遥感图片、声波信号、x射线透视胶片、指纹图案、空间物体等等。
　　图像识别所研究的领域十分广泛，它可以是机械加工中零部件的识别分类，可以是从遥感图片中辨别农作物、森林、湖泊和军事设施，以及判定农作物的长势，预测收获量类问题。其研究的对象，基本上可概括为两个类型：一是有直觉形像的，如图片、相片，图案，文字图样等；一是无直觉形像而只有数据或信号的波形，如语言，声音地震波等。但对图像识别来说，无论是数据、信号甚至物体，都是除掉它们各不相同的物理内容，考虑对它们进行“分类”这一点共性来研究的。
　　针对这一共同的观点，把同一种共性者归为一类；另一种共性者归为另一类，等等。如文字识别中10个阿拉伯数字就需分为10类：26个英文字母就要分成26类，几千个汉字就要几千类；肺部x光照片可能要区别出正常和异常两类；工件表面的检查要分出正品和废品；对简单物体识别要分辩是立方体、圆球体或锥形体等；以及工厂产品的分类等等。至于类别的划分，大致有两种情况：一种是把对象特性以及对象所属的类别都加以说明，这样的过程一般是用机器来实现的，称为学习过程，然后对于一个新的对象，分析它的特性，决定它属于哪一类。例如上述阿拉伯数字的判别，就是具有10类的分类问题。至于对工件合格与否的识别，那就成为判别“正品”与“废品”的两类分类问题。另外一种分类的情况称为聚合，就是只告诉若干对象和它们的特性，根据某种判据把特性相同的归为一类，而事先往往并不知道究竟分成多少类。
　　简言之，图像识别问题在工程上就是分类问题，而很多分类问题，单凭人类器官是无法进行的，例如染色体的分类、精密加工零件表面光洁度的检验及分类、形状识别等等，它们必须依赖于机器。
　　二、图像识别方法
　　图像识别方法较多，大体上可以归纳为两类方法：统计方法(数学方法)和语言(或结构)学方法，亦称句法识别方法。
　　（一）统计方法
　　统计方法以数学上决策理论为基础，根据这种理论建立了统计学识别模型。其基本模型是在对研究的图像进行大量统计分析，找出规律性认识，抽出反映图像本质特点的特征进行识别。在这种方法中，大量工作在于如何抽取图像的特征或决定统计参数，即所谓参数法。另外，还有非参数决策法，如近邻法则，它是一种绕过概率的估计而直接进行决策的方法。对于特征抽取，必须把图像的大量原始信息缩减为少数的特征，例如采用方差分布、特征向量法等。对文字符号等可只抽取几何形状特征，对声波信号可抽取频谱特征。为了抽取特征，有时要对原始图像信息进行各种变换，空间投影，把多维的图像点简化到几个坐标分量上。
　　例如，在高空用多波段遥感仪得到的遥感照片，具有大量的图像数据，为了进行识别，可先将其划分成若干小的集群，将性质相近的数据点划为一个集群，进行聚合分析。如利用梯度法反复迭代计算，可把数据点的距离小于某一数的点合并在一起。从而大大减少信息量，只需研究这些集群的性质就够了，这就是集群分析。
　　（二）句法结构识别方法
　　句法结构识别法立足于分析图像的结构。一幅图像可以模仿语言构造，用一些语句来表达。语句的结构总是由词、短语等组成，并按一定的语法表达出来。也就是说，语句由短语组成，而短语由单词组成，其中最基本的元素是单词。那么一些语句又怎样和图像发生联系，这可从图像的形成谈起，任何一幅图像，总是由一些点、直线、斜线、弧线及环等组成，提取图像的这些基本元素，看它们按怎样的规则构成图像，这就是结构分析的课题。这些基本元素就相当于语句中的单词；那些直线、曲线的某种组合可看成整个图像，就相当于语法规则。而对于图像识别来说，就相当于检查图像所代表的某一类句型，是否符合事先规定的语法。若语法正确，则就识出结果。
　　由上述可知，这种方法主要是利用了图像结构上的相互关系。这种语言学方法起始于60年代后期，发展较晚，在实用中还有一些问题。例如：由于图像比语言要复杂得多，语言中的词是一个接一个的一串符号排列，而要让图像的基本元素也排成一串，就不容易了。因为图像的基本元素，其结构关系是上下左右交叉一起的，这就需要合理选择和设计元素。
　　综上所述，两类方法各具优缺点。第一类方法很少利用图像本身的结构关系，而第二类方法则没有考虑图像在环境中所受的噪声干扰，必然使其元素或结构关系带有一定的随机性。因而，把二者结合起来，各取其长，是可取的途径。例如研究具有随机性质的语言学模型就很有必要，而具有学习能力的语言学模型即可认为是其一例。在图像识别技术中，从识别逻辑的观点来看，亦可分为两个类型：组合式的和顺序式的。
　　前者是把图像的特征全部抽出(或足以判别一个图像的很大一部分特征)之后再进行判断，给出结果。后者则按所抽特征的次序，每抽一次特征，都要进行一次判断(不是对整个图像)，直至最终给出结果。
　　三、图像识别的应用模式
　　图像识别的应用较广，大致可有如下几个方面：
　　（1）字符识别(Characterrecognition)；
　　（2）医学诊断（Medicaldiagnosis)；
　　（3）遥感(RemoteSensing)；
　　（4）人脸和指纹鉴别（Identificationofhumanfacexandfingerprints)；
　　（5）污染(Pollution)；
　　（6）自动检查和自动化(AutomaticinspectionandAutomation)：
　　（7）可靠性(Reliability)；
　　（8）社会经济(Socio-economies)；
　　（9）语音识别和理解(speechunderstandingandrecognize)；
　　（10）考古(Archaeology)

转载请注明来自：http://www.yueqikan.com/weidianziyingyonglw/7166.html

上一篇：CAD 到 GIS 的数据格式转换

下一篇：台式电脑CRT显示器的电磁辐射

SCI国际期刊预警名单

浅析图像识别的基本理论及其应用

中国烟草科学

煤炭学报

计算机集成制造系统

电力系统及其自动化学报