-
识别信息 编辑
识别信息指利用计算机技术对信息进行处理、分析和理解,以识别各种不同类型的目标和对像。在人工智能领域,识别信息主要目的是使让计算机自动处理有关信息,并能理解和识别。用于识别信息的技术一般有机器学习、统计学、深度学习、心理学,信号处理等。
信息是对现实世界事物存在方式或运动状态的反映。具体地说,信息是一种已经被加工为特定形式的数据,这种数据形式对接收者来说是有意义的,而且对当前和将来的决策具有明显的或实际的价值。信息有如下一些重要特征:信息传递需要物质载体,信息的获取和传递要消耗能量。信息是可以感知的。不同的信息源有不同的感知方式(如感觉器官、仪器或传感器等)。信息是可以存储、压缩、加工、传递、共享、扩散、再生和增值的 。
“数据”是将现实世界中的各种信息记录下来的、可以识别的符号,是信息的载体,是信息的具体表示形式。可用多种不同的数据形式来表示一种同样的信息,而信息不随它的数据形式不同而改变。数据的表现形式多种多样,不仅有我们熟知的数字和文字,还可以有图形、图像、声音等形式。
信息与数据是密切相关联的,信息是各种数据所包括的意义,数据则是载荷信息的物理符号。因此,在许多场合下,对它们不做严格区分,可互换使用。例如,通常所说的“信息处理”与“数据处理”等就具有同义性。
图像识别
图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。图像识别的基本过程如下:
信息的获取:是通过传感器,将光或声音等信息转化为电信息。信息可以是二维的图象如文字,图象等;可以是一维的波形如声波,心电图,脑电图;也可以是物理量与逻辑值。
预处理:包括A\D,二值化,图象的平滑,变换,增强,恢复,滤波等,主要指图象处理。
特征抽取和选择:在模式识别中,需要进行特征的抽取和选择,例如,一幅64x64的图象可以得到4096个数据,这种在测量空间的原始数据通过变换获得在特征空间最能反映分类本质的特征。这就是特征提取和选择的过程。
分类器设计:分类器设计的主要功能是通过训练确定判决规则,使按此类判决规则分类时,错误率最低。
分类决策:在特征空间中对被识别对象进行分类 。
语音识别
语音识别(speech recognition;语音辨识/言语辨别)技术,也被称为自动语音识别(Automatic Speech Recognition, ASR)、电脑语音识别(英语:Computer Speech Recognition)或是语音转文本识别(Speech To Text, STT),其目标是以电脑自动将人类的语音内容转换为相应的文字。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
文字识别
文字识别是指利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。人们在生产和生活中,要处理大量的文字、报表和文本。为了减轻人们的劳动,提高处理效率,50年代开始探讨一般文字识别方法,并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期,出现了多种字体和手写体文字识别机,其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机,并着重于汉字识别的研究。
文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。
信息采集
将纸面上的文字灰度变换成电信号,输入到计算机中去。信息采集由文字识别机中的送纸机构和光电变换装置来实现,有飞点扫描、摄像机、光敏元件和激光扫描等光电变换装置。
信息分析和处理
对变换后的电信号消除各种由于印刷质量、纸质(均匀性、污点等)或书写工具等因素所造成的噪音和干扰,进行大小、偏转、浓淡、粗细等各种正规化处理。
信息的分类判别
对去掉噪声并正规化后的文字信息进行分类判别,以输出识别结果。
文字识别方法基本上分为统计、逻辑判断和句法三大类。常用的方法有模板匹配法和几何特征抽取法。
模板匹配法
将输入的文字与给定的各类别标准文字(模板)进行相关匹配,计算输入文字与各模板之间的相似性程度,取相似度最大的类别作为识别结果。这种方法的缺点是当被识别类别数增加时,标准文字模板的数量也随之增加。这一方面会增加机器的存储容量,另一方面也会降低识别的正确率,所以这种方式适用于识别固定字型的印刷体文字。这种方法的优点是用整个文字进行相似度计算,所以对文字的缺损、边缘噪声等具有较强的适应能力。
几何特征抽取法
抽取文字的一些几何特征,如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,获得识别结果。这种识别方式由于利用结构信息,也适用于手写体文字那样变型较大的文字。