本发明涉及神经网络领域,尤其是一种基于神经网络的图像识别方法。
背景技术:
随着计算机与信息技术的不断演进,机器学习以及模式识别已成为近几年来最炙手可热的领域之一。在一些以往需要人执行的图像识别任务正在逐渐被机器替代,例如车牌识别,人脸识别以及指纹识别等。虽然这些领域已经有相对成熟的解决方案,但是其方案应用的领域非常有限,往往只能在特定条件的环境下才能达到预期的识别效果;除此之广泛,识别准确度高。
技术实现要素:
2012年cuda-convnet发布,可支持单个gpu上的训练,基于其训练的深度卷积神经网络模型在imagenet lsvrc-2012对图像按1000个类目分类,取得top 5分类15%错误率的结果[3]。最近25年是从图像视角通过提取丰富的图像特征描述物体的外观来做识别、分类: appearance-based and view-centered。图1展示了通用图像分类效果,即模型可以正确识别图像上的主要物体。
根据本发明的一个方面,提供一种基于神经网络的图像识别方法,包括以下步骤:
bp神经网络是有教师指导训练方式的多层前馈网络,其基本思想是:从网络输入节点输入的样本信号向前传播,经隐含层节点和输出层节点处的非线性函数作用后,从输出节点获得输出。同时,我们也能传递一个字符串列表的参数来搜索标签、标签属性值、自定义属性值和 css 类。在进行背景设置之前,我们需要到网络上找一张自己喜欢的图片将其下载下来,利用图片处理工具(如:ps)将其处理成大小为:1024x768、格式为.jpg的图片,将处理好的图片拷贝到u盘中。
S102、训练所述多类神经网络辨识图片样本:将多个带有字符的图片样本以及背景图片样本分别提供给所述神经网络进行训练,根据所述多类神经网络汇总对于所有训练样本的权值,并将所述权值作为所述神经网络的匹配参数;
S103、通过不同卷积窗的尺寸针对待测试图片进行多尺度卷积测试:在同一尺寸的卷积窗卷积测试中,将每一次的卷积窗内对应的局部所述待测试图片输入到所述图像识别神经网络,通过神经网络运算得到一个N*1的一维输出矩阵,将所述一维输出矩阵中的最大值作为代表每个所述卷积窗的置信度,所述最大值所对应的标签作为所述卷积窗的标签,随着卷积窗会逐步位移,依次扫描整张待测试图片,以此将每个所述卷积窗映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个最大值矩阵和一个标签矩阵;
S104、将多种卷积窗尺寸下的标签矩阵进行结合:将多种不同卷积窗尺寸通过所述卷积测试得到的最大值标签矩阵投影到同一个平面矩阵,然后将所述平面矩阵中所有代表相同字符且位置相近的点的集合认为其预测的是同一个字符,作为一簇,并且不断地将簇之间距离小于卷积窗的长度或是宽度的一半的点归为该簇,将簇之间距离大于卷积窗的长度或是宽度的一半的点归为新的一簇,从而计算出所有簇的中心坐标;以及
S105、将所述簇中累计权重最高的标签或是将置信度最高的标签输出作为唯一的标签。
优选地,所述步骤S101中,在N类标签中,将每个带有字符的图片样本的标签设为大于0的不同整数数值,而所述背景图片样本的标签设为-1。
优选地,带有单个阿拉伯数字字符的所述图片样本的标签是0至9中的一个;带有单个英文字母字符的所述图片样本的标签是11至36中的一个。

优选地,所述标签还包括若干代表中文字符的标签、若干日文字符的标签、若干韩文字符的标签、若干法文字符的标签以及若干俄文字符的标签。
优选地,所述步骤S102中所述背景图片样本的总数量大于等于所述带有字符的图片样本的总数量。
优选地,基于已有的所述图片样本进行仿射变换以及背景替换来合成新的所述图片样本,来增加该类所述图片样本的数量。
hwndinsertafter:窗体的句柄,该窗体的z轴位置在正在被创建的窗体的z轴位置之前。第二个基准坐标就是图片接触地面(如脚)的那个xy轴,图片大小是128x128像素,所以64,128,就是最低端的中点位置(注意,编写程序里面的xy轴默认原点是在左上角,也就是从左上角开始往右是+x,往下是+y,64是x,128是y,也就是往右一半再往下到底)如果你更改的图片高度或宽度比128大的话,就要改一下基准坐标,。在图片搜索中,我们简单地将query图片上下颠倒作为核然后通过卷积进行互相关检验,结果会得到一张有一个或多个亮点的图片,亮点所在的位置就是人脸所在的位置。
窗函数法设计fir滤波器的基本步骤(1) 根据技术要求确定待求滤波器的单位取样响应如果已知待求滤波器的频响:hd(ejw),则:如果已知通带和阻带衰减和边界频率的要求,可选用理想滤波器作为逼近函数:hd(ejw) —〉 idft —〉hd(n)==〉(2) 根据过渡带及阻带衰减要求,确定窗函数及其长度设过渡带宽为:((,其值近似于窗函数主瓣宽度。一种方法是从输入图片中取出一个与卷积核大小相同的区块——这里假设图片为100×100100 × 100 ,卷积核大小为3×33 × 3 ,那么我们取出的区块大小就是3×33 × 3 ——然后对每对相同位置的元素执行乘法后求和(不同于矩阵乘法,却类似向量内积图像识别 神经网络,这里是两个相同大小的矩阵的“点乘”)。通过该函数,我们可以知道,我们所需要的,正是矩阵d的对角线上的元素,而v矩阵的每一列,都是一组a的值,程序输出的d矩阵与v矩阵如下:由于d矩阵所的对角线上的元素表示的是的值,故我在后续的程序中加入了开平方运算,所求得的的值为这9个值就是该系统所具有的9个固有频率。
并且,还通过将每个所述卷积窗的标签映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个对应待测试图片的标签矩阵。
优选地,所述步骤S103中,分别通过20*20、24*24、以及28*28三个卷积窗的尺寸分别进行三次卷积测试。
优选地,所述步骤S103中,分别通过24*24、28*28、以及32*32三个卷积窗的尺寸分别进行三次卷积测试。
优选地,所述步骤S103中,分别通过20*20、24*24、28*28、32*32以及36*36五个卷积窗的尺寸分别进行五次卷积测试。
将源串strsource开始的count个字符复制到目标串strdestination所指定的位置. 如果count值小于或等于strsource串的长度, 不会自动添加null结束符目标串中, 而count大于strsource串的长度时, 则将strsource用null结束符填充补齐count个字符, 复制到目标串中. 不能处理源串与目标串重叠的情况.函数返回strdestination值.。设第l层的分辨率用resl表示,第l层像素矩阵大小用rowl*coll表示,正方形瓦片大小用height*width表示,相邻层数的重叠度用over_size表示,则瓦片矩阵的行列(trowl*tcoll)①由下列式子计算:。通过该函数,我们可以知道,我们所需要的,正是矩阵d的对角线上的元素,而v矩阵的每一列,都是一组a的值,程序输出的d矩阵与v矩阵如下:由于d矩阵所的对角线上的元素表示的是的值,故我在后续的程序中加入了开平方运算,所求得的的值为这9个值就是该系统所具有的9个固有频率。
优选地,所述步骤S105包括:根据在每个簇中每一点对应该簇中心点坐标的距离计算该点对应该簇的预测权重,将所述簇中的不同类的标签所对应的所有预测权重加权汇总得到该簇中每类标签的累计权重,将所述累计权重最大的一类标签作为代表此簇的唯一标签。
优选地,所述步骤S105包括:统计每个所述簇中每个点所对应的置信度,将置信度最高的点的标签作为代表此簇的唯一标签。
由于使用了以上技术,本发明的基于神经网络的图像识别方法能够在各种条件下对待测试图片中的所有信息作识别以及分类,应用范围广泛,识别准确度高。

附图说明
以下结合附图和具体实施例对本发明的技术方案进行详细的说明,以使本发明的特性和优点更为明显。
图1为本发明的基于神经网络的图像识别方法的流程图;
图2为本发明中的港口集装箱的照片的局部;
图3为本发明的多类神经网络的;
图4为本发明的中通过三个不同尺寸的卷积窗进行卷积的;
图5为本发明的中通过20*20的卷积窗进行卷积得到的最大值矩阵;
图6为本发明的中通过24*24的卷积窗进行卷积得到的最大值矩阵;
图7为本发明的中通过26*26的卷积窗进行卷积得到的最大值矩阵;
图8为本发明的中三个最大值矩阵进行结合的;
图9为本发明的三个最大值矩阵进行结合的原理;
图10为本发明的三个最大值矩阵结合得到最大值标签结合矩阵的;以及
图11至17为图10中Z1至Z7的每个簇的累计权重统计。

具体实施方式
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
然而,本领域技术人员将理解,没有这些具体细节,本实用新型同样可以实施。在另并不受下面公开的具体实施例的限制。
图1为本发明的基于神经网络的图像识别方法的流程图。如图1所示,本发明的一种基于神经网络的图像识别方法,包括以下步骤:
S101、多类神经网络学习图片样本:所述多类神经网络包括大量的神经元,将多个带有字符的图片样本以及背景图片样本分别提供给所述神经元进行学习,所述多类神经网络针对所述图片样本生成若N类标签,所述标签至少包括一个代表背景的标签、若干代表阿拉伯数字的标签和/或若干代表英文字母的标签,每个所述图片样本对应所述标签中的一类。所述步骤S101中,在N类标签中,将每个带有字符的图片样本的标签设为大于0的不同整数数值,而所述背景图片样本的标签设为-1,但不以此为限。带有单个阿拉伯数字字符的所述图片样本的标签是0至9中的一个;带有单个英文字母字符的所述图片样本的标签是11至36中的一个,但不以此为限。所述标签还包括若干代表中文字符的标签、若干日文字符的标签、若干韩文字符的标签、若干法文字符的标签以及若干俄文字符的标签,但不以此为限。
S102、训练所述多类神经网络辨识图片样本:将多个带有字符的图片样本以及背景图片样本分别提供给所述神经网络进行训练,根据所述多类神经网络汇总对于所有训练样本的权值,并将所述权值作为所述神经网络的匹配参数。在一个优选方案中,所述步骤S102中的所述背景图片样本的总数量大于等于所述带有字符的图片样本的总数量,以便得到更合适的权值。基于已有的所述图片样本进行仿射变换以及背景替换来合成新的所述图片样本,来增加该类所述图片样本的数量,但不以此为限。当背景图片样本的总数量较少或是小于带有字符的图片样本的总数量时,可以通过该方法来增加背景图片样本的总数量。
S103、通过不同卷积窗的尺寸针对待测试图片进行多尺度卷积测试:在同一尺寸的卷积窗卷积测试中,将每一次的卷积窗内对应的局部所述待测试图片输入到所述图像识别神经网络,通过神经网络运算得到一个N*1的一维输出矩阵,将所述一维输出矩阵中的最大值作为代表每个所述卷积窗的置信度,所述最大值所对应的标签作为所述卷积窗的标签,随着卷积窗会逐步位移,依次扫描整张待测试图片,以此将每个所述卷积窗映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个最大值矩阵和一个标签矩阵。所述步骤S103中,所述卷积窗在所述二维矩阵的X轴代表该卷积窗在所述待测试图片中的横向位置,Y轴代表该卷积窗在所述待测试图片中的纵向的位置。在同一尺寸的卷积窗卷积测试中通过将每个所述卷积窗的最大值映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个对应待测试图片的最大值矩阵;并且,还通过将每个所述卷积窗的标签映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个对应待测试图片的标签矩阵。例如:所述步骤S103中,分别通过20*20、24*24、以及28*28三个卷积窗的尺寸分别进行三次卷积测试,但不以此为限。或者,所述步骤S103中,分别通过24*24、28*28、以及32*32三个卷积窗的尺寸分别进行三次卷积测试,但不以此为限。或者,所述步骤S103中,分别通过20*20、24*24、28*28、32*32以及36*36五个卷积窗的尺寸分别进行五次卷积测试,但不以此为限。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-104301-1.html
这番话就是讲给美国人听的肺腑之言