您好,欢迎来到汇智旅游网。
搜索
您的当前位置:首页基于轻量级神经网络的快速目标检测方法[发明专利]

基于轻量级神经网络的快速目标检测方法[发明专利]

来源:汇智旅游网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 1087742 A(43)申请公布日 2018.10.12

(21)申请号 201810483769.1(22)申请日 2018.05.19

(71)申请人 南京理工大学

地址 210094 江苏省南京市孝陵卫200号(72)发明人 刘亚洲 曹森 

(74)专利代理机构 南京理工大学专利中心

32203

代理人 王玮(51)Int.Cl.

G06K 9/62(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)

权利要求书3页 说明书5页 附图4页

CN 1087742 A()发明名称

基于轻量级神经网络的快速目标检测方法(57)摘要

本发明公开了基于轻量级神经网络的快速目标检测方法。包括构建卷积神经网络、训练卷积神经网络和目标检测:定义卷积神经网络的主要模块Front module和Tinier module;定义卷积神经网络的层数和池化层位置;对数据集预处理,将其转换成目标检测框架Darknet输入的标准格式;初始化卷积神经网络的参数;通过不断迭代前向传播、反向传播训练神经网络模型;输入测试图像,利用由训练过程得到的神经网络模型计算得到检测数值结果;根据检测结果在图像上作出标注,用矩形框标出每个物体的位置和类别。使用本发明方法的检测速度更快,准确率也更高。

CN 1087742 A

权 利 要 求 书

1/3页

1.一种基于轻量级神经网络的快速目标检测方法,其特征在于:包括构建卷积神经网络、训练卷积神经网络和目标检测三个过程:

构建神经网络过程,包括以下步骤:1)定义卷积神经网络的主要模块Front module和Tinier module;2)定义卷积神经网络的层数和池化层位置;训练卷积神经网络过程,包括以下步骤:3)对数据集预处理,将其转换成目标检测框架Darknet输入的标准格式;4)初始化卷积神经网络的参数;5)通过不断迭代前向传播、反向传播训练神经网络模型;目标检测过程,包括以下步骤:6)输入测试图像,利用由训练过程得到的神经网络模型计算得到检测数值结果;7)根据检测结果在图像上作出标注,用矩形框标出每个物体的位置和类别。2.根据权利要求1所述的快速目标检测方法,其特征在于所述步骤1)包括以下具体步骤:

11)定义卷Front module;Front module包括三层卷积层和一层池化层,三层卷积层在前,一层池化层在后,前三层卷积层的卷积核大小是3×3,卷积核个数分别是,,128,池化层大小是2×2;

12)定义Tinier module;Tinier module由4层卷积层组成,第一层和第三层使用的卷积核大小为1×1,第二层和第四层使用的卷积核大小为3×3,每个3×3的卷积层使用的卷积核个数是1×1的卷积层的卷积核个数的4倍。

3.根据权利要求1所述的快速目标检测方法,其特征在于所述步骤2)包括以下具体步骤:

21)卷积神经网络模型使用1个Front module作为前置网络,4个Tinier module作为主体网络,最后一部分定义Detector Layer层,由1×1的卷积层组成;

22)定义池化层位置以及具体参数;在前三个Tinier module之后使用池化层,池化层大小为2×2,步长为2。

4.根据权利要求1所述的快速目标检测方法,其特征在于所述步骤3)包括以下具体步骤:

31)预处理数据集的标签信息,将每张图像的标签信息格式化为(object,x1,y1,x2,y2)写入一个txt文件中;其中object表示物体的类别,(x1,y1,x2,y2)表示物体在图像中的位置信息;

32)预处理输入图像,将数据集中的输入图像调整到统一的大小,将调整后的图像作为目标检测框架Darknet的输入。

5.根据权利要求1所述的快速目标检测方法,其特征在于所述步骤4)包括以下具体步骤:

41)初始化训练参数:学习率α,迭代次数iteration,一次输入的图像数batch,训练结束阈值τ;

42)使用xavier初始化权重参数;定义参数所在层的输入维度m,输出维度n,将参数均

2

CN 1087742 A

权 利 要 求 书

范围内。

2/3页

匀分布在

6.根据权利要求1所述的快速目标检测方法,其特征在于所述步骤5)包括以下具体步骤:

51)前向传播;卷积神经网络包含一个输入层,多个中间层,一个输出层,每一层表示为非线性映射过程;样本x在第m层的输入计算公式如下:

其中,表示网络的m层和m-1层之间的权重矩阵,表示偏移参

数,p(m)表示m层的节点数目,表示非线性激励函数,使用tanh、sigmoid或者ReLU函数;

52)计算损失函数;使用的损失函数如下:

其中,λλ表示位置预测误差和分类误差在损失函数中占有的重要coord和noobj权重系数,程度,(xi,yi,wi,hi)代表矩形框参数,ci代表置信度,pi代表类别;整个损失函数由五个部分组成,前两项位置误差计算,第三项是含有物体的边框的置信度预测误差,第四项是不含有物体的边框的置信度预测误差,第五项是类别预测误差;

53)通过计算得到的损失函数和阈值比较,如果损失函数值小于阈值或者此时的迭代次数大于最大迭代次数,则结束训练;否则执行反向传播;反向传播过程通过计算损失函数关于某一节点的偏导数,使用梯度下降算法更新网络的权重参数;网络权重的更新参数如下:

其中,m表示层数,i表示神经元在层中的序号,j表示一个神经元输入的序号,α表示学习率;

反向传播过程更新网络权重参数结束后,跳转前向传播。7.根据权利要求1所述的快速目标检测方法,其特征在于所述步骤6)包括以下具体步骤:

3

CN 1087742 A

权 利 要 求 书

3/3页

61)输入待检测图片,将图像重新调正到训练时输入的大小;

62)根据训练好的神经网网络模型和输入的图像计算得到检测结果。8.根据权利要求1或2所述的快速目标检测方法,其特征在于所述步骤7)包括以下具体步骤:

71)根据阈值筛选出符合条件的检测结果,在原图上标记出物体的位置和类别;72)将检测结果(object,x1,y1,x2,y2,score)写入txt文件,以文本的方式保存。

4

CN 1087742 A

说 明 书

基于轻量级神经网络的快速目标检测方法

1/5页

技术领域

[0001]本发明涉及模式识别和视频分析领域,更具体地说,是一种基于轻量级神经网络的快速目标检测方法。

背景技术

[0002]目标检测是计算机视觉领域中的一个重要的研究课题。已经被广泛的使用在多个真实场景的应用中,如人脸识别,交通安全,人群监控和图像检索。基于深度学习的实时目标检测是指在一副自然场景图片或者视频中标记出目标物体的位置以及类别。面对海量的图像视频数据,人工标记费时、低效,自动化和快速的目标检测方法是迫切需要的。[0003]基于深度学习的目标检测方法包含两个关键的步骤:特征提取和分类器(回归器)训练。不同于传统方法中人工提取目标物体的特征,深度学习使用多层的卷积神经网络来自动的提取特征。用来提取特征神经网络需要带有标签的数据集进行训练以便其能提取有价值的特征。在训练的过程中使用反向传播算法进行网络参数的更新。回归器的训练是指在已经提取的特征的基础上,寻找一系列的规则,用来判断当前图像中物体的类别和位置。目前主流的基于深度学习的目标检测方法包括RCNN,Fast RCNN,Faster RCNN等。RCNN目标检测包括三个步骤:提取候选区域;卷积神经网络提取特征;分类和边界回归。但是这些目标检测方法普遍存在了两个问题:(1)卷积神经网络太深,导致网络的模型的体积很大,非常占用存储空间;(2)网络模型复杂,检测流程需要多个步骤完成,使得检测过程速度缓慢、耗费时间。以上两个不足使得目前的基于深度学习的目标检测方法很难在一些计算能力差,功率小的设备上运行。发明内容

[0004]本发明针对上述目标检测方法中,人工提取图像特征费时低效,深度学习方法中神经网络体积大耗费存储空间,网络模型复杂,检测速度缓慢的问题,提出了一种基于轻量级神经网络的快速目标检测方法。

[0005]实现本发明目的的技术解决方案为:一种基于轻量级神经网络的快速目标检测方法,包括构建神经网络、训练神经网络和检测三个过程:[0006]神经网络构建过程包括以下步骤:[0007]1)定义神经网络的主要模块Front module和Tinier module;[0008]2)定义神经网络的层数和池化层位置。[0009]训练神经网络过程包括以下步骤:[0010]3)对数据集预处理,将其转换成目标检测框架Darknet输入的标准格式;[0011]4)初始化神经网络的参数;[0012]5)通过不断迭代前向传播过程、反向传播过程训练神经网络模型;[0013]目标检测过程包括以下步骤:[0014]6)输入测试图像,利用由训练过程得到的神经网络模型计算得到检测数值结果;

5

CN 1087742 A[0015]

说 明 书

2/5页

7)根据检测结果在图像做出标注,用矩形框标出每个物体的位置和类别。

[0016]上述方法中,所述步骤1)包括以下具体步骤:

[0017]8)设计3层卷积核大小为3×3的卷积层和1层2×2大小的池化层组成Frontmodule,3层卷积层中卷积核的个数分别用32,,;

[0018]9)设计2层卷积核大小为1×1的卷积层和2层卷积核大小为3×3的卷积层组成Tinier module,每个1×1的卷积层在3×3的卷积层前面;[0019]上述方法中,所述步骤2)包括以下具体步骤:[0020]21)神经网络模型使用1个Front module作为前置网络,4个Tinier module作为主体网络,最后一部分为Detector Layer层,由1×1的卷积层组成;[0021]22)在前三个Tinier module之后使用池化层,池化层大小为2×2,步长为2;[0022]上述方法中,所述步骤3)包括以下具体步骤:[0023]31)预处理数据集的标签信息,将每张图像的标签信息格式化为(object,x1,y1,x2,y2)写入一个txt文件中。其中object表示物体的类别,(x1,y1,x2,y2)表示物体在图像中的位置信息;

[0024]32)预处理输入图像,重新调整数据集中的输入图像,统一大小为416×416作为目标检测框架Darknet的输入;[0025]上述方法中,所述步骤4)包括以下具体步骤:[0026]33)初始化学习率,迭代次数,batch,误差阈值;[0027]34)采用标准初始化方法初始化权重参数;[0028]上述方法中,所述步骤5)包括以下具体步骤:

[0029]51)根据输入的图像和标签信息进行网络的前向传播,计算损失函数大小。[0030]52)如果迭代次次数大于最大迭代次数或者损失函数小于误差阈值,结束训练;[0031]53)由计算得到的损失函数值,进行神经网络反向传播计算,更新神经网络各层的权重参数。

[0032])迭代次数加1,调到步骤51);[0033]上述方法中,所述步骤6)包括以下具体步骤:[0034]61)输入待检测图片,将图像重新调到416×416的大小。

[0035]62)根据训练好的神经网网络模型和输入的图像计算得到检测结果。[0036]上述方法中,所述步骤7)包括以下具体步骤:[0037]71)根据阈值筛选出符合条件的检测结果,在原图上标记出物体的位置和类别;[0038]72)将检测结果(object,x1,y1,x2,y2,score)写入txt文件,以文本的方式保存;[0039]本发明与现有技术相比,其显著优点在于:其一,使用定义的Front module和Tinier module提取图像的特征于目标检测,而非手工设计特征,不仅效率高,准确率也得到了提高;其二,设计的轻量级神经网络模型相比其他深度学习方法中复杂的网络模型,模型体积更小,计算速度更快。其三,检测的过程只要需要单个步骤,相比其他繁琐的检测方法,检测速度更快。附图说明

[0040]图1是Front module的结构组成。

6

CN 1087742 A[0041][0042][0043][0044][0045][0046]

说 明 书

3/5页

图2是Tinier module的结构组成。图3是神经网络模型的组成。

图4是训练集图像重新调整大小。图5是本发明的训练过程。图6是本发明的检测过程。

图7是本发明的可视化检测结果图。

具体实施方式

[0047]下面结合附图对本发明作进一步说明。

[0048]本发明的目标检测方法包括神经网络构建、神经网络训练、目标检测三个主要过程。[0049]神经网络构建过程是指设计合理神经网络层数,在神经网络的每一层使用最优的卷积核个数,并将重复使用的多层卷积层和池化层封装了模块。包括以下具体步骤:[0050]首先,设计网络的前置部分,前置部分即卷积神经网络的前面几层,负责提取输入图像的基本特征,将其封装为Front module,如图1所示。Front module由三层卷积层和一层池化层组成。三层卷积层在前,一层池化层在后。前三层卷积层的卷积核大小都是3×3,卷积核个数分别是,,128。池化层大小为2×2。Front module的作用在于减少原始输入图像的信息损失,使得后面的卷积层可以提取出更有用的特征,提高检测的准确率。[0051]设计并使用Tinier module作为神经网络的主体部分,神经网络的主体部分主要提取图像的抽象特征(高层特征),如图2所示。Tinier module由4层卷积层构成,第一层和第三层使用的卷积核大小为1×1,第二层和第四层使用的卷积核大小为3×3。每个3×3的卷积层使用的卷积核个数是1×1的卷积层的卷积核个数的4倍。这样设计的作用是减少神经网络的参数,并且减少了3×3的卷积层的计算量,使得我们的目标检测速度获得提升。[0052]神经网络的完整的结构主要由Front module和Tinier module构成,如图3所示。在神经网络的开始部分使用一个Front module,紧接着使用四个Tinier module,在前三个Tinier module之后使用池化层,最后一个Tinier module使用一个Detector Layer.这里说明,Detector Layer使用的是一个1×1的卷积层,卷积核的个数由具体是数据集类别数决定,即:

[0053]Noutput=Nbox+(5+Nboxclasse)

[00]其中Noutput是最后一层卷积核个数,Nbox是目标检测框架Darknet里面的anchorbox个数,默认值为5,Nboxclasses是类别数,即训练集中有多少种需要检测的物体。[0055]深度神经网络的训练过程是通过梯度下降法训练模型中的参数,自动学习图像中具有的层次特征,如图4所示。包括以下具体步骤:[0056]预处理训练集过程41。在这里说明,本发明使用的训练集是PASCAL VOC数据集,包含16000张图片,20类物体。将训练集中的图片重新调整为416×416的大小,并将标签文件转换为(x1,y1,x1,y2,object),其中(x1,y1,x2,y2)为图像中物体的位置信息,是一个矩形框。object表示这个物体的类别。将处理好的训练集作为神经网络的输入。[0057]迭代次数iteration=52000,一次输入的图像数batch=,阈值τ=0.06。初始化权重参数可以使神经网络在开始训练的时候不会出现发散和梯度消失的情况。初始化方法

7

CN 1087742 A

说 明 书

4/5页

我们使用xavier。定义参数所在层的输入维度m,输出维度n,那么参数将以均匀分布的方式在

[0058]

范围内进行初始化。

前向传播过程43。前向传播即计算输入图像在神经网络每一次的输出。深层神经网络包含一个输入层,多个中间层,一个输出层,每一层可以表示为非线性映射过程。样本x在第m层的输入计算公式如下:

[0059][0060]

其中,表示网络的m层和m-1层之间的权重矩阵,表示偏

移参数,p(m)表示m层的节点数目,表示非线性激励函数,通常使用tanh、sigmoid或者ReLU函数。

[0061]计算损失函数过程44。本发明使用的损失函数如下:

[0062]

其中λλ表示位置预测误差和分类误差在损失函数中占有的coord和noobj权重系数,重要程度,(xi,yi,wi,hi)代表矩形框参数,ci代表置信度,pi代表类别。整个损失函数由五个部分组成,前两项位置误差计算,第三项是含有物体的边框的置信度预测误差,第四项是不含有物体的边框的置信度预测误差,第五项是类别预测误差。[00]通过计算得到的损失函数和阈值比较,如果损失函数值小于阈值或者此时的迭代次数大于最大迭代次数,则结束训练过程45。否则执行反向传播过程46。反向传播过程通过计算损失函数关于某一节点的偏导数,使用梯度下降算法更新网络的权重参数。网络权重的更新参数如下:

[0065]

[0063]

[0066][0067]

其中m表示层数,i表示神经元在层中的序号,j表示一个神经元输入的序号,α表示

学习率。

[0068]反向传播过程更新网络权重参数结束后,跳转前向传播过程43。[0069]本发明的目标检测过程是指输入测试图像(待检测的图像),通过神经网络模型的

8

CN 1087742 A

说 明 书

5/5页

计算,给出检测的结果。包含以下具体步骤:[0070]初始化检测参数过程51。给定检测阈值thresh=025,即如果检测出的物体的可能性大于该阈值,则认为检测出的结果正确。[0071]输入图像并调整大小过程52。因为训练过程使用的图像大小统一为416×416,所以检测过程中,所有输入的图像需要重新调整大小为416×416作为神经网络的输入,如图6所示。

[0072]使用训练好的网络模型检测过程53。根据已经训练好的网络模型和输入图像进行卷积计算,在输入层输出所有检测的结果。将检测结果设定的阈值比较,执行根据阈值筛选检测结果值过程。最后输出检测结果过程55,根据正确的检测结果值在原始图像上以矩形框的形式标记出物体的位置和类别,并将检测的结果写入txt文件中,以文本的方式保存检测结果信息。

[0073]这里需要着重指出,相比于传统的目标检测方法,本发明取得了至少1倍的准确率提升。和目前最较先进的深度网络Fast YOLO和Tiny YOLO,本发明设计的卷积神经网络,获得同等准确度的前提下取得了至少50%的检测速度提升。图7给出了本发明的部分检测结果可视化视图。

9

CN 1087742 A

说 明 书 附 图

1/4页

图1

图2

10

CN 1087742 A

说 明 书 附 图

2/4页

图3

图4

11

CN 1087742 A

说 明 书 附 图

3/4页

图5

图6

12

CN 1087742 A

说 明 书 附 图

图7

13

4/4页

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- hzar.cn 版权所有 赣ICP备2024042791号-5

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务