R-CNNRCNN算法流程可分为4个步骤一张图像生成1K~2K个候选区域(使用Selective Search方法)对每个候选区域,使用深度网络提取特征特征送入每一类的SVM 分类器,判别是否属于该类使用回归器精细修正候选框位置候选区域的生成利用Selective Search算法通过图像分割的方法得到一些原始区域,然后使用一些合并策略将这些区域合并,得到一个层次化的区域结构,而这些结构就包含着可能需要的物体。对每个候选区域,使用深度网络提取特征将2000候选区域缩放到227227pixel,接着将候选区域输入事先训练好的AlexNet CNN网络获取4096维的特征得到20004096维矩阵特征送入每一类的SVM分类器,判定类别将2000*4096维特征与20个SVM组成的权值矩阵4096*20相乘获得2000*20维矩阵表示每个建议框是某个目标类别的得分。分别对上述2000*20维矩阵中每一列即每一类进行非极大值抑制剔除重叠建议框,得到该列即该类中得分最高的一些建议框。非极大值抑制剔除重叠建议框IoU(Intersection over Union) 表示$(A\cap B)/(A
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal NetworksFaster R-CNN :使用区域建议网络实现实时目标检测IEEE 2017-6-1摘要最先进的目标检测网络依赖于区域建议算法来假设目标位置。SPPnet [ 1 ]和Fast R-CNN [ 2 ]等技术的进步降低了这些检测网络的运行时间,使得候选区域计算成为瓶颈。在这项工作中,我们引入了一个区域建议网络( RPN ),该网络与检测网络共享全图卷积特征,从而实现了几乎无成本的区域建议。RPN是一个全卷积网络,它同时预测每个位置的对象边界和对象性分数。对RPN进行端到端的训练,生成高质量的候选区域,并由Fast R - CNN用于检测。我们进一步通过共享RPN和Fast R - CNN的卷积特征将它们合并为一个网络- -使用最近流行的具有"注意力"机制的神经网络术语,RPN组件告诉统一的网络在哪里看。对于非常深的VGG - 16模型[ 3 ],我们的检测系统在GPU上具有5fps的(包括所有步骤)帧率,同时在PASCAL VOC
一只胖橘