每次新的网络的出现都让正确率上升了一大截,可以说ImageNet比赛推动了整个计算机视觉的发展。但是ImageNet的数据集太大,不太适合我们入门图像分类。我们可以使用mnist数据集,或者CIFAR-10数据集(如上图所示).CIFAR-10 数据集有 60000 张图片,每张图片均为分辨率为 32*32 的彩色图片(分为 RGB3 个信道)。

CIFAR-10 的分类任务是将每张图片分成青蛙、卡车、飞机等 10 个类别中的一个类别。具体关于CIFAR-10的详细介绍以及实例代码,大家可以关注我头条号置顶的那篇文章.人脸识别人脸识别在引入深度学习之前主要使用PCA降维后进行分类,在引入深度学习之后,采用了CNN来提取特征,然后使用SVM之类的分类器进行分类,但是本质上还是一个分类,需要提前录入人脸数据进行训练.直到FaceNet出现之后, 论文中提出了一种叫做triplet 的损失函数,主要目标是减低类内(同一个人)的距离,增加类间(不同的人)的距离.由此将原本的分类问题转变为了一个距离度量问题,是人脸识别变成了一个开放的问题,可以随时送入两张没有参与训练过的人脸图片提取特征向量,然后通过比较这两个向量的距离来判断相似性.后来又出现了各种各样的loss, 有些已经达到了目前state-of-art的效果,我在这里只是罗列下,具体各位可以关注我,后面我会推出人脸识别综述,与各种损失函数总结。

目前损失函数主要有:centerLosscontrastiveLossrangeLosslarge-marginl2-normAM-softmaxCosFaceArcFace大家如果想要入门的话,可以先下载一下lfw数据集,然后用TensorFlow实践一下经典的算法.目标检测与图像分割目标检测的任务是从一个复杂场景的图像中找到不同的物体,并且给出各个物体的边界框。

图像检测的三个著名的数据集是PASCAL VOC,ImageNet和微软COCO. PASCAL VOC包含20个物体的类别,而ImageNet包含一千多种物体类别,COCO有80中物体类别和150万个物体实例。自从2012年的ILSVRC竞赛中基于CNN的方法一鸣惊人之后,CNN已成为图像分类、检测和分割的神器。

其中在图像检测的任务中,R-CNN系列是一套经典的方法,从最初的R-CNN到后来的Fast R-CNN, Faster R-CNN 和今年的Mask R-CNN, 我们可以看到CNN在图像检测中是如何一点一点提高的。还有就是采用一步到位的检测算法的SSD与YOLO系列算法.这些算法的详细介绍,大家可以关注我头条号之前发布的文章.R-CNN 系列的四篇文章如下:R-CNN: https://arxiv.org/abs/1311.2524Fast R-CNN: https://arxiv.org/abs/1504.08083Faster R-CNN: https://arxiv.org/abs/1506.01497Mask R-CNN: https://arxiv.org/abs/1703.06870关键点检测人体骨骼关键点对于描述人体姿态,预测人体行为至关重要。

因此人体骨骼关键点检测是诸多计算机视觉任务的基础,例如动作分类,异常行为检测,以及自动驾驶等等。近年来,随着深度学习技术的发展,人体骨骼关键点检测效果不断提升,已经开始广泛应用于计算机视觉的相关领域。本文主要介绍2D人体骨骼关键点的基本概念和相关算法,其中算法部分着重介绍基于深度学习的人体骨骼关键点检测算法的两个方向,即自上而下(Top-Down)的检测方法和自下而上(Bottom-Up)的检测方法。

 2/3   首页 上一页 1 2 3 下一页 尾页

文章TAG:个小众  图像处理  基础知识  工具  5个小众图片处理工具  图像处理需要哪些基础知识  
下一篇