如果是工作角度,选择未来发展方向,简单说说计算机视觉和自然语言。1计算机视觉目前比较成熟,包括2D视觉,3D视觉,包括OCR等等。在传统意义上,有不同层次的计算机视觉,如工业中使用的2D和3D计算机视觉。第二,计算机视觉是一个比较高大上的图像智能领域。

什么是计算机视觉?

什么是计算机视觉

机器视觉是最常用的人工智能应用之一,比较好的介绍可以看维基百科。 https://en.wikipedia.org/wiki/Computer_vision计算机视觉Computer Vision就是利用计算机来处理图像,获得我们想要的信息。在人工智能领域,计算机视觉的含义则更近一步,不再是简单的获取图像和对图像进行简单的处理,如裁剪缩放滤波等,而是如何像人一样理解图像。

这一领域的先驱可追溯到更早的时候,但是直到20世纪70年代后期,当计算机的性能提高到足以处理诸如图像这样的大规模数据时,计算机视觉才得到了正式的关注和发展。比如下面这张图,在人的眼里,能很容易识别出一个男人斑马线黑色的背包手机等等,同时还可以理解到这些物体之间的关系,一个背着黑色背包的男人正打着电话在过斑马线。

甚至还可以进行进一步的推理,如根据这个男人的着装,那么他可能是一个喜欢运动的人。但是在计算机的眼里则是从0到255的数字像素的范围,对于彩色图像,还有三个通道。那么我们如何让机器也能同人一样能够识别和理解蕴含在图中语义信息,这就是计算机视觉要做的事情。计算机视觉的目前主要包括最基础的如物体的检测和识别,在此基础上的动作姿态识别,物体跟踪,图像修复和增强等。

更进一步的则是图像理解的研究。比如下面这张图,首先需要识别出来图中存在的所有的物体,给他们标签。比如左图中,识别出来大象elephant河流river等等,甚至包括描述性的信息如脏dirty躺laying,站立standing等。再对这些标签进行语义上的重组,构成一句话。而该图中仍然存在不少问题,如识别出了图中不存在的物体如马人等。

自然语言处理和计算机视觉,非得二选一,选谁?为什么

选自然语言。如果你是选学科,那就选自然语言,如果你是工作,看你在什么地方,根据行业分布选,如果是想在北京,那就选自然语言,如果是在长三角,就选机器人视觉,在深圳就两者都可以。如果是工作的角度,选择以后的发展方向,简单的说一下计算机视觉和自然语言1计算机视觉目前已经比较成熟,包括2D视觉,3D视觉,包括OCR等等都比较成熟。

且玩家已经固定了。我们常规意义上讲的计算机视觉也有不同层次的,例如应用于工业的计算机2D,3D视觉。这类主要是配合自动化,传感器做信息采集,以及比对,做检测,或者监控使用。比较典型的应用例如早年的CCD检测,就算这类工业计算机市场的应用。这类工作也被称为自动化工程师,包括现场调试以及方案编程。钱少,出差多,略有苦逼。

但不是没有前途的行业。只是略有辛苦,不少自动化行业的会进入这一领域。这类企业比较典型的例如基恩士,康耐视,大恒图像,汇川技术等等。很明显,如果你想找这类工作,那多数集中在深圳,和长三角工业领域略微高深一些机器人视觉,主要应用于机器人导航SLAM。通过视觉惯性算法,实现环境描绘,路径规划。传说比较牛逼的tesla无人驾驶,就采用的是视觉惯性导航,目前国内主推的无人驾驶导航,还是激光导航技术性价比高,技术稳定。

第二,计算机视觉是一个比较高大上的图像智能领域。从场景应用上,可以有人脸识别技术,动态人脸识别,OCR,细粒度图像技术,以及在此基础上涉及的视频技术,视频语义理解。这类应用偏向于互联网和消费类应用。这种消费眼光是国内企业的典型,如商汤科技、易图科技、从云科技、旷视科技等。当然也包括大家熟悉的苹果、谷歌、百度这样的互联网公司,主要应用在电脑、手机领域。


文章TAG:计算机视觉包括哪些  视觉  计算机  自然语言  包括  
下一篇