利用Python机器学习工具库Tensorflow和详细图片简单解释日本2020年奥运的自动驾驶技术

前言

我的文章主要以英文为主，为了支持和参与CN标签，我会把自己写的有关于人工智能相关的文章以中文刊载，还请各位支持。（此文章只会贴在CN标签，以免文章重叠）

由于上一篇文章在CN的反应实在太好，这次会反其道而行，率先在CN刊登文章，并于今天晚上发布英文版。谢谢CN各位的支持。

正文

虽然到2020年东京奥运还有三年时间，但日本正在努力准备这次盛会。其中一个大计就是雇用一个编程自驾车的团队。日本自动化汽车公司ZMP已经宣布与东京的出租车公司Hinomaru Kotsu合作开发机械出租车。 ZMP近年来一直在开发自己的自动驾驶技术，包括硬件和软件。

自去年以来，ZMP已经在街道上测试其自动驾驶技术，研究将适用于出租车。消息人士说，出租车将作为东京的旅客使用作为交通工具。公司目前仍在以驾驶人员的方式进行监控，希望能在今年年底之前实现无人驾驶员自动驾驶。

背后的技术

虽然公司永远不会透露他们使用的软件，但我认为，他们必须通过PyTorch，Caffe2或Tensorflow构建自驾驾驶软件。这些都是现在最流行的深入学习工具库，使程序员能够执行类似的机器学习算法。

今天我想通过使用Tensorflow展示这个技术。

TensorFlow的物件检测API

如果您是专业程序员，请查看

Official blog from Google: https://research.googleblog.com/2017/06/supercharge-your-computer-vision-models.html
Code: https://github.com/tensorflow/models/blob/master/object_detection/object_detection_tutorial.ipynb

其实一直以来，自驾驾驶并不是问题，即使没有深入学习或机器学习，自驾驾驶技术也可以非常成熟。真正的问题是在对象检测，例如行人和交通灯

现在有几种最先进的技术，我们可以使用。这里是2017年最受欢迎的检测模型。

Single Shot Multibox Detector (SSD) with MobileNets
SSD with Inception V2
Region-Based Fully Convolutional Networks (R-FCN) with Resnet 101
Faster RCNN with Resnet 101
Faster RCNN with Inception Resnet v2

简单解释背后的技术

首先，您需要了解，图像处理任务一般来说有四种类型

我们现在专注于第二个“分类+本地化(即在图象中划出行人在图中的位置)”

视频的基本形式只是一连串的图片。对于视频中的每个图像（我们称之为帧，如60 帧就等于每秒60张图像）。我们会人手划出图片中的猫的坐标，因此在这个2D图片上将有4个数字，以便在对象（猫）周围形成一个矩形。所以最后，我们的数据可以描述为很多对的图片和该图片中的4个坐标数。

猫和箭头之间的盒子是什么？

他们一般会包括Convolution和Maxpool，这里是一个例子。

Convolution和Maxpool：用于图像处理（包括Alpha Go的应用）中的技术，将图像缩细为较小的帧。这使得模型能够考虑更少的像素用于决策，同时保持良好的效果（在大多数情况下甚至更好）。

想了解更多有关图像处理的信息？查看我关于自驾AI的博客： https://steemit.com/gaming/@jimsparkle/using-ai-to-self-piloting-x-wing-in-star-wars-battlefront-with-howto-and-code

训练

所以机器一开始会为图片随机生成4个数字，并将其与真实坐标进行比较，然后调整模型以产生下一组更好的4个数字。如果机器自己训练数日，就能得到相当满意的效果。这总结了Facebook如何检测我们的脸，特斯拉检测到交通灯，并且FBI如何检测到您！

利用Python机器学习工具库Tensorflow和详细图片简单解释日本2020年奥运的自动驾驶技术

前言

正文

背后的技术

TensorFlow的物件检测API

简单解释背后的技术

猫和箭头之间的盒子是什么？

训练

您的支持对我的研究和机器学习报告非常重要。请FOLLOW，UPVOTE 100000％，我会根据您的兴趣继续分享（让我在评论中知道你的兴趣吧！）