Linux 桌面玩家指南：15. 深度学习可以这样玩

时间：2018-12-16 11:16:15 阅读：349 评论：0 收藏：0 [点我收藏+]

标签：ssi 脚本编程语言图片导致 com 福利 JetBrains 编程数据集

特别说明：要在我的随笔后写评论的小伙伴们请注意了，我的博客开启了 MathJax 数学公式支持，MathJax 使用$标记数学公式的开始和结束。如果某条评论中出现了两个$，MathJax 会将两个$之间的内容按照数学公式进行排版，从而导致评论区格式混乱。如果大家的评论中用到了$，但是又不是为了使用数学公式，就请使用\$转义一下，谢谢。

想从头阅读该系列吗？下面是传送门：

Linux 桌面玩家指南：01. 玩转 Linux 系统的方法论【约 1.1 万字，22 张图片】
Linux 桌面玩家指南：02. 以最简洁的方式打造实用的 Vim 环境【约 0.97 万字，7 张图片】
Linux 桌面玩家指南：03. 针对 Gnome 3 的 Linux 桌面进行美化【约 0.58 万字，32 张图片】
Linux 桌面玩家指南：04. Linux 桌面系统字体配置要略【约 1.2 万字，34 张图片】
Linux 桌面玩家指南：05. 发博客必备的图片处理和视频录制神器【约 0.25 万字，14 张图片】
Linux 桌面玩家指南：06. 优雅地使用命令行及 Bash 脚本编程语言中的美学与哲学【约 1.4 万字，16 张图片】
Linux 桌面玩家指南：07. Linux 中的 Qemu、KVM、VirtualBox、Xen 虚拟机体验【约 0.95 万字，31 张图片】
Linux 桌面玩家指南：08. 使用 GCC 和 GNU Binutils 编写能在 x86 实模式运行的 16 位代码【约 0.6 万字，17 张图片】
Linux 桌面玩家指南：09. X Window 的奥秘【约 0.5 万字，14 张图片】
Linux 桌面玩家指南：10. 没有 GUI 的时候应该怎么玩【约 0.5 万字，32 张图片】
Linux 桌面玩家指南：11. 在同一个硬盘上安装多个 Linux 发行版以及为 Linux 安装 Nvidia 显卡驱动【约 0.4 万字，22 张图片】
Linux 桌面玩家指南：12. 优秀的文本化编辑思想大碰撞（Markdown、LaTeX、MathJax）【约 0.4 万字，8 张图片】
Linux 桌面玩家指南：13. 使用 Git 及其和 Eclipse 的集成【约 0.6 万字，31 张图片】
Linux 桌面玩家指南：14. 数值计算和符号计算【约 0.6 万字，15 张图片】

前言

这一篇相当于是深度学习方面的一个 Hello World 吧。深度学习目前大火，吸引了无数人。但是很多时候，想了解深度学习的人总觉得云山雾罩，怎么也看不明白。如果要是有一个能运行的简单的深度学习的例子该多好啊。我这里就来玩一玩深度学习，来一个让大家摸得着、看得见的例子，揭开深度学习的神秘面纱。语言方面，当然是选择对科学计算极度友好的 Python 啦。我当然不会从头撸代码，肯定会使用现成的库的啦。目前最流行的深度学习框架是 Keras，在 Keras 中，它又使用了大名鼎鼎的 TensorFlow 作为后端。在 Python 中，安装这几个库真的是太方便了。最后说一句，我用的是 Python3。

上一篇浮光掠影地讲了一下科学计算，并探讨了一下适合数值计算的语言需要什么样的特色。非常幸运，Python 正好具有这样的特色，准确地说，应该是 Python 中的 numpy 库正好具有这样的特色。上一篇的内容略有过时，比如 IPython Notebook，目前就已经改成 Jupyter Notebook 了。但是在这一篇中，我就不用什么 Notebook 了，我用 PyCharm。

JetBrains 大家都知道啦，JetBrains 全家桶是广大程序员的福利啦。做科学计算，使用 PyCharm 的 Community 版就足够了，没必要下载 Professional 版啦，我更加是不鼓励大家用破解版的啦。

环境安装

到 JetBrains 的官网下载最新的 PyCharm 2018.3，正如前面所说，Community 版就够了。解压，运行之，用它创建一个 Python 项目，选择使用虚拟环境，如下图：
技术分享图片

使用虚拟环境的好处，是可以为这个项目单独安装依赖的库，不用担心为了学一个什么东西而把系统中的 Python 搞得乱七八糟。直接打开 PyCharm 中的 Terminal，就可以进入这个项目的虚拟环境，在这个 Terminal 中运行的命令，默认就在这个项目的虚拟环境中执行。我们可以在这个 Terminal 中运行pip3 install命令安装所有需要的库。在 PyCharm 中使用pip3 install命令时，有一个令人头痛的问题，那就是从国外的源下载的速度太慢，我们可以替换成国内的源。我太懒，都是使用临时替换，只需要添加-i 源地址参数就可以了。例如，要安装 numpy，并且选择从阿里云下载，就使用pip3 install numpy -i https://mirrors.aliyun.com/pypi/simple/命令。如下图：
技术分享图片

常用的国内源有：

清华：https://pypi.tuna.tsinghua.edu.cn/simple
阿里云：https://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学：http://pypi.hustunique.com/
山东理工大学：http://pypi.sdutlinux.org/
豆瓣：http://pypi.douban.com/simple/

新版 Ubuntu 要求使用 https 源，要注意。

在这里，我们需要安装 numpy、keras、tensorflow、matplotlib 库，numpy 用来操作向量和矩阵，matplotlib 用来画图。为了能够读取和预处理图片，我还需要使用 PIL，可惜 PIL 不支持 Python 3，不过没关系，使用 Pillow 就好了。安装这几个库只需要如下几个命令：

pip3 install numpy -i https://mirrors.aliyun.com/pypi/simple/
pip3 install tensorflow -i https://mirrors.aliyun.com/pypi/simple/
pip3 install keras -i https://mirrors.aliyun.com/pypi/simple/
pip3 install matplotlib -i https://mirrors.aliyun.com/pypi/simple/
pip3 install Pillow -i https://mirrors.aliyun.com/pypi/simple/

这些库都直接安装到了我们的项目内，不会和系统中的 Python 起冲突。如下图：
技术分享图片

PyCharm 最大的优势当然是它的自动代码提示了。不管是写一个.py文件，还是直接使用 PyCharm 中的 Python Console，就是有非常好的代码提示的。Python Console 还有一个非常棒的功能，就是可以观察每一个变量的值，真的是太方便了。如下图：
技术分享图片

而在系统的终端中直接运行 Python3，我们是得不到这么好的辅助功能的。如下图：
技术分享图片

最简单的深度学习示例

首先，我们看一个最简单的深度学习示例，就是训练一个能够识别手写数字的密集连接神经网络。在这里，我们需要一个用于训练和测试的数据集，而这个数据集就是 MNIST 数据集，该数据集包含 60000 张用于训练的 28×28 像素的手写数字图片，以及 10000 张用于训练的 28×28 像素的手写数字图片。Keras 能够自动下载该数据集。训练这个神经网络的代码如下：

from keras.datasets import mnist
from keras import models
from keras import layers
from keras.utils import to_categorical

(train_images, train_labels),(test_images, test_labels) = mnist.load_data()

network = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28*28,)))
network.add(layers.Dense(10, activation='softmax'))

network.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

train_images = train_images.reshape((60000, 28*28))
train_images = train_images.astype('float32') / 255

test_images = test_images.reshape(10000, 28*28)
test_images = test_images.astype('float32') / 255

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

network.fit(train_images, train_labels, epochs=5, batch_size=128)

把以上这几行代码逐行输入到 PyCharm 的 Python 控制台，就可以看到效果了。当输入到(train_images, train_labels),(test_images, test_labels) = mnist.load_data()这一行时，Keras 就会自动下载 MNIST 数据集，可惜的是，由于下载地址被墙的原因，经常会出现下载失败的情况。不过出现下载失败也不用着急，用搜索引擎找一下，很容易找到这个数据集的文件：mnist.npz文件，大小才 11.5M，下载很快的。把下载的这个文件放到~/.keras/datasets目录中即可。

以上所有的代码都输入完成后，就开始了训练，在这个例子中，训练速度非常快，每个周期 4 秒多就完成了，总共 5 个周期。如下图：
技术分享图片

可以看到，这个神经网络达到了 98.9% 的精度。下面，我自己手写一个数字测试一下。先打开 Inkscape，自己随便写一个数字，如下图：
技术分享图片

保存为~/test.png。然后，用下面的代码把该图片读入内存，并更改大小为 28×28 像素，最后转化为灰度图像。这些操作都使用 PIL 完成。PIL 操作图像那是相当的方便。

from PIL import Image
image = Image.open('/home/youxia/test.png').resize((28,28)).convert('L')

然后，将该图像转化为 numpy 的数组，并将其中的数据处理为 0 到 1 之间的浮点数。

import numpy as np
im = np.array(image)
im = 255 - im
im = im.astype('float32') / 255.0

可以使用 matplotlib 查看一下该图像，代码如下：

import matplotlib.pyplot as plt
plt.imshow(im, cmap=plt.cm.binary)

这是我们处理好之后的图像是下面这个效果，和 MNIST 自带的图像基本基本一致:
技术分享图片

下面使用我们前面训练的神经网络来识别该图片，使用 predict 函数即可。识别时，需要将图像数据的 shape 更改为 (1,784):

network.predict(im.reshape(1,784))

返回的值是一个包含是个数字的列表，代表该图片可能为数字 0-9 的概率，可以看到，其中第 6 项，也就是为数字 5 的概率最大，接近于 1:

array([[2.19245143e-11, 7.56166017e-13, 2.06190620e-10, 3.12406366e-04,
        1.12510295e-13, 9.99686599e-01, 8.85503199e-11, 2.70172443e-11,
        2.85677032e-07, 7.55779013e-07]], dtype=float32)

如果不想自己用眼睛去判断哪个概率值最大，可以使用 numpy 的 argmax 函数，如下：

np.argmax(network.predict(im.reshape(1,784)))

返回结果为几，就说明识别出的数字为几，如下：

从密集连接神经网络到卷积神经网络

前面的例子使用的是密集连接神经网络，每一幅图像都转化为一个以为向量进行处理。在对图像进行深度学习时，最常用的方法是二维卷积神经网络。卷积神经网络的优点一是学到的模式具有平移不变性，在图像某一个区域学习到的模式，如果模式出现在新位置，它仍然能够识别；二是卷积神经网络可以学到模式的空间层次结构。

在 Keras 中，对卷积神经网络也提供了非常强大的支持。上一节的代码，只需要进行简单的修改，就可以构建一个二维卷积神经网络，代码如下：

from keras import layers
from keras import models
from keras.datasets import mnist
from keras.utils import to_categorical


model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)))
model.add(layers.MaxPooling2D(2, 2))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D(2, 2))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))

model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images = train_images.reshape((60000, 28, 28, 1))
train_images = train_images.astype('float32') / 255
test_images = test_images.reshape(10000, 28, 28, 1)
test_images = test_images.astype('float32') / 255

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

model.fit(train_images, train_labels, epochs=5, batch_size=64)

主要的改变体现在以下几个方面：一是使用 Conv2D 层、MaxPooling 层和 Flatten 层修改了深度学习框架的结构，二是修改了输入数组的形状。除此之外，该深度学习框架使用的激活函数、损失函数都和前面是一样的。训练该网络，发现它比前面的网络训练起来要慢一些，但是达到了 99.3%的准确度。

使用如下代码进行验证：

import numpy as np
from PIL import Image

im = np.array(Image.open('/home/youxia/test.png').resize((28,28)).convert('L'))
im = 255 - im
im = im.astype('float32') / 255.0

print(np.argmax(model.predict(im.reshape(1, 28, 28, 1))))