小白都能看懂的神经网络教程：从原理到优化如此简单

知行编程网 2022-03-16 11:00 知行编程网 | 隐藏边栏 | 抢沙发 | 25 0

文章评分 0 次，平均分 0.0 ：

来自| 晓查凹非寺

报道| 量子位

“我在网上看到过很多神经网络的实现方法，但这一篇是最简单、最清晰的。”

一位来自普林斯顿的华人小哥Victor Zhou，写了篇神经网络入门教程，在线代码网站Repl.it联合创始人Amjad Masad看完以后，给予如是评价。

这篇教程发布仅天时间，就在Hacker News论坛上收获了574赞。程序员们纷纷夸赞这篇文章的代码写得很好，变量名很规范，让人一目了然。

下面就让我们一起从零开始学习神经网络吧。

实现方法

【1】搭建基本模块——神经元

在说神经网络之前，我们讨论一下神经元（Neurons），它是神经网络的基本单元。神经元先获得输入，然后执行某些数学运算后，再产生一个输出。比如一个2输入神经元的例子：

在这个神经元中，输入总共经历了3步数学运算，

先将两个输入乘以权重（weight）：

x₁→x₁ × w₁
x₂→x₂ × w₂

把两个结果想加，再加上一个偏置（bias）：

（x₁ × w₁）+（x₂ × w₂）+ b

最后将它们经过激活函数（activation function）处理得到输出：

y = f(x₁ × w₁+ x₂ × w₂+ b)

激活函数的作用是将无限制的输入转换为可预测形式的输出。一种常用的激活函数是sigmoid函数：

sigmoid函数的输出介于0和1，我们可以理解为它把 (−∞,+∞) 范围内的数压缩到 (0, 1)以内。正值越大输出越接近1，负向数值越大输出越接近0。

举个例子，上面神经元里的权重和偏置取如下数值：

w=[0,1]
b = 4

w=[0,1]是w₁=0、w₂=1的向量形式写法。给神经元一个输入x=[2,3]，可以用向量点积的形式把神经元的输出计算出来：

w·x+b =（x₁ × w₁）+（x₂ × w₂）+ b = 0×2+1×3+4=7
y=f(w⋅X+b)=f(7)=0.999

以上步骤的Python代码是：

我们在代码中调用了一个强大的Python数学函数库NumPy。

【2】搭建神经网络

神经网络就是把一堆神经元连接在一起，下面是一个神经网络的简单举例：

这个网络有2个输入、一个包含2个神经元的隐藏层（h₁和h₂）、包含1个神经元的输出层o₁。

隐藏层是夹在输入输入层和输出层之间的部分，一个神经网络可以有多个隐藏层。

把神经元的输入向前传递获得输出的过程称为前馈（feedforward）。

我们假设上面的网络里所有神经元都具有相同的权重w=[0,1]和偏置b=0，激活函数都是sigmoid，那么我们会得到什么输出呢？

h₁=h₂=f(w⋅x+b)=f((0×2)+(1×3)+0)
=f(3)
=0.9526

o₁=f(w⋅[h₁,h₂]+b)=f((0∗h₁)+(1∗h₂)+0)
=f(0.9526)
=0.7216

以下是实现代码：

【3】训练神经网络

现在我们已经学会了如何搭建神经网络，现在我们来学习如何训练它，其实这就是一个优化的过程。

假设有一个数据集，包含4个人的身高、体重和性别：

现在我们的目标是训练一个网络，根据体重和身高来推测某人的性别。

为了简便起见，我们将每个人的身高、体重减去一个固定数值，把性别男定义为1、性别女定义为0。

在训练神经网络之前，我们需要有一个标准定义它到底好不好，以便我们进行改进，这就是损失（loss）。

比如用均方误差（MSE）来定义损失：

n是样本的数量，在上面的数据集中是4；
y代表人的性别，男性是1，女性是0；
y_true是变量的真实值，y_pred是变量的预测值。

顾名思义，均方误差就是所有数据方差的平均值，我们不妨就把它定义为损失函数。预测结果越好，损失就越低，训练神经网络就是将损失最小化。

如果上面网络的输出一直是0，也就是预测所有人都是男性，那么损失是：

MSE= 1/4 (1+0+0+1)= 0.5

计算损失函数的代码如下：

【4】减少神经网络损失

这个神经网络不够好，还要不断优化，尽量减少损失。我们知道，改变网络的权重和偏置可以影响预测值，但我们应该怎么做呢？

为了简单起见，我们把数据集缩减到只包含Alice一个人的数据。于是损失函数就剩下Alice一个人的方差：

预测值是由一系列网络权重和偏置计算出来的：

所以损失函数实际上是包含多个权重、偏置的多元函数：

（注意！前方高能！需要你有一些基本的多元函数微分知识，比如偏导数、链式求导法则。）

如果调整一下w₁，损失函数是会变大还是变小？我们需要知道偏导数∂L/∂w₁是正是负才能回答这个问题。

根据链式求导法则：

而L=(1-y_pred)²，可以求得第一项偏导数：

接下来我们要想办法获得y_pred和w₁的关系，我们已经知道神经元h₁、h₂和o₁的数学运算规则：

实际上只有神经元h₁中包含权重w₁，所以我们再次运用链式求导法则：

然后求∂h₁/∂w₁

我们在上面的计算中遇到了2次激活函数sigmoid的导数f′(x)，sigmoid函数的导数很容易求得：

总的链式求导公式：

这种向后计算偏导数的系统称为反向传播（backpropagation）。

上面的数学符号太多，下面我们带入实际数值来计算一下。h₁、h₂和o₁

h₁=f(x_1⋅w₁+x₂⋅w_2+b₁)=0.0474

h₂=f(w₃⋅x₃+w₄⋅x₄+b₂)=0.0474

o₁=f(w₅⋅h₁+w₆⋅h₂+b₃)=f(0.0474+0.0474+0)=f(0.0948)=0.524

神经网络的输出y=0.524，没有显示出强烈的是男（1）是女（0）的证据。现在的预测效果还很不好。

我们再计算一下当前网络的偏导数∂L/∂w₁：

这个结果告诉我们：如果增大w₁，损失函数L会有一个非常小的增长。

【5】随机梯度下降

下面将使用一种称为随机梯度下降（SGD）的优化算法，来训练网络。

经过前面的运算，我们已经有了训练神经网络所有数据。但是该如何操作？SGD定义了改变权重和偏置的方法：

η是一个常数，称为学习率（learning rate），它决定了我们训练网络速率的快慢。将w₁减去η·∂L/∂w₁，就等到了新的权重w₁。

当∂L/∂w₁是正数时，w₁会变小；当∂L/∂w₁是负数时，w₁会变大。

如果我们用这种方法去逐步改变网络的权重w和偏置b，损失函数会缓慢地降低，从而改进我们的神经网络。

训练流程如下：

1、从数据集中选择一个样本；
2、计算损失函数对所有权重和偏置的偏导数；
3、使用更新公式更新每个权重和偏置；
4、回到第1步。

我们用Python代码实现这个过程：

随着学习过程的进行，损失函数逐渐减小。

现在我们可以用它来推测出每个人的性别了：

这篇教程只是万里长征第一步，后面还有很多知识需要学习：

1、用更大更好的机器学习库搭建神经网络，如Tensorflow、Keras、PyTorch
2、在浏览器中的直观理解神经网络：https://playground.tensorflow.org/
3、学习sigmoid以外的其他激活函数：https://keras.io/activations/
4、学习SGD以外的其他优化器：https://keras.io/optimizers/
5、学习卷积神经网络（CNN）
6、学习递归神经网络（RNN）

这些都是Victor给自己挖的“坑”。他表示自己未来“可能”会写这些主题内容，希望他能陆续把这些坑填完。如果你想入门神经网络，不妨去订阅他的博客。

关于小哥

Victor Zhou是普林斯顿2019级CS毕业生，已经拿到Facebook软件工程师的offer，今年8月入职。他曾经做过JS编译器，还做过两款页游，一个仇恨攻击言论的识别库。

最后附上小哥的博客链接：
https://victorzhou.com/

为您推荐

清华NLP实验室刘知远：如何写一篇合格的NLP论文

从一个骗局谈生活中的基础算法

9000星，微软开源的计算器Github项目突然火了

百度2019春季实习生招聘正式开幕！

本篇文章来源于: 深度学习这件小事

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

【1】搭建基本模块——神经元

【2】搭建神经网络

【3】训练神经网络

【4】减少神经网络损失

【5】随机梯度下降

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利

小白都能看懂的神经网络教程：从原理到优化如此简单

【1】搭建基本模块——神经元

【2】搭建神经网络

【3】训练神经网络

【4】减少神经网络损失

【5】随机梯度下降

分享本文海报

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利