从“机器会思考”的执念说起,聊聊神经网络到底是个啥(上篇)

从“机器会思考”的执念说起,聊聊神经网络到底是个啥(上篇) 先讲一个很老的故事1958年一个叫弗兰克·罗森布拉特的心理学家造了一台机器叫“感知机”。这台机器能做一件很简单的事看一张图片判断它是左边还是右边。在今天看来蠢得要死但在当时报纸上写的是——“电子大脑诞生”。为什么这么激动因为感知机的结构是模仿一个神经元的简化版1多个输入像树突接收信号2一个加权求和像细胞体整合信息3一个输出像轴突把信号传出去这就是神经网络的起点。所以神经网络到底是什么说白了就是把大量这样的小单元人工神经元按层连接起来形成一个可计算的网络。输入数据从一头进去经过一层一层的变换从另一头出来一个结果。中间那些层的参数权重通过训练数据自动调整让网络的输出越来越接近你想要的答案。你可以把它想象成一堆小算盘串在一起每个小算盘只知道一点点局部信息但连起来就能算很复杂的账。它为什么会出现为了解决什么坑你得回到“人工智能”刚被人当回事的年代。当时人们手里有什么工具逻辑推理比如“如果天下雨地就湿”但没法处理模糊的、不确定的东西线性分类器比如感知机但只能解决简单的线性问题一条直线能切开的第一个坑现实世界的问题大多不是线性的你怎么用一条直线区分一张照片里是猫还是狗根本不可能。你需要一种能表达极其复杂、非线性映射的函数。神经网络的理论基础万能近似定理说只要层数和神经元足够一个神经网络可以逼近任何函数。这是它出现的第一个原因表达复杂非线性关系。第二个坑特征得靠人手工设计太累了在神经网络火之前做图像识别得先手工设计特征比如边缘、角点、纹理再把这些特征喂给分类器。这活既枯燥又需要大量领域知识。神经网络尤其是深度学习能自动从原始数据里学出特征底层学边缘中层学形状高层学物体部件。你再也不用手工设计特征了。这是它出现的第二个原因端到端学习特征自动提取。第三个坑数据越来越多老算法扛不住了九十年代到两千年初SVM、随机森林这些算法在小数据上表现很好。但互联网起来之后数据量爆炸式增长——几百万张图片、几亿条文本。传统算法面对这么大规模的数据要么训练慢死要么表达力不够。神经网络尤其是GPU加速后的深度网络在大数据上表现出“尺度效应”数据越多效果越好没有明显的天花板。这就是神经网络的作用能消化海量数据且规模越大越强。