第三章:机器学习初醒:从数据中寻找规律

第三章:机器学习初醒:从数据中寻找规律 课程导入1980年代末人工智能正笼罩在第二次寒冬的阴霾之中。符号主义的辉煌已经消退专家系统的局限性暴露无遗商业界的热情急剧降温。许多人开始质疑人工智能是否只是一场不切实际的梦然而正是在这样的低谷时期一缕曙光正在悄然升起。一些研究者开始反思也许我们不应该试图把知识“灌输”给机器而是应该让机器自己从数据中“学习”知识。这种全新的思路就是“机器学习”。从一个简单的例子说起。当我们教孩子认识“猫”时我们不会一条一条地列出猫的特征而是会给孩子看很多猫的图片说“这是猫”。孩子的大脑会自动从这些例子中提取猫的特征下次看到新的猫时就能认出它。机器学习的思想也是如此不给机器明确的规则而是给它大量的例子让机器自己发现规律。这就是人工智能的下一章——机器学习的时代。课程目标理解机器学习的基本概念和核心思想掌握监督学习、无监督学习、强化学习的区别了解常见的机器学习算法线性回归、决策树、支持向量机认识特征工程的重要性和挑战核心内容一、什么是机器学习让我们先用一个生活中的例子来理解机器学习。假设你是一家房产中介的经纪人你需要根据房子的面积、位置、房龄等因素来估算房价。如果你使用传统的方法你可能会请专家制定一套复杂的规则比如“每平方米增加1000元”、“离地铁每近100米增加5000元”等等。但这种方法有两个问题第一制定规则需要大量的时间和专业知识第二房地产市场是动态变化的规则需要不断更新。现在让我们换一种思路收集过去房屋交易的真实数据包括每套房子的面积、位置、房龄以及最终的成交价格。然后我们使用一种算法让计算机从这些数据中自动发现价格与各个因素之间的关系。这种让计算机从数据中自动发现规律的方法就是“机器学习”。机器学习的正式定义机器学习是一门研究如何使用计算机模拟或实现人类学习活动的学科它通过对经验的利用来改善系统自身的性能。在机器学习中我们通常有训练数据用于学习的历史数据特征描述数据的属性如面积、位置、房龄标签我们想要预测的目标如房价模型从数据中学习到的规律预测使用模型对新数据进行预测二、监督学习有答案的学习监督学习是最常见的机器学习范式。它的特点是训练数据中有“正确答案”标签模型的任务是学习从特征到标签的映射。让我们看几个监督学习的例子分类问题预测离散标签邮件分类给定邮件的内容预测它是“垃圾邮件”还是“正常邮件”疾病诊断给定病人的症状和检查结果预测他是否患有某种疾病图像识别给定一张图片预测图片中的物体是什么回归问题预测连续数值房价预测给定房子的特征预测它的价格股票预测给定历史数据预测未来的股价温度预测给定各种气象数据预测未来的温度三、无监督学习没有答案的学习与监督学习不同无监督学习的训练数据没有标签。模型需要自己发现数据中的结构和规律。聚类把相似的数据点分组客户分群把客户按照购买行为分成不同的群体文档聚类把相似的文档归为一类图像分割把图像分成不同的区域降维把高维数据压缩到低维空间可视化把高维数据降到2-3维以便可视化特征压缩减少数据的维度去除冗余信息异常检测识别异常的数据点欺诈检测识别异常的交易行为设备故障检测识别异常的设备运行数据四、强化学习在试错中学习强化学习是一种非常特殊的学习范式它来自于一个有趣的观察人类和动物是如何学习的想象一下你第一次学骑自行车。你不知道怎样才能保持平衡你只能一次又一次地尝试摔倒然后再试。在这个过程中你会逐渐知道什么样的动作会让自己摔倒什么样的动作能够让自己保持平衡。强化学习正是模拟这种“在试错中学习”的过程。在强化学习中智能体Agent通过与环境交互获得奖励或惩罚并根据这些反馈来调整自己的行为策略。强化学习的核心要素智能体Agent学习和决策的主体环境Environment智能体所处的外部世界状态State描述环境当前的情况动作Action智能体可以采取的行动奖励Reward智能体获得反馈正值表示好负值表示差策略Policy从状态到动作的映射强化学习最著名的应用可能是AlphaGo。2016年AlphaGo击败了世界围棋冠军李世石引发了全球关注。AlphaGo正是通过强化学习从大量的围棋对局中学习如何下棋最终达到了超越人类的水平。五、经典机器学习算法让我们简单介绍几种经典的机器学习算法线性回归最简单的回归算法假设特征和标签之间存在线性关系。它的优点是简单、易解释但缺点是只能处理线性关系。逻辑回归虽然名字里有“回归”但它实际上是一种分类算法。它输出的是属于某个类别的概率。决策树通过对特征进行逐层划分来做出决策。它可以处理非线性关系而且决策过程可视化、易理解。但它容易过拟合即对训练数据表现很好但对新数据表现差。随机森林由多棵决策树组成的“森林”通过集成多棵树的结果来提高预测的准确性和稳定性。支持向量机SVM寻找一个能够最大化不同类别之间间隔的超平面。它在处理高维数据和小样本数据时表现出色。朴素贝叶斯基于贝叶斯定理的分类算法假设特征之间相互独立。它简单快速在文本分类等领域有广泛应用。六、特征工程数据的力量在机器学习领域有一句话“数据和特征决定了机器学习的上限而模型和算法只是逼近这个上限。”这句话强调了特征工程的重要性。特征工程是指把原始数据转换成模型能够有效利用的特征的过程。特征选择从众多特征中选择最相关的那些。过多的特征不仅会增加计算成本还可能导致过拟合。特征转换对特征进行数学变换使其更适合模型。例如对倾斜的分布进行对数变换使其更接近正态分布。特征构造基于现有特征创造新的特征。例如从出生日期构造出“年龄”特征。特征编码把非数值特征转换成数值特征。例如把“颜色”特征进行独热编码One-Hot Encoding。特征工程往往是机器学习项目中最耗时的部分需要领域知识、直觉和大量的尝试。知识点总结机器学习让计算机从数据中自动发现规律的方法监督学习有标签的学习用于分类和回归问题无监督学习无标签的学习用于聚类和降维强化学习通过试错学习根据奖励调整行为特征工程把原始数据转换成模型可用特征的过程课后思考监督学习、无监督学习、强化学习各适用于什么场景能否举出一些生活中的例子特征工程为什么如此重要如果特征选择不当会有什么后果机器学习和符号主义有什么本质区别它们各有什么优缺点结束语机器学习的兴起为人工智能注入了新的活力。与符号主义相比机器学习更加灵活能够自动从数据中学习不需要人工编码大量的规则。然而早期的机器学习算法仍然有很大的局限性。它们对特征工程有很强的依赖需要精心设计的特征才能取得好的效果。如果特征选择不当即使再好的算法也无法发挥威力。那么有没有一种方法能够让机器自动学习更好的特征答案就是——深度学习。在下一章中我们将看到一场更伟大的革命是如何发生的深度学习将如何让机器自动从数据中学习层次化的特征表示彻底改变人工智能的面貌。感谢观看我们下期再见