网络爬虫又称为网络蜘蛛或网络机器人等是一种按照一定规则自动爬取万维网信息的程序或者脚本通俗的讲就是通过程序去获取Web页面上所需要的数据也就是自动爬取数据。比如搜索引擎就是一个大型的网络爬虫百度搜索引擎的爬虫叫作Baiduspider、360搜索引擎的爬虫叫360Spider、搜狗搜索引擎的爬虫叫Sogouspider必应搜索引擎的爬虫叫Bingbot等。据权威网站统计调查世界上近80%的网络爬虫都是基于Python开发的而学习网络爬虫则可以为后续的数据分析、数据挖掘和机器学习等技术提供重要的数据源。此外通过使用网络爬虫可以爬取到任何能通过浏览器访问到的数据包括文字、图片、音频、视频和应用程序等进而可以从中获取所需要的数据资源比如电影封面图片、证券交易数据、金融信息数据、天气数据和网站用户数据等。网络爬虫按照实现的技术和结构可以进一步分为通用网络爬虫和聚焦网络爬虫。1通用网络爬虫通用网络爬虫是捜索引擎抓取系统的重要组成部分主要目的是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。2聚焦网络爬虫聚焦网络爬虫是面向特定需求的一种网络爬虫程序其目的是在实施网页抓取时对内容进行筛选和处理尽量保证只抓取与需求相关的网页信息。聚焦网络爬虫又可以细分为积累网络爬虫、增量网络爬虫和深度网络爬虫而在实际的使用过程中通常也是将这几类网络爬虫组合使用。
第1章 网络爬虫-1.1 网络爬虫简介
网络爬虫又称为网络蜘蛛或网络机器人等是一种按照一定规则自动爬取万维网信息的程序或者脚本通俗的讲就是通过程序去获取Web页面上所需要的数据也就是自动爬取数据。比如搜索引擎就是一个大型的网络爬虫百度搜索引擎的爬虫叫作Baiduspider、360搜索引擎的爬虫叫360Spider、搜狗搜索引擎的爬虫叫Sogouspider必应搜索引擎的爬虫叫Bingbot等。据权威网站统计调查世界上近80%的网络爬虫都是基于Python开发的而学习网络爬虫则可以为后续的数据分析、数据挖掘和机器学习等技术提供重要的数据源。此外通过使用网络爬虫可以爬取到任何能通过浏览器访问到的数据包括文字、图片、音频、视频和应用程序等进而可以从中获取所需要的数据资源比如电影封面图片、证券交易数据、金融信息数据、天气数据和网站用户数据等。网络爬虫按照实现的技术和结构可以进一步分为通用网络爬虫和聚焦网络爬虫。1通用网络爬虫通用网络爬虫是捜索引擎抓取系统的重要组成部分主要目的是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。2聚焦网络爬虫聚焦网络爬虫是面向特定需求的一种网络爬虫程序其目的是在实施网页抓取时对内容进行筛选和处理尽量保证只抓取与需求相关的网页信息。聚焦网络爬虫又可以细分为积累网络爬虫、增量网络爬虫和深度网络爬虫而在实际的使用过程中通常也是将这几类网络爬虫组合使用。