精通Python网络爬虫-第一章-什么是网络爬虫

2017-06-20

字数统计: 725字 | 阅读时长≈ 2分

大数据时代，自动高效地获取互联网中感兴趣的信息并为我所用，这是爬虫解决的问题。

通常爬虫分两类，通用网络爬虫和聚焦网络爬虫。前者信息从高质量网页中爬取；后者根据检索和需求定位信息。

1.1 初识网络爬虫

网络爬虫算法：浏览信息的时候制定的规则。

爬虫离我们并不遥远，相反很近很近，每天用到的爬虫结果，如百度蜘蛛，360Spider，Sogouspider，Bingbot。

私人订制搜索引擎，并对采集原理深层次理解。采集信息-存储／处理-在采集回来的信息中检索。有些人的工作是搜索采集特定的信息，效率低下，所以可以考虑多了解一点搜索原理；学完之后，希望我能给出一些帮助。
大数据时代，按目的采集数据源，去掉无关数据（数据清理）。
了解搜索引擎原理，有助SEO。
爬虫工程师人才紧缺。

网络爬虫由控制节点、爬虫节点、资源库构成。

多个控制节点，每个控制节点下又可以有多个爬虫节点，之间都可以互相通信。

控制节点

又叫做爬虫的中央控制器，主要负责根据URL地址分配线程，并调用爬虫节点进行具体爬行。

按实现技术和结构可分：

1.通用网络爬虫

全网，数据量大，范围广，适合大型搜索引擎。

爬行策略：广度优先爬行策略和深度优先爬行策略。

2.聚焦网络爬虫

主题，定位在相关页面中，节省带宽和服务器资源。

4种策略：基于内容评价的爬行策略，基于链接评价的爬行策略，基于增强学习的爬行策略和基于语境图的爬行策略。

3.增量式网络爬虫

只更新改变的地方。

4.深层网络爬虫

网页按存在方式分为表层页面和深层页面，区别在于需不需要提交表单，不需要的静态页面为前者。

深层网络爬虫最重要的部分是表单填写部分。

表单填写分两类：第一种基于领域知识的表单填写；第二种基于网页结构分析的表单填写。

由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、连接过滤模块、内容评价模块、链接评价模块等组成。

图：聚焦爬虫运行流程图

聚焦爬虫运行流程图

文章都会同步发在公众号上，有兴趣的可以关注一下。
WechatQrcode