大数据时代,自动高效地获取互联网中感兴趣的信息并为我所用,这是爬虫解决的问题。
通常爬虫分两类,通用网络爬虫和聚焦网络爬虫。前者信息从高质量网页中爬取;后者根据检索和需求定位信息。
1.1 初识网络爬虫
网络爬虫算法:浏览信息的时候制定的规则。
爬虫离我们并不遥远,相反很近很近,每天用到的爬虫结果,如百度蜘蛛,360Spider,Sogouspider,Bingbot。
1.2 为什么学网络爬虫
- 私人订制搜索引擎,并对采集原理深层次理解。采集信息-存储/处理-在采集回来的信息中检索。有些人的工作是搜索采集特定的信息,效率低下,所以可以考虑多了解一点搜索原理;学完之后,希望我能给出一些帮助。
- 大数据时代,按目的采集数据源,去掉无关数据(数据清理)。
- 了解搜索引擎原理,有助SEO。
- 爬虫工程师人才紧缺。
1.3 网络爬虫的组成
网络爬虫由控制节点、爬虫节点、资源库构成。
多个控制节点,每个控制节点下又可以有多个爬虫节点,之间都可以互相通信。
控制节点
又叫做爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行具体爬行。
网络爬虫类型
按实现技术和结构可分:
1.通用网络爬虫
全网,数据量大,范围广,适合大型搜索引擎。
爬行策略:广度优先爬行策略和深度优先爬行策略。
2.聚焦网络爬虫
主题,定位在相关页面中,节省带宽和服务器资源。
4种策略:基于内容评价的爬行策略,基于链接评价的爬行策略,基于增强学习的爬行策略和基于语境图的爬行策略。
3.增量式网络爬虫
只更新改变的地方。
4.深层网络爬虫
网页按存在方式分为表层页面和深层页面,区别在于需不需要提交表单,不需要的静态页面为前者。
深层网络爬虫最重要的部分是表单填写部分。
表单填写分两类:第一种基于领域知识的表单填写;第二种基于网页结构分析的表单填写。
1.5 爬虫扩展-聚焦爬虫
由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、连接过滤模块、内容评价模块、链接评价模块等组成。
图:聚焦爬虫运行流程图
文章都会同步发在公众号上,有兴趣的可以关注一下。
- 本文作者: Linking
- 本文链接: https://linking.fun/2017/06/20/精通Python网络爬虫-第一章-什么是网络爬虫/
- 版权声明: 版权所有,转载请注明出处!