精通Python网络爬虫-第二章-网络爬虫技能总览

2017-06-21

字数统计: 531字 | 阅读时长≈ 1分

第二章网络爬虫技能总览

图 2-1 网络爬虫技能总览图

图中的意思就是，爬虫可以代替许多手工重复的工作，用爬虫去访问互联网，得到自己感兴趣的数据。从而提升获取信息的效率。

图2.2 搜索引擎的核心工作流程

其中控制器进行爬行的控制，爬行器执行具体的爬行任务。

索引是属性，如超市的商品分类；检索是行为动作，在超市中找货。

用户爬虫，即专门爬取互联网用户数据的爬虫。是网络爬虫等一种。由于用户数据多属敏感信息，所以价值较高。

利用用户爬虫可以做很多有趣的数据，在社交网站爬取大量用户数据，分析可看出用户的行为信息。如爬虫教程经常光顾的知乎、QQ空间等。

用户爬虫可以做很多有意思的事情。

今天有一件事情，非常值得记录。

事情是这样，最近除了改bug之外的大部分时间都在集成环信，做实时聊天功能，之前没什么经验，加之官方文档和demo写的迷，遇到了一些困难；这两天都卡在用户昵称和头像的问题上了。

走了不少弯路，基本上这个星期就是一个绝境走向另一个绝境，几乎绝望啊，还好我没有放弃。总算把官方文档一处不明显的注解看懂了。等到功能完成之后会在个人blog-https://linking123.github.io上放出开发过程中遇到的问题总结。

学到的经验是，遇到问题，需要持续花时间探索，看源码、搜索论坛经验贴等，总之，想翻过一座山，是要下一番功夫的。翻过去之后看见的风景好美，哈哈。

完

—– 2017-06-21 于霸都