第二章 网络爬虫技能总览
2.1 网络爬虫技能总览图
图 2-1 网络爬虫技能总览图
图中的意思就是,爬虫可以代替许多手工重复的工作,用爬虫去访问互联网,得到自己感兴趣的数据。从而提升获取信息的效率。
2.2 搜索引擎的核心
图2.2 搜索引擎的核心工作流程
其中控制器进行爬行的控制,爬行器执行具体的爬行任务。
索引是属性,如超市的商品分类;检索是行为动作,在超市中找货。
2.3 用户爬虫的那些事
用户爬虫,即专门爬取互联网用户数据的爬虫。是网络爬虫等一种。由于用户数据多属敏感信息,所以价值较高。
利用用户爬虫可以做很多有趣的数据,在社交网站爬取大量用户数据,分析可看出用户的行为信息。如爬虫教程经常光顾的知乎、QQ空间等。
用户爬虫可以做很多有意思的事情。
闲话
今天有一件事情,非常值得记录。
事情是这样,最近除了改bug之外的大部分时间都在集成环信,做实时聊天功能,之前没什么经验,加之官方文档和demo写的迷,遇到了一些困难;这两天都卡在用户昵称和头像的问题上了。
走了不少弯路,基本上这个星期就是一个绝境走向另一个绝境,几乎绝望啊,还好我没有放弃。总算把官方文档一处不明显的注解看懂了。等到功能完成之后会在个人blog-https://linking123.github.io上放出开发过程中遇到的问题总结。
学到的经验是,遇到问题,需要持续花时间探索,看源码、搜索论坛经验贴等,总之,想翻过一座山,是要下一番功夫的。翻过去之后看见的风景好美,哈哈。
完
—– 2017-06-21 于霸都
- 本文作者: Linking
- 本文链接: https://linking.fun/2017/06/21/精通Python网络爬虫-第二章-网络爬虫技能总览/
- 版权声明: 版权所有,转载请注明出处!