Linking

Capturing Life & Tech

  • 主页
  • 随笔
  • 关于我
所有文章 外链

Linking

Capturing Life & Tech

  • 主页
  • 随笔
  • 关于我

精通Python网络爬虫-第一章-什么是网络爬虫

阅读数:次 2017-06-20
字数统计: 725字   |   阅读时长≈ 2分

大数据时代,自动高效地获取互联网中感兴趣的信息并为我所用,这是爬虫解决的问题。

通常爬虫分两类,通用网络爬虫和聚焦网络爬虫。前者信息从高质量网页中爬取;后者根据检索和需求定位信息。

1.1 初识网络爬虫

网络爬虫算法:浏览信息的时候制定的规则。

爬虫离我们并不遥远,相反很近很近,每天用到的爬虫结果,如百度蜘蛛,360Spider,Sogouspider,Bingbot。

1.2 为什么学网络爬虫

  • 私人订制搜索引擎,并对采集原理深层次理解。采集信息-存储/处理-在采集回来的信息中检索。有些人的工作是搜索采集特定的信息,效率低下,所以可以考虑多了解一点搜索原理;学完之后,希望我能给出一些帮助。
  • 大数据时代,按目的采集数据源,去掉无关数据(数据清理)。
  • 了解搜索引擎原理,有助SEO。
  • 爬虫工程师人才紧缺。

1.3 网络爬虫的组成

网络爬虫由控制节点、爬虫节点、资源库构成。

多个控制节点,每个控制节点下又可以有多个爬虫节点,之间都可以互相通信。

控制节点

又叫做爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行具体爬行。

网络爬虫类型

按实现技术和结构可分:

1.通用网络爬虫

全网,数据量大,范围广,适合大型搜索引擎。

爬行策略:广度优先爬行策略和深度优先爬行策略。

2.聚焦网络爬虫

主题,定位在相关页面中,节省带宽和服务器资源。

4种策略:基于内容评价的爬行策略,基于链接评价的爬行策略,基于增强学习的爬行策略和基于语境图的爬行策略。

3.增量式网络爬虫

只更新改变的地方。

4.深层网络爬虫

网页按存在方式分为表层页面和深层页面,区别在于需不需要提交表单,不需要的静态页面为前者。

深层网络爬虫最重要的部分是表单填写部分。

表单填写分两类:第一种基于领域知识的表单填写;第二种基于网页结构分析的表单填写。

1.5 爬虫扩展-聚焦爬虫

由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、连接过滤模块、内容评价模块、链接评价模块等组成。

图:聚焦爬虫运行流程图

聚焦爬虫运行流程图

文章都会同步发在公众号上,有兴趣的可以关注一下。
WechatQrcode

  • 本文作者: Linking
  • 本文链接: https://linking.fun/2017/06/20/精通Python网络爬虫-第一章-什么是网络爬虫/
  • 版权声明: 版权所有,转载请注明出处!
  • Python
  • crawler
  • Python

扫一扫,分享到微信

精通Python网络爬虫-第二章-网络爬虫技能总览
回归
  1. 1. 1.1 初识网络爬虫
  2. 2. 1.2 为什么学网络爬虫
  3. 3. 1.3 网络爬虫的组成
  4. 4. 网络爬虫类型
  5. 5. 1.5 爬虫扩展-聚焦爬虫
© 2015-2026 Linking
GitHub:hexo-theme-yilia-plus by Litten
本站总访问量次 | 本站访客数人
  • 所有文章
  • 外链

tag:

  • weather
  • 需求
  • essay
  • basketball
  • olympic
  • nginx
  • APPScan
  • SQl盲注
  • xss
  • Ajax
  • ajax
  • ai
  • agent
  • openclaw
  • ccf
  • Nginx
  • HTML5
  • html5
  • hmtl5
  • sse
  • JavaScriptCore
  • Oracle
  • operation
  • Linux
  • deploy
  • Mac Office
  • markdown
  • ListView
  • GridView
  • MySQL
  • 慢查询
  • mongodb
  • 转置
  • thought
  • network
  • ubuntu
  • NetworkManager
  • RFKill
  • Netplan
  • avatar
  • cocoa
  • blog
  • Gitalk
  • container
  • macvlan
  • docker
  • oracle
  • cookie
  • patch
  • gitea
  • git
  • iOS
  • https
  • 多线程
  • bundle
  • 兼容性
  • HTTP
  • 绘图
  • cs
  • java
  • 效率
  • 快捷键
  • route
  • nodejs
  • pip
  • arcgis
  • arcgis 建模
  • 标识
  • redis
  • read
  • bookList
  • running
  • showdoc
  • disk
  • unit-test
  • D.Wade
  • thoughts
  • duoduo
  • Python
  • python
  • tomcat
  • 读书节
  • session
  • jdk
  • war
  • 加班
  • Android onclick事件监听
  • 正则
  • 手机品牌匹配
  • ntp
  • OpenLayers
  • Geoserver
  • wechat
  • 微信公众号
  • 爬虫
  • WeChat
  • 张靓颖
  • 动漫
  • vpn
  • PPT
  • MarkDown
  • plan
  • 朱赟
  • 极客时间专栏
  • 极客邦
  • 模块化
  • MVC
  • excel
  • NBA
  • kobe
  • team
  • crawler
  • 进度条
  • ssl
  • book
  • anti-stealing-link
  • Agentic Engineering
  • Vibe Coding
  • Software 3.0
  • Andrej Karpathy
  • LLM
  • Programming

    缺失模块。
    1、请确保node版本大于6.2
    2、在博客根目录(注意不是yilia-plus根目录)执行以下命令:
    npm i hexo-generator-json-content --save

    3、在根目录_config.yml里添加配置:

      jsonContent:
        meta: false
        pages: false
        posts:
          title: true
          date: true
          path: true
          text: false
          raw: false
          content: false
          slug: false
          updated: false
          comments: false
          link: false
          permalink: false
          excerpt: false
          categories: false
          tags: true
    

  • GitHub Trending
  • OpenAI ChatGPT
  • Gitee码云
  • 简书
  • CSDN