爬虫概述

jupyter 的基本使用

  • new新建:

    • 由cell组成:cell就是一行可编辑框

    • cell的作用:

      • 根据不同的模式和笔记进行代码和笔记的编写,编写好的代码和笔记可以直接在当前文件中运行,并看到运行结果。
    • cell模式:

      • code:
        • 可以编写pyhon代码,可以编写一行或多行。
        • 特性:编写代码的顺序是无所谓的,但是代码执行的顺序一定是自上而下的。
      • markdown:编写笔记
    • folder:新建文件夹

    • text file:新建一个任意后缀的文本文件:

      • 可以写程序,但是不能在文件中执行。
    • terminal:新建一个基于浏览器的终端。

  • 快捷键的使用:

    • 插入cell:a,b
    • 删除cell:x
    • 执行cell:shift+enter
    • 切换cell的模式:m,y
    • cell执行后,在cell左侧双击可以回到cell的可编辑模式
    • 执行结果的收回:在执行结果左侧双击即可
    • 打开帮助文档:shift+tab
    • tab:自动补全
    • 撤回操作:z
  • jupyter的源文件导出:

    • file–>download as–>html

爬虫概述

  • 什么是爬虫?
    • 就是通过编写程序,让其模拟浏览器上网,然后再互联网中抓全数据的过程。
      • 关键词抽取:
        • 模拟:浏览器就是一个纯天然最原始的一个爬虫工具。
        • 抓取:
          • 抓取一整张的页面源码数据
          • 抓取一整张页面的中的局部数据
  • 爬虫的分类:
    • 通用爬虫:
      • 要求我们爬取一整张页面源码数据
    • 聚焦爬虫:
      • 要求爬取一张页面中的局部的数据
      • 聚焦爬虫一定是建立在通用爬虫的基础之上的。
    • 增量式爬虫:
      • 用来监测网站数据更新的情况,一遍爬取到网站最新更新出来的数据。
    • 分布式爬虫:
      • 提高爬取效率的终极武器。
  • 反爬机制:
    • 是作用到门户网站中。如果网站不想让爬虫轻易爬取到数据,它可以制定相关的机制或措施组织爬虫程序爬取其数据。
  • 反反爬策略:
    • 是作用在爬虫程序中。我们爬虫可以制定相关的策略破极反爬机制从而爬取到相关的数据。
  • 第一个反爬机制
    • robots协议:(君子协议- -)
      • 是一个纯文本的协议,协议中规定了该网站中哪些数据可以被爬虫爬取,哪些不可以被爬取。
    • 破解:
      • 主观性的不遵从该协议即可。
Licensed under CC BY-NC-SA 4.0
comments powered by Disqus