jupyter 的基本使用
-
new新建:
-
由cell组成:cell就是一行可编辑框
-
cell的作用:
- 根据不同的模式和笔记进行代码和笔记的编写,编写好的代码和笔记可以直接在当前文件中运行,并看到运行结果。
-
cell模式:
- code:
- 可以编写pyhon代码,可以编写一行或多行。
- 特性:编写代码的顺序是无所谓的,但是代码执行的顺序一定是自上而下的。
- markdown:编写笔记
- code:
-
folder:新建文件夹
-
text file:新建一个任意后缀的文本文件:
- 可以写程序,但是不能在文件中执行。
-
terminal:新建一个基于浏览器的终端。
-
-
快捷键的使用:
- 插入cell:a,b
- 删除cell:x
- 执行cell:shift+enter
- 切换cell的模式:m,y
- cell执行后,在cell左侧双击可以回到cell的可编辑模式
- 执行结果的收回:在执行结果左侧双击即可
- 打开帮助文档:shift+tab
- tab:自动补全
- 撤回操作:z
-
jupyter的源文件导出:
- file–>download as–>html
爬虫概述
- 什么是爬虫?
- 就是通过编写程序,让其模拟浏览器上网,然后再互联网中抓全数据的过程。
- 关键词抽取:
- 模拟:浏览器就是一个纯天然最原始的一个爬虫工具。
- 抓取:
- 抓取一整张的页面源码数据
- 抓取一整张页面的中的局部数据
- 关键词抽取:
- 就是通过编写程序,让其模拟浏览器上网,然后再互联网中抓全数据的过程。
- 爬虫的分类:
- 通用爬虫:
- 要求我们爬取一整张页面源码数据
- 聚焦爬虫:
- 要求爬取一张页面中的局部的数据
- 聚焦爬虫一定是建立在通用爬虫的基础之上的。
- 增量式爬虫:
- 用来监测网站数据更新的情况,一遍爬取到网站最新更新出来的数据。
- 分布式爬虫:
- 提高爬取效率的终极武器。
- 通用爬虫:
- 反爬机制:
- 是作用到门户网站中。如果网站不想让爬虫轻易爬取到数据,它可以制定相关的机制或措施组织爬虫程序爬取其数据。
- 反反爬策略:
- 是作用在爬虫程序中。我们爬虫可以制定相关的策略破极反爬机制从而爬取到相关的数据。
- 第一个反爬机制
- robots协议:(君子协议- -)
- 是一个纯文本的协议,协议中规定了该网站中哪些数据可以被爬虫爬取,哪些不可以被爬取。
- 破解:
- 主观性的不遵从该协议即可。
- robots协议:(君子协议- -)