[关闭]
@coder-pig 2020-11-05T08:45:04.000000Z 字数 2499 阅读 383

Python爬虫 | 0x5 - Chrome抓包详解

Python爬虫教程


 

抓包(Packet Capture):将网络传输发送与接收的数据包进行截获、重发、编译、转存等操作,也用来检查网络安全。
——摘自《百度百科-抓包》

简单点说:抓取客户端与远程服务器间通信时传递的数据包

本节带着读者学习一波入门抓包工具——Chrome开发者工具的使用,此工具为Chrome浏览器内置,没安装此浏览器的请自行下载安装。

1、打开开发者工具

Windows下可按F12Ctrl+Shift+I、点击浏览器右上角更多工具打开:

也可以在页面元素上右键选择检查(Inspect)打开。

2、工具结构

打开后开发工具页面如下:

结构依次为:

抓包的话,主要关注Network选项卡,它由下图所示的四类窗格组成:

下面一一介绍下~

Control(控制器)

图标及对应描述如下所示:

Tips:HAR(HTTP Archive),HTTP档案规范,基于Json,用来存储HTTP请求/响应信息的通用文件格式。使用这种格式导出的数据可被其他支持HAR的HTTP分析工具(Fiddler,Httpwatch等)使用。

Filter(过滤器)

可在Filter输入框处输入过滤条件,比如:method:GET,只会显示Get请求方式的请求,常用指定条件如下表所示:

指定条件 描述
domain 资源所在的域,即url中的域名部分,如domain:coderpig.cn
has-response-header 资源是否存在响应头,无论其值是什么,如 has-response-header:
Access-Control-Allow-Origin
is 当前时间点在执行的请求,当前可用值:running
larger-than 显示大于指定值大小规格的资源,单位是字节(B),但是K(kB)和M(MB)
也是可以的,如larger-than:150K
method 使用何种HTTP请求方式,如GET方式
mime-type 也写作content-type,是资源类型的标识符。如text/html
scheme 协议,如HTTPS
set-cookie-name 服务器设置的cookies名称
set-cookie-value 服务器设置的cookies的值
set-cookie-domain 服务器设置的cookies的域
status-code HTTP响应头的状态码

而后跟着过滤不同类型的资源,按住ctrl/control点击,可以选择多个过滤器,可搭配Filter输入框一起使用。

Requests Table(请求列表)

请求列表对应字段及描述如下所示:

点击其中一个请求打开:

右侧顶部有五个选项卡,依次为:

编写爬虫时一般先看Headers选项卡,看下请求需用到的请求头,请求参数等,然后在看Response选项卡返回的数据查看要解析的结点。

另外,还可以右键,对请求仅限复制、保存,或者清除:

有点多,就不一一介绍了,读者可以自己试试。

其他

① 底下的Summary(摘要)是记录请求站点耗时,资源等,没太大作用就不详细介绍了。

② 还有Overview(概览),默认是关闭的,可以点击右上角的设置,勾选Show overview

此图表显示的是检索资源的时间轴,如果看到多个垂直堆叠,意味着这些资源时同时检索的。

③ 按住Shift并移动鼠标到资源上,可以查看它的发起者和依赖关系。

红色资源为当前请求的依赖绿色依赖此资源的请求

小贴士:可在浏览器键入 chrome://about 查看Chrome浏览器中所有的地址命令~

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注