[关闭]
@websec007 2020-08-13T17:00:04.000000Z 字数 1754 阅读 750

爬虫学习笔记(疫情数据可视化)

爬虫学习


1. 项目展示

2. 前置技能

3. 技术亮点

  1. 采用requests 库爬取数据;
  2. 采用BS4解析页面数据;
  3. 采用正则表达式提取不规则数据;
  4. 采用json模块处理json数据;
  5. 采用类封装爬虫项目;
  6. 对爬虫代码进行重构,提供其可扩展性和复用性;

4. 开发环境

1. 采用框架

2. 开发工具

5. requests 库

5.1 requests 库介绍与安装

requests库是一个模仿浏览器客户端向服务器发送网页请求的第三方python库;

  1. # requests 镜像安装
  2. pip install requests -i https://mirrors.aliyun.com/pypi/simples

5.2 requests 库基本使用

  1. # 导入库
  2. import requests
  3. # 发送情况,获取响应
  4. url = https://xxx.com
  5. response = requests.get(url)
  6. # 获取响应数据
  7. response.encoding = 'utf-8'
  8. print(response.content)
  9. print(response.text)
  10. print(response.content.decode('utf-8'))

5.3 response 基本属性

  1. # 将二进制流转换为字符串,并打印输出
  2. print(response.content.decode('utf-8'))
  3. # 指定响应体编码方式为utf-8,然后打印输出响应体字符类数据
  4. response.coding = 'utf-8'
  5. print(response.text)

5.4 reque 实例

  1. # 导入第三方模块
  2. import requests
  3. # 发送get请求,获取响应体
  4. url = 'https://www.baidu.com'
  5. response = request.get(url)
  6. # 获取响应体文本内容
  7. text = response.content.encode('utf-8')
  8. print(text)
  9. # 或使用以下方法
  10. # response.encoding = 'utf-8'
  11. # text = response.text

6. BeautifulSoup 库

6.1 BeautifulSoup库介绍与安装

BeautifulSoup 是一个可以从html 或 xml中提取数据的第三方库。

  1. # 安装 bs4
  2. pip install bs4
  3. # 安装 lxml
  4. pip instal lxml

6.2 BeautifulSoup 基本使用

  1. # 导入模块
  2. from bs4 import BeautifulSoup4
  3. # 指定解析器进行html文档的解析
  4. soup = BeautifulSoup('<html>data</html>', 'lxml')
  5. print(soup.prettify())

6.3 BeautifulSoup对象find()方法和Tag标签

(1)find()方法

  1. tag_a = soup.find('a')
  1. attr = soup.find(id='link1')
  2. attr = soup.find(attrs={'id':'link1'})
  1. text = soup.find(text='Elise')
  1. tags_a = soup.findall('a')

(2)Tag标签

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注