@spiritnotes 2016-05-11T16:47:38.000000Z 字数 2558 阅读 2332

《Python网络数据采集》

网络采集 读书笔记

1 初见网络爬虫

使用urllib.urlopen进行简单爬取

2 复杂HTML解析

查看是否有更友好的显示格式，如打印链接或移动版
JS文件中的信息
URL链接
其他数据源

BS中的find和findall

nameList = bsObj.findAll("span", {"class":"green"}
for name in nameList:
    print(name.get_text())
# keywords 使其可以有一个 与 关系过滤

其他BS对象

BeautifulSoup对象
标签tag对象
- find/findAll 产生
- bsOb.jiv.h1
NavigableString对象
comment对象

使用标签

.children
.next_sibings
.parent

正则表达式
正则表达式可以使用到beautifulSoup中用于标签的匹配和属性的匹配

bsObj.findAll(“img”, {"src":re.compile("\.......")})
soup.findAll(lambda tag: len(tag.attrs)==3)

获取属性 tag.attrs["src"]

3 开始采集

深网：需要登陆或禁止搜索引擎爬取的
浅网：搜索引擎可以爬去的
暗网：通过tor等工具

采集整个网站

生成网站地图
收集数据

使用scrapy采集

4 使用API

四种方法

get
post
put
delete

有些API需要验证后使用，用于计费或控制使用限制，通常是使用类似令牌（token）的方式调用，将token放入调用url中或放进请求头中。大多数反馈格式为XML或JSON（使用字节更少，JS可以直接处理）。

5 存储数据

媒体文件
- 保存url
- 下载 urllib.request.urlretrieve
把数据存储到csv（comma-separated values）：csv模块
mysql：pymysql模块
邮件：smtplib、email模块

6 读取文档

互联网上处理html还有其他很多文档，txt、jpg、avi等

纯文本
- 编码，utf8的字符前面都有标记本字符使用多少个字节，最多使用21位
- 可以看一下网页META数据中的charset设置

    content = bsObj.find("div", {"id","..."}).get_text()
    content = bytes(content, "UTF-8")
    content = content.decode("UTF-8")

data = urlopen(...csv).read().decode('ascii', 'ignore')
datafile = StringIO(data)
csvReader = csv.reader(datafile)
# dictReader

pdf
- pdfMiner3k
docx

7 数据清洗

编写代码清洗数据

re.sub 进行字符替换
使用orderedDict
openrefine

8 自然语言处理

选择不含常用词汇出现次数较多（》=3次）的n-gram语句作为摘要
使用马尔科夫模型来随机生成句子
自然语言工具包：NLTK

9 穿越网页表单与登录窗口进行采集

使用Requests库

requests.post(url, data=paras)
重点关注字段名称和值
cookie：

r = requests.post(url, params)
new_r = requests.get(new_url, cookies=r.cookies)

session 自动对cookie进行处理

session = requests.Session()
s = session.post(url, login_params)
s = session.get(new_url ...)

HTTP 基本接入认证使用 requests.auth

10 采集Javascript

常见库

jQuery
Google Analytics
Google 地图

使用 selenium 和 PhantomJs 模拟执行 JS 代码

from selenium import webdriver
import time
driver = webdriver.PhantomJS(executable_path='')
driver.get(url)
time.sleep(3)
driver.find_element_by_id('content').text
driver.page_source
driver.close()
element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "loadedButton")))

处理重定向：页面元素消失

11 图像识别与文字处理

OCR库：光学文字识别

Pillow库图像处理
Tesseract库 OCR

12 避开采集陷阱

修改请求头，使其更像浏览器
使用 selenium 和 PhantomJs 来获取cookie
driver.get_cookie()/delete_cookie()/add_cookie()/delete_all_cookie()
表单中可能具有一些隐含字段用以检测是否为抓取

某些隐含字段需要提交
某些如user之类的表单的，实际上是应该为空的

避免蜜罐：通过表单中隐含字段或页面上的一些隐含img、url、文件或者任何可以被机器人读取而人不可见的内容用以判断是否机器人，进而可以进行封闭IP等操作

通过selenium的is_displayed()进行判断

问题检测表

如果页面为空或其他，确认是否JS执行问题
提交表单和POST，需要查看是否提交正确
检测cookie
如果出现403禁止访问，检测是否已经被封，如果未封，则
- 是否爬取速度太快
- 请求头是否正确
- 是否访问了人类不会点击或接入的信息
- 太复杂，直接联系是否可以允许爬取

13 用爬虫测试网站

使用 unittest
使用 selenium，支持截屏

14 远程采集

使用tor和pysocks

socks.set_default_proxy(socks.SOCKS, "localhost", 9150)
scoket.socket = socks.socksocket
urlopen(url).read()

selenium可以通过servive_args参数设置代理

互联网其实是一个用户界面不太友好的超级API