[关闭]
@zhouyy 2017-03-30T09:26:55.000000Z 字数 1171 阅读 560

爬虫

python


参考: 如何学习Python爬虫

1. 基础

浏览网页的过程

a. 用户输入网址,via DNS(domian name system)服务器 find 主机,send request to 主机.
b. 主机解析后,send response( 框架html 肌肉js 皮肤css)
c. 浏览器解释 response
爬虫分析和过滤html,获取有用信息

URL unitied resources locator 统一资源定位符

协议(http ftp etc.)://hostIP/目录/文件名

2. urllib库

urllib2是python用来获取URLs的组件

获取URLs

  1. response = urllib2.urlopen("http://www.baidu.com")#将请求的地址创建Request对象,调用urlopen并传入Request对象,返回Response对象
  2. print response.read()

其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例,我们可以这么改写

  1. import urllib2
  2. req = urllib2.Request('http://www.pythontab.com')
  3. response = urllib2.urlopen(req)
  4. the_page = response.read()

函数urlopen

  1. urlopen(url, data, timeout)

第二个参数data是访问URL时要传送的数据
第三个参数timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

Data数据

数据抽取

-XPath Selectors

从Html源中抽取数据。

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
http://wiki.jikexueyuan.com/project/scrapy/send-email.html
https://zhuanlan.zhihu.com/p/25196307

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注