@zhouyy
2017-03-30T09:26:55.000000Z
字数 1171
阅读 560
python
参考: 如何学习Python爬虫
a. 用户输入网址,via DNS(domian name system)服务器 find 主机,send request to 主机.
b. 主机解析后,send response( 框架html 肌肉js 皮肤css)
c. 浏览器解释 response
爬虫分析和过滤html,获取有用信息
协议(http ftp etc.)://hostIP/目录/文件名
urllib2是python用来获取URLs的组件
response = urllib2.urlopen("http://www.baidu.com")#将请求的地址创建Request对象,调用urlopen并传入Request对象,返回Response对象print response.read()
其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例,我们可以这么改写
import urllib2req = urllib2.Request('http://www.pythontab.com')response = urllib2.urlopen(req)the_page = response.read()
函数urlopen
urlopen(url, data, timeout)
第二个参数data是访问URL时要传送的数据
第三个参数timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
从Html源中抽取数据。
BeautifulSoup库
流行的
lxml库
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
http://wiki.jikexueyuan.com/project/scrapy/send-email.html
https://zhuanlan.zhihu.com/p/25196307
