@zhouyy 2017-03-30T09:26:55.000000Z 字数 1171 阅读 560

爬虫

python

a. 用户输入网址，via DNS（domian name system)服务器 find 主机,send request to 主机.
b. 主机解析后，send response( 框架html 肌肉js 皮肤css)
c. 浏览器解释 response
爬虫分析和过滤html,获取有用信息

协议(http ftp etc.)：//hostIP/目录/文件名

urllib2是python用来获取URLs的组件

response = urllib2.urlopen("http://www.baidu.com")#将请求的地址创建Request对象，调用urlopen并传入Request对象,返回Response对象
print response.read()

其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例，我们可以这么改写

import urllib2 
req = urllib2.Request('http://www.pythontab.com') 
response = urllib2.urlopen(req) 
the_page = response.read()

函数urlopen

urlopen(url, data, timeout)

第二个参数data是访问URL时要传送的数据
第三个参数timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

为什么需要传入参数data?
通常URL与CGI[通用网关接口]脚本，或其他WEB应用程序挂接。现在的动态网页需要动态地传入参数，如登陆注册时，将数据用户名和密码传入到。在HTTP中,这个经常使用熟知的POST请求发送。
数据传送分为POST和GET两种方式，两种方式有什么区别呢？
最重要的区别是GET方式是直接以链接形式访问，链接中包含了所有的参数，当然如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数，不过如果你想直接查看提交了什么就不太方便了，大家可以酌情选择。
POST方式
Data传送时，需要编码成标准形式
如何入门 Python 爬虫？

从Html源中抽取数据。