[关闭]
@xlx9765 2017-05-02T12:27:30.000000Z 字数 933 阅读 155

环境配置及爬取数据


1. 环境配置流程

远程访问阿里云
远程访问阿里云
创建个人文件夹
个人文件夹
手动创建个人文件夹
手动创建
查看python版本
python版本
用pip安装virtualenv
忘记截图了
创建venv虚拟环境
创建venv虚拟环境
pip安装twisted
安装twisted
安装crypotography
安装crypotography
安装scraphy
安装scraphy
查看scrapy版本
查看scrapy版本
安装成功

2. 配置过程中问题

    首先是使用SSH远程登录云服务器时,输入密码无法显示,以为出错,输入检查了几次,仍旧无法输入,然后查看相关文档发现Linux下命令行就是这个样子的。然后进行下一步,创建文件夹。创建后显示成功,但是查看文件夹时显示No such file or directory。于是手动创建文件夹。创建成功。之后在安装其他安装包部分很顺利,没有遇见问题。有四个安装包由于同组有一个人首先进行了安装,组内具有sudo权限的人安装即可,所以没有进行安装,分别是
(1)build-essential: Informational list of build-essential packages;
(2)libssl-dev:是OpenSSL项目实施SSL和TLS加密协议的一部分,用于通过Internet进行安全通信。
(3)libffi-dev:外部函数接口库(开发文件)
(4)python-dev:头文件和Python的静态库(默认)

3. 爬取数据部分过程

爬取html、激活并进入虚拟目录
爬取html
本地编写spiders代码并上传
spiders代码
把写好的py文件拖进spiders目录下
开始执行文件
得到html文件

爬取json数据
本地编写spiders代码并上传
spiders代码
把写好的py文件拖进spiders目录下
执行、保存
此处输入图片的描述

此处输入图片的描述

爬取热门标签
本地编写spiders代码并上传
spiders代码
把写好的py文件拖进spiders目录下
激活进入虚拟路径
激活进入虚拟路径
执行操作
执行操作
将爬取结果存为xulixin.json文件
完成
爬取完成
爬取成功后,目录结构
目录结构

将得到的json文件转化为xml格式,得到xml文件。(xml文件在邮件附件部分)

4. 爬取数据部分问题

    爬取数据时在上传py文件部分遇到了问题,没有将文件传入指定位置。拖入了命令行中,导致执行失败,之后看教程将文件传入并执行成功。得到了对应的html文件和json文件。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注