linux_系统监控和辅助命令、爬虫小技巧(selector)

@JunQiu 2018-09-18T13:15:19.000000Z 字数 1342 阅读 1342

summary_2018/08 linux other

1、日常

1.1、Linux系统监控和辅助命令

ps、top、netstat、lsof、feee
grep、wc、awk

1.2、关于爬虫抓取内容的一些小技巧(selector)

2、技术

2.1、Linux系统监控和辅助命令

ps:报告当前系统进程状态

-d:显示系统所有进程
-a:显示当前终端的进程
-v:显示CPU、内存等占用

netstat:打印系统的各种网络状态

-a:所有socket连接
-r:打印路由表
-t:TCP连接
-u:UDP连接
-l:列出处于监听状态的网络
-s:显示统计信息（数据包）
-p:显示PID
-n:直接使用ip地址，而不通过域名服务器（可以显示端口）
// 查看端口占用情况
netstat -anp |  grep '443'

lsof:用于查看进程开打的文件，打开文件的进程，进程打开的端口(TCP、UDP)。(不推荐用于查看端口占用情况，只能查看部分)
top:可以实时动态地查看系统的整体运行情况

-u:指定用户
-d:刷新时间
-p:指定进程

free:显示当前系统的内存和缓冲区状态。

-b/k/m:单位
free -m
             total       used       free     shared    buffers     cached
Mem:          2016       1973         42          0        163       1497
-/+ buffers/cache:        312       1703
Swap:         4094          0       4094
// 第一行
total：内存总数；
used：已经使用的内存数；
free：空闲的内存数；
shared：当前已经废弃不用；
buffers Buffer：缓存内存数；
cached Page：缓存内存数。
关系：total = used + free
// 第二行
(-buffers/cache) used内存数：第一部分Mem行中的 used – buffers – cached
(+buffers/cache) free内存数: 第一部分Mem行中的 free + buffers + cached
即：-buffers/cache反映的是被程序实实在在吃掉的内存，而+buffers/cache反映的是可以挪用的内存总数。

grep:是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。

// 默认以行为单位显示
-c:符合样本的列数
-i:忽略大小写
-o:只输出文件匹配到部分

wc:用于统计数字

行数  字数  字节数
-l:显示行数

awk:一种编程语言，对文本和数据进行处理
- 有兴趣可以看看这个命令，对文本和数据的处理很好，比如对每一列每一行的处理
Tips：
- 和各种辅助命令的结合使用十分有用：比如查看某个端口占用情况：netstat | grep '16384'
- 对远程主机端口的检查可以使用：telnet

2.2、关于爬虫抓取内容的一些小技巧(selector)

# Example
// 浏览器控制台会返回nodelist
document.querySelectorAll('.ip')
// 我们可以在控制台查找我们需要的信息，更加清楚，从而获取我们需要的信息
// 当我们使用page.evaluate时，将会在浏览器中运行，输出会在浏览器的控制台中显示，不会在node中显示，可以使用page.on('console' )捕获（puppeteer）

linux_系统监控和辅助命令、爬虫小技巧(selector)

1、日常

1.1、Linux系统监控和辅助命令

1.2、关于爬虫抓取内容的一些小技巧(selector)

2、技术

2.1、Linux系统监控和辅助命令

2.2、关于爬虫抓取内容的一些小技巧(selector)

内容目录