[关闭]
@JunQiu 2018-09-18T13:15:19.000000Z 字数 1342 阅读 523

linux_系统监控和辅助命令、爬虫小技巧(selector)

summary_2018/08 linux other


1、日常

1.1、Linux系统监控和辅助命令

1.2、关于爬虫抓取内容的一些小技巧(selector)

2、技术

2.1、Linux系统监控和辅助命令

  1. -d:显示系统所有进程
  2. -a:显示当前终端的进程
  3. -v:显示CPU、内存等占用
  1. -a:所有socket连接
  2. -r:打印路由表
  3. -t:TCP连接
  4. -u:UDP连接
  5. -l:列出处于监听状态的网络
  6. -s:显示统计信息(数据包)
  7. -p:显示PID
  8. -n:直接使用ip地址,而不通过域名服务器(可以显示端口)
  9. // 查看端口占用情况
  10. netstat -anp | grep '443'
  1. -u:指定用户
  2. -d:刷新时间
  3. -p:指定进程
  1. -b/k/m:单位
  2. free -m
  3. total used free shared buffers cached
  4. Mem: 2016 1973 42 0 163 1497
  5. -/+ buffers/cache: 312 1703
  6. Swap: 4094 0 4094
  7. // 第一行
  8. total:内存总数;
  9. used:已经使用的内存数;
  10. free:空闲的内存数;
  11. shared:当前已经废弃不用;
  12. buffers Buffer:缓存内存数;
  13. cached Page:缓存内存数。
  14. 关系:total = used + free
  15. // 第二行
  16. (-buffers/cache) used内存数:第一部分Mem行中的 used buffers cached
  17. (+buffers/cache) free内存数: 第一部分Mem行中的 free + buffers + cached
  18. 即:-buffers/cache反映的是被程序实实在在吃掉的内存,而+buffers/cache反映的是可以挪用的内存总数。
  1. // 默认以行为单位显示
  2. -c:符合样本的列数
  3. -i:忽略大小写
  4. -o:只输出文件匹配到部分
  1. 行数 字数 字节数
  2. -l:显示行数

2.2、关于爬虫抓取内容的一些小技巧(selector)

  1. # Example
  2. // 浏览器控制台会返回nodelist
  3. document.querySelectorAll('.ip')
  4. // 我们可以在控制台查找我们需要的信息,更加清楚,从而获取我们需要的信息
  5. // 当我们使用page.evaluate时,将会在浏览器中运行,输出会在浏览器的控制台中显示,不会在node中显示,可以使用page.on('console' )捕获(puppeteer)
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注