Show Menu
Cheatography

SpiderMan Cheat Sheet by

开放爬虫平台小抄

辅助函数

修剪
清理两端的空白
取整
转化为整数
取浮点数
转化为小数
清除 html 标签
清理掉 html 只保留文字
提取图片
提取文中所有­的图片地址
 

爬虫配置

代理
代理服务器列表
浏览器
浏览器列表
超时
链接超时,避­免服务器假死
cookie
登录信息
http 头
避免识别成非浏览器
以上都是为了­防止认­为是非浏览器

常见问题

爬取速度怎样
分布式爬取,­一般5分钟爬完
爬取频率如何
可以自由设定­,爬取­完一个­再取得下一个
可以增加 worker 数量不
只要主机数量­增加,­即可分配更多的 worker
 

页面规则

类型
CSS/XPATH
内容
articl­e.c­ont­ent­>.main

各地区主机分布

美国
 12
荷兰
 25
印度
 30
中国
 60
澳大利亚
 22
 

Comments

No comments yet. Add yours below!

Add a Comment

Your Comment

Please enter your name.

    Please enter your email address

      Please enter your Comment.

          Related Cheat Sheets

          JavaScript Array API Cheat Sheet
          Russian Noun & Adjective Cases by Chuff Cheat Sheet