抓取后的数据内容处理,基本处理分以下几种规则: 删除无用的结点,例如 script style 等 原样保留的结点,例如 table img 等 删除带指定 class 的结点 到这一个完整的处理方法也就出来了: def custom_text(self, d
阅读全文标签: pyspider
Squid 配置多代理动态自动转发
引言 经常会有些需求依赖大量 IP 代理,当然可以在程序中显式进行代理池的管理测速等操作,但还有一种更合理的做法是将代理池合并成一个唯一入口,这就依赖今天的主角 squid 了。 Squid 是一个高性能的代理缓存服务
阅读全文