抓取后的数据内容处理,基本处理分以下几种规则: 删除无用的结点,例如 script style 等 原样保留的结点,例如 table img 等 删除带指定 class 的结点 到这一个完整的处理方法也就出来了: def custom_text(self, d
阅读全文月度归档: 2018 年 2 月
SNI 兼容性导致 HTTPS 访问异常
直接贴日志吧,发现有台机器访问 https 就会有以下异常: javax.net.ssl.SSLHandshakeException: java.security.cert.CertificateException: No subject alternative DNS name matching wos.58cdn.com.cn found. at
阅读全文