爬虫－友人a的笔记丶

标签：爬虫的文章列表

共2篇文章

爬虫实战笔记：没有什么网站是不能爬的！

通过Chrome的开发者工具Network，筛选ws，找到websocket的连接，进行第一步分析。待续............ 这个都懂，咱就不说了，有些反爬验证实在是反人类哈。这个好用确实好用：真实的浏览器环境、真实的操作........ 就是效率确实不敢恭维。因为一切都在真实的环境和网站上进行，很多常规的爬虫操作都不用考虑，只要考虑以下几点：如何减少内存消耗，提升效率；如何通过

爬虫笔记
友人a丶
2021-10-12
1300 热度
0评论

PHP批量识别Nginx网站日志内的百度真假爬虫记录

通过分析网站日志可以统计出百度的真实抓取次数、分析抓取情况。网站一般都有一定的反爬虫机制，但是为了正常收录会通过UA排除百度的爬虫，也就导致了很多做采集、爬虫的人冒充百度爬虫UA用以越过反爬虫机制。逐条分析每一条日志，筛选出百度爬虫的日志，再通过exec函数执行nslookup命令反向解析IP获取解析的域名，域名中包括baiduspider关键词的就是真的百度爬虫。下载PHP脚本（百度网盘）

PHP笔记
友人a丶
2021-10-08
1315 热度
0评论