PHP批量识别Nginx网站日志内的百度真假爬虫记录

一、介绍

通过分析网站日志可以统计出百度的真实抓取次数、分析抓取情况。

网站一般都有一定的反爬虫机制,但是为了正常收录会通过UA排除百度的爬虫,也就导致了很多做采集、爬虫的人冒充百度爬虫UA用以越过反爬虫机制。

二、分析、识别原理

逐条分析每一条日志,筛选出百度爬虫的日志,再通过exec函数执行nslookup命令反向解析IP获取解析的域名,域名中包括baiduspider关键词的就是真的百度爬虫。

三、使用

下载PHP脚本(百度网盘)提取码:8888。

该脚本需要使用exec函数,使用前请打开php.ini,搜索disable_function,在它的值内把exec去掉。

Linux、window命令行下输入:php monitor.php,按照提示输入日志文件的文件路径,结果如下

运行