PHP批量识别Nginx网站日志内的百度真假爬虫记录

通过分析网站日志可以统计出百度的真实抓取次数、分析抓取情况。 网站一般都有一定的反爬虫机制,但是为了正常收录会通过UA排除百度的爬虫,也就导致了很多做采集、爬虫的人冒充百度爬虫UA用以越过反爬虫机制。 逐条分析每一条日志,筛选出百度爬虫的日志,再通过exec函数执行nslookup命令反向解析IP获取解析的域名,域名中包括baiduspider关键词的就是真的百度爬虫。 下载PHP脚本(百度网盘)
PHP批量识别Nginx网站日志内的百度真假爬虫记录

SEO优化经验总结,我怕忘记的一些东西

1.  TDK很重要,每个页面只能有一个H1标签,选对了关键词SEO就已经成功了一半。 2. 百度关键词搜索虽然是分词的(也就是搜索一个次词的时候匹配结果不一定是连词,也可能是句子中的词组成的),但是连词比分词的友好性更强。 3. 文章里的关键词最好都带上内链。 4. 不带WWW的主域名和WWW的二级域名,作为同一个网站的时候可以在两个页面的标题上稍微处理一下(就是可以弄成不一样的),根据以往的经
SEO优化经验总结,我怕忘记的一些东西