在新站或网站收录有问题时,可能需要持续关注搜索引擎蜘蛛的抓取情况。
对于网站的内容是否能够及时的收录,都是我们站长每天都在关注的东西,每天产出的东西有限,所更加的关注自己写的内容是否能够讨的百度蜘蛛的欢心,好及时收录自己的网页,早一天收录,这样获得流量的可能性就会更多一点,那样的话,以后变现的成本也会变得更低。
有时候当我们不知道蜘蛛什么时候来过我们的网站的时候,只能够通过一遍又一遍的向百度提交自己网站最近产生的新鲜内容。
但是又害怕这样会让百度的蜘蛛讨厌我们的网站,总之那种感觉啊,不是太好。
每次打开服务器端访问日志查看非常麻烦,特别是当日志文件比较大时更是不便。
最好的办法就是在线直接打开看蜘蛛爬行记录。
为此,我们可以免插件使用纯代码来实现这个功能。
PHP代码
// 记录蜘蛛访问记录 <br> function get_naps_bot(){ <br> $useragent = strtolower($_SERVER['HTTP_USER_AGENT']); <br> if (strpos($useragent, 'googlebot') !== false){ <br> return 'Googlebot'; <br> } <br> if (strpos($useragent, 'bingbot') !== false){ <br> return 'Bingbot'; <br> } <br> if (strpos($useragent, 'slurp') !== false){ <br> return 'Yahoobot'; <br> } <br> if (strpos($useragent, 'baiduspider') !== false){ <br> return 'Baiduspider'; <br> } <br> if (strpos($useragent, 'sogou web spider') !== false){ <br> return 'Sogouspider'; <br> } <br> if (strpos($useragent, 'haosouspider') !== false){ <br> return 'HaosouSpider'; <br> } <br> if (strpos($useragent, 'yodaobot') !== false){ <br> return 'YodaoBot'; <br> } <br> return false; <br> } <br> function nowtime(){ <br> date_default_timezone_set('Asia/Shanghai'); <br> $date=date("Y-m-d G:i:s"); <br> return $date; <br> } <br> $searchbot = get_naps_bot(); <br> if ($searchbot) { <br> $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']); <br> $url=$_SERVER['HTTP_REFERER']; <br> $addr=$_SERVER['REMOTE_ADDR']; <br> $file="robotslogs.txt"; //根目录下记录蜘蛛访问的文件<br> $time=nowtime(); <br> $data=fopen($file,"a"); <br> $PR="$_SERVER[REQUEST_URI]"; <br> fwrite($data,"[$time] - $addr - $PR - $searchbot $tlc_thispage \r\n"); <br> fclose($data); <br> }
将以上代码插入 funtion.php 文件,并在网站根目录下创建一个名为 robotslogs.txt 的文件即可,文件名可自定义。
需将 robotslogs.txt 设置为最好是 777 权限。
以上代码能记录搜索蜘蛛的基本抓取信息,完成以后,一般 24 小时候,就可以看到你“robotslogs.txt”当中已经满是数据的了。