/**
?*?蜘蛛控制
?*/
function?spiderControl()?{
????$user_agent?=?strtolower?(?$_SERVER?[‘HTTP_USER_AGENT‘]?);
????$allow_spiders?=?array?(‘Baiduspider‘,?‘Googlebot‘?);
???...
分类:
其他好文 时间:
2015-04-15 17:20:59
阅读次数:
228
日志文件格式如下: 220.181.108.151 - - [31/Jan/2012:00:02:32 +0800] "GET /home.php?mod=space&uid=158&do=album&view=me&from=space HTTP/1.1" 200 8784 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +h...
分类:
其他好文 时间:
2015-02-08 11:43:11
阅读次数:
236
#!/bin/bash
#desc:thisscriptsforbaidunews-spider
#date:2014.02.25
#testdinCentOS5.9x86_64
#savedin/usr/local/bin/baidu-web.sh
#writtenbycoralzd@gmail.comwww.zjyxh.com
dt=`date-d"yesterday"+%m%d`
if[$1x!=x];then
if[-e$1];then
grep-i"Baiduspider/2.0"$1>bai..
分类:
Web程序 时间:
2014-12-17 13:01:18
阅读次数:
185
上周百度站长平台接到某站长求助,表示误封禁了Baiduspider的IP,询问是否有办法获得Baiduspider的所有IP,打算放入白名单加以保护,防止再次误封。在此要告诉各位站长,Baiduspider的IP池是不断变动的,我们无法提供IP全集。除此之外,之前还有站长发来质疑说Baiduspid...
分类:
其他好文 时间:
2014-12-01 12:37:53
阅读次数:
149
百度搜索引擎目前不主动抓取https网页,导致大部分https网页无法收录。但是如果网站一定要使用https加密协议的话该如何做到对百度搜索引擎友好呢。其实很简单:1,为需要被百度搜索引擎收录的https页面制作http可访问版。2,通过user-agent判断来访者,将Baiduspider定向到...
分类:
其他好文 时间:
2014-09-29 10:50:17
阅读次数:
246
#!/bin/sh
if [ -r $1 ]; then
? ? #Delete Baiduspider
? ? baidu=$(grep -c ‘Baiduspider‘ $1)
? ? if [ $baidu -gt 0 ]; then
? ? ? ? sed -i ‘/Baiduspider/d‘ $1
? ? ? ? echo "match Baidus...
分类:
其他好文 时间:
2014-07-21 10:19:23
阅读次数:
259