码迷,mamicode.com
首页 > 其他好文 > 详细

屏蔽百度搜索二级域名的限制

时间:2015-04-14 12:41:43      阅读:201      评论:0      收藏:0      [点我收藏+]

标签:

如果某些二级域名不愿意被收入,如果这些二级域名可以不访问的,那就直接对特定域名做301重定向到主域名上,或者把这几个二级域名单独绑定到新的目录或者子目录里面,然后用robots做目录限制抓取。

如果二级域名还需要用,那就牺牲一段时间,把域名单独做解析到新目录或新服务器下,然后做404,再向百度站长平台提交死链

还有一种思路,那就用php来判断是否是蜘蛛访问,如果是蜘蛛访问就做301、404、或者跳转都是可以的

 

下面是用robots 的方式来禁止搜索引擎抓取的方式,以及robots.txt 的命名规范

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图 告诉爬虫这个页面是网站地图

 

这里做一个例子:Disallow: /test.baidu.com

 

 一种是用php方式来屏蔽掉搜索引擎

if(getrobot())//如果蜘蛛
{
    header(‘HTTP/1.1 301 Moved Permanently‘);//发出301头部
    header(‘Location:http://www.baidu.com‘);//需要跳转的地址
}else{
    echo ‘不是蜘蛛访问‘;
}

/** 
* 判断是否为搜索引擎蜘蛛 
*  
* @return bool 
*/ 
function getrobot() {
    $isrobot = FALSE;
    $kw_spiders = ‘Bot|Crawl|Spider|slurp|sohu-search|lycos|robozilla‘;
    $kw_browsers = ‘MSIE|Netscape|Opera|Konqueror|Mozilla‘;
    if(!strexists($_SERVER[‘HTTP_USER_AGENT‘], ‘http://‘) && preg_match("/($kw_browsers)/i", $_SERVER[‘HTTP_USER_AGENT‘])) {
    } elseif(preg_match("/($kw_spiders)/i", $_SERVER[‘HTTP_USER_AGENT‘])) {
        $isrobot = TRUE;
    } else {
        $isrobot = FALSE;
    }
    return $isrobot;
}
function strexists($string, $find) {
    return !(strpos($string, $find) === FALSE);
}

 

屏蔽百度搜索二级域名的限制

标签:

原文地址:http://www.cnblogs.com/hyyt/p/4424478.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!