诺兰网 - 只为资源而生-分享永无止境 - 专注优质源码/电脑软件/活动资讯/技术教程分享

诺兰网投稿 1

屏蔽百度蜘蛛或某一爬虫的四种方法

编辑:诺兰网 分类:SEO教程 首发 阅读量:31 次
扫码手机访问
0
摘要:今天打开自己的网站发现很卡,但是检查网站的访问量并不高,登陆服务器发现流量很高,于是查看访问日志,发现网站日志中开头的某一ip段大量频繁访问,来自一个叫Bytespider的爬虫,就在网上查找方法想屏蔽它。其实,类似这样的问题解决方案网上有不少文...

今天打开自己的网站发现很卡,但是检查网站的访问量并不高,登陆服务器发现流量很高,于是查看访问日志,发现网站日志中开头的某一ip段大量频繁访问,来自一个叫Bytespider的爬虫,就在网上查找方法想屏蔽它。其实,类似这样的问题解决方案网上有不少文章,屏蔽某一特定爬虫跟屏蔽百度蜘蛛的原理是一样的,可以通过如下四种方法来处理。

屏蔽百度蜘蛛或某一爬虫的四种方法

1、robots.txt屏蔽百度或某一爬虫抓取打开robots.txt,在开头加入如下语句(以百度蜘蛛为例):

User-agent: baiduspider

Disallow: /

代码分析,首先要知道该爬虫的名称,如百度爬虫是Baiduspider,Google爬虫是Googlebot,360搜索爬虫是360Spider,你可以通过各大搜索引擎蜘蛛爬虫UA汇总来获取爬虫的名称,例如,微软必应的蜘蛛UA是:

"Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

我们就可以知道它的爬虫名称为bingbot。

2、robots Meta标签屏蔽百度或某一爬虫抓取如果是针对某一个页面屏蔽百度蜘蛛或某一爬虫抓取,那么可以通过Meta标签来实现。代码如下:

<head> … 

<meta name="robots" content="noindex,nofollow" /> 

</head>

这是屏蔽所有蜘蛛爬虫抓取该页面的写法,如果只屏蔽某个爬虫,可以把"robots"改为特定的爬虫名称,爬虫名称可以通过上面方法1中提及的办法获得。例如想只屏蔽微软必应的蜘蛛抓取该页,则可以写成:

<head> … 

<meta name="bingbot" content="noindex,nofollow" /> 

</head>

3、.htaccess屏蔽百度或某一爬虫抓取

一些可恶的爬虫并不遵循robots规则,那么我们还可以通过.htaccess来屏蔽它,代码如下(以百度蜘蛛为例):

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} ^.*Baiduspider.* [NC]

RewriteRule .* - [F]

如果是Apache服务器,可以修改配置文件 httpd.conf ,这样写( /var/www/html 是根目录):

<Directory "/var/www/html">

...

SetEnvIfNoCase User-Agent ^.*Baiduspider.* bad_bot

Order Allow,Deny

Allow from all

Deny from env=bad_bot

...

</Directory>

如果是Nginx服务器,可以修改配置文件( 默认是 nginx.conf ),这样写:

Server{

...

  location / {

    if ($http_user_agent !~ Baiduspider) {

      return 403;

    }

  }

...

}

4、通过IP屏蔽百度或某一爬虫抓取

我们还可以通过分析日志,获得爬虫的IP地址,然后从服务器防火墙屏蔽该IP,不过爬虫通常有很多IP,我们可以屏蔽爬虫的IP段。

不过此方法没有前面几个方法实用,较少人这样操作。

阅读时间:

字数统计:本文共有 1503 个字

本文标题:《屏蔽百度蜘蛛或某一爬虫的四种方法》发布于2022-11-9 13:58:48

版权声明:文章由《诺兰网》发布、原创转载请保留出处!

本文链接:https://www.nuolanyl.com/post-2473.html

上一篇
抖音0.01元撸7天微博会员活动
下一篇
免费领网易严选纯享会员年卡活动

免责声明:

本站提供的资源,都来自网络,版权争议与本站无关,所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,我们不保证内容的长久可用性,通过使用本站内容随之而来的风险与本站无关,您必须在下载后的24个小时之内,从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。侵删请致信E-mail:68407578@qq.com

同类推荐

最新文章

评论列表
签到

小姐姐视频

热门文章

随机推荐

标签云

SEO教程 屏蔽百度蜘蛛或某一爬虫的四种方法
今天打开自己的网站发现很卡,但是检查网站的访问量并不高,登陆服务器发现流量很高,于是查看访问日志,发现网站日志中开头的某一ip段大量频繁访问,来自一个叫Byte...
扫描二维码阅读原文
诺兰网 January, 01
生成社交图 ×