PHP开发前端开发

如何屏蔽网站的某些系统不被搜索引擎收录？

已邀请:

1 个回复

zkbhj - 凯冰科技站长

赞同来自:

搜索引擎收录网站页面是需要通过蜘蛛访问网站，并对页面内容进行抓取。所以通常情况下，想要阻止搜索引擎的收录就需要限制、屏蔽蜘蛛的访问与抓取。

1.robots.txt规则文件。
大家都知道robots.txt是指引搜索引擎蜘蛛对该网站访问与否的规则，平时运用的也比较多。一般的建议是不论网站是否有需要屏蔽收录的内容，都要在根目录下建立robots.txt文件。
robots.txt文件规则的写法很简单，比如需要屏蔽某一个搜索引擎的蜘蛛访问所有目录，就这样写：

User-agent:Googlebot

Disallow:/

再比如禁止所有蜘蛛访问、抓取某一个目录则：

User-agent:*

Disallow:/admin/

2.robots Meta标签。

如果说robots.txt是一个放在网站中的规则文件，那robots Meta就是放在某个网页中的标签。两者的实际功能是大致相同的，但robots.txt是大部分搜索引擎都支持的方式，而后者却是大部分搜索引擎都不支持的。另外相比较下，robots Meta用来对某几个页面单独设置时使用。
robots Meta标签必须存放在“<head>…</head>”代码之内：

<head>

…

<meta name=”robots” content=”index,follow” />

</head>

其中“index”指的是索引，“follow”指的是跟踪链接并传递相应的权重。当然相应的还有“noindex”和“nofollow”，功能则正好相反。

3.服务器配置文件。

这种方法是最不常见的屏蔽蜘蛛的方法，主要用于屏蔽那些“不恪守”robots.txt规则的蜘蛛。
方法就是一段时间的分析网站日志，发现需要屏蔽的蜘蛛以及它的ip。然后通过服务器的配置文件将其屏蔽，从而实现屏蔽某一个蜘蛛抓取网站。当然这种方法运用起来并不灵活，比如不能屏蔽蜘蛛单独对某一个文件夹（或网页）的抓取。
因服务器及其系统的不同，具体还请参见相关设置方法。但就以上三种方法而言，第一种robots.txt规则文件的运用更为广泛。

要回复问题请先登录或注册

如何屏蔽网站的某些系统不被搜索引擎收录？

1 个回复

发起人

相关问题

问题状态

如何屏蔽网站的某些系统不被搜索引擎收录？

与内容相关的链接

1 个回复

发起人

相关问题

问题状态