<code id="ymosk"><acronym id="ymosk"></acronym></code>
  • <strong id="ymosk"><input id="ymosk"></input></strong>
    <nav id="ymosk"></nav>
    <source id="ymosk"><input id="ymosk"></input></source>
  • <object id="ymosk"></object>

    記憶盒子

    把記憶裝進灰色的盒子,封裝起來,那年那月,重新拾起。

    首頁搜索目錄
    search
    當前主題: 互聯網絡

    使用noindex而不是robots.txt屏蔽搜素引擎(baidu/google)收錄網頁

    作者:Kaka    時間:2018-7-18 10:50:33    瀏覽:    評論:0

    上篇文章分析了使用robots.txt不能阻止網頁被抓取收錄的原因,那么,如何有效阻止網頁被收錄呢,方法是使用noindex元標記。本文將給大家詳細介紹。

     noindex與robots.txt

    noindex與robots.txt

    要阻止某個網頁出現在搜索結果中,您可以將 noindex 元標記加入該網頁的 HTML 代碼中,或在 HTTP 請求中返回“noindex”標頭。當爬蟲下次抓取該網頁并看到相應的標記或標頭時,就會完全阻止該網頁出現在搜索結果中(不論是否有其他網站鏈接到該網頁)。

    重要提示!

    要想讓 noindex 指令生效,就不得使用 robots.txt 文件屏蔽相應網頁。如果該網頁被 robots.txt 文件屏蔽了,抓取工具將永遠無法看到 noindex 指令,因此該網頁可能仍會顯示在搜索結果中(例如,如果有其他網頁鏈接到該網頁的話)。

    如果你不具備對服務器的 root 訪問權限,則可借助非常實用的 noindex 工具控制搜索引擎對你網站上各個網頁的訪問權限。

    實施 noindex

    你可采用以下兩種方法來實施 noindex:將 noindex 用作元標記,或用作 HTTP 響應標頭。這兩種方法的效果是等同的,但你可根據自己對服務器的控制程度和所用的具體發布流程,從中任選一種對你而言較為便捷的方式。

    <meta> 標記

    要想阻止大部分搜索引擎網頁抓取工具將你網站中的網頁編入索引,請將以下元標記放入相應網頁的 <head> 部分中:

    <meta name="robots" content="noindex">

    要阻止 baidu 網頁抓取工具將網頁編入索引,請放入以下元標記:

    <meta name="Baiduspider" content="noindex">

    要阻止 Google 網頁抓取工具將網頁編入索引,請放入以下元標記:

    <meta name="googlebot" content="noindex">

    屏蔽所有蜘蛛爬蟲抓取該頁面的寫法是:

    <meta name="robots" content="noindex" >

    請注意,某些搜索引擎網頁抓取工具對 noindex 指令可能會有不同的解讀,因此,你的網頁可能仍會出現在其他搜索引擎的結果中。

    ◆幫助搜索引擎發現你的noindex元標記

    只有在抓取你的網頁后才能看到元標記。如果你的網頁仍出現在搜索結果中,可能是因為在你添加標記之后搜索引擎尚未抓取過你的網站。你可以向搜索引擎主動提交你的網頁,讓爬蟲重新抓取你的網頁。此外,也可能是因為你的 robots.txt 文件禁止了爬蟲訪問該網址,因此無法看到此標記。要允許搜索引擎訪問你的網頁,你必須修改 robots.txt 文件。

    HTTP 響應標頭

    除了使用元標記,你還可在響應中返回一個值為 noindex 或 none 的 X-Robots-Tag 標頭。下面的 HTTP 響應示例便含有一個可指示抓取工具不要將某一網頁編入索引的 X-Robots-Tag

    HTTP/1.1 200 OK
    (…)
    X-Robots-Tag: noindex
    (…)

    如何利用 Apache 實際實施 X-Robots-Tag

    你可以使用基于 Apache 的網絡服務器上默認提供的 .htaccess 和 httpd.conf 文件,將 X-Robots-Tag 添加到網站的 HTTP 響應中。在 HTTP 響應中使用 X-Robots-Tag 的好處是,你可以指定要應用于整個網站的抓取指令。系統對正則表達式的支持提供了很高的靈活性。

    例如,要將 noindex, nofollow X-Robots-Tag 添加到整個網站上所有 .PDF 文件的 HTTP 響應中,請將以下代碼段添加到網站的 root .htaccess 文件或 httpd.conf 文件中:

    <Files ~ "\.pdf$">
    Header set X-Robots-Tag "noindex, nofollow"
    </Files>

    你可以對無法使用漫游器元標記的非 HTML 文件(如圖片文件)使用 X-Robots-Tag。下面的示例說明了如何針對整個網站上的所有圖片文件(.png、.jpeg、.jpg、.gif)添加 noindex X-Robots-Tag 指令:

    <Files ~ "\.(png|jpe?g|gif)$">
    Header set X-Robots-Tag "noindex"
    </Files>

    如何合并使用抓取指令與索引編制/內容顯示指令

    只有當網頁被抓取時,漫游器元標記和 X-Robots-Tag HTTP 標頭才會被抓取工具發現。如果你通過 robots.txt 文件禁止抓取某一網頁,那么抓取工具就不會找到任何關于索引編制/內容顯示指令的信息,因此會忽略這些信息。如果索引編制/內容顯示指令必須被遵循,那么你就不能禁止抓取工具抓取包含這些指令的網址。

    您可能對以下文章也感興趣

    屏蔽百度蜘蛛或某一爬蟲的四種方法

    標簽: robots.txt  noindex  

    加入本站QQ群(312716741),交流分享網站建設、優化、SEO技術。。。

     

    上一篇: 使用robots.txt不能阻止網頁被抓取收錄的原因
    下一篇: SSLDUN多域名ssl DV證書最多支持250個域名

    發表評論:

    ◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

    訂閱博客                   QQ交流群(312716741)

    • 通過Google訂閱本站 通過鮮果訂閱本站 通過抓蝦訂閱本站
    • 通過QQ郵箱訂閱本站 通過Yahoo訂閱本站 通過有道訂閱本站

    Search

    最新評論及回復

    最近留言

    網站分類

    Powered By Z-Blog 1.8 Walle Build 91204 Designed by Han'space

    Copyright @2009-2019 All Rights Reserved. 粵ICP備14028160號-1

    Powered By Z-Blog 1.8 Walle Build 91204
    Copyright @2009-2019 All Rights Reserved.
    微拍福利