<code id="ymosk"><acronym id="ymosk"></acronym></code>
  • <strong id="ymosk"><input id="ymosk"></input></strong>
    <nav id="ymosk"></nav>
    <source id="ymosk"><input id="ymosk"></input></source>
  • <object id="ymosk"></object>

    記憶盒子

    把記憶裝進灰色的盒子,封裝起來,那年那月,重新拾起。

    首頁搜索目錄
    search
    當前主題: 互聯網絡

    使用robots.txt不能阻止網頁被抓取收錄的原因

    作者:Kaka    時間:2018-7-18 9:53:25    瀏覽:    評論:0

    要阻止某些網頁被搜索引擎抓取收錄,大家首先想到的方法應該是使用 robots.txt 吧。沒錯,幾乎每個網站都有一個 robots.txt 文件,目的是禁止某些目錄被搜索引擎抓取收錄并加入都搜索結果索引中。不過,如果想禁止搜索引擎抓取某些網頁,使用 robots.txt 是不夠的。

    robots.txt

    robots.txt

    請不要將 robots.txt 用作隱藏網頁的方法

    robots.txt 文件位于網站的根目錄下,用于表明你不希望搜索引擎抓取工具訪問你網站上的哪些內容。此文件使用的是漫游器排除標準,該標準是一種內含一小組命令的協議,可依照網站各部分和特定的網頁抓取工具類型(例如移動版抓取工具與桌面版抓取工具),表明可訪問的網站內容。

    非圖片文件

    對于非圖片文件(即網頁),您應僅將 robots.txt 用于控制抓取流量,因為通常情況下你不會希望搜索引擎抓取工具造成你的服務器超負荷,或是將抓取預算浪費在抓取你網站上不重要或相似的網頁上。如果你不想讓自己的網頁顯示在搜索引擎搜索結果中,請不要將 robots.txt 用作隱藏網頁的方法。 這是因為其他網頁可能會指向你的網頁,導致你的網頁被編入索引,而讓 robots.txt 文件失去效用。如果你想從搜索結果中屏蔽自己的網頁,請使用其他方法,例如密碼保護或 noindex 標記或指令。

    圖片文件

    robots.txt 可以阻止圖片文件出現在搜索引擎搜索結果中(不過它不會阻止其他網頁或用戶鏈接到你的圖片)。

    資源文件

    如果你認為加載網頁時跳過不重要的圖片、腳本或樣式文件等資源并不會造成太大影響,那么你可以使用 robots.txt 來屏蔽這些資源文件。不過,如果缺少這些資源會增加抓取工具在分析網頁方面的難度,則建議你不要屏蔽這些資源,否則搜索引擎將無法正確分析需要依賴這些資源的網頁。

    了解 robots.txt 的限制

    在創建 robots.txt 之前,你應該了解這種網址屏蔽方法的潛在風險。有時候,你可能需要考慮采用其他機制來確保搜索引擎無法在網絡上找到你的網址。

    Robots.txt 命令僅僅只是指令

    robots.txt 文件中的命令并不能強制抓取工具對你的網站采取具體的操作;對于訪問你網站的抓取工具來說,這些命令僅作為指令。正規的網頁抓取工具都會遵循 robots.txt 文件中的命令,但其他抓取工具未必也會如此。因此,如果你想確保自己網站上的特定信息不會被網頁抓取工具抓取,建議你采用其他屏蔽方法(如為您服務器上的隱私文件提供密碼保護)。

    不同的抓取工具對語法的解析各不相同

    雖然正規的網頁抓取工具會遵循 robots.txt 文件中的指令,但這些抓取工具可能會以不同的方式來解析這些指令。你應該好好了解一下適用于不同網頁抓取工具的正確語法,因為有些抓取工具可能會無法理解某些命令。

    如果其他網站上有鏈接指向被 robots.txt 文件屏蔽的網頁,則此網頁仍可能會被編入索引

    盡管搜索引擎不會抓取被 robots.txt 屏蔽的內容或將其編入索引,但如果網絡上的其他位置有鏈接指向被禁止訪問的網址,搜索引擎仍可能會找到該網址并將其編入索引。因此,相關網址和其他公開顯示的信息(如相關頁面鏈接中的定位文字)仍可能會出現在搜索結果中。要想正確阻止你的網址出現在搜索結果中,你應該為你服務器上的文件提供密碼保護或使用 noindex 元標記或響應標頭(或者徹底移除相關網頁)。

    您可能對以下文章也感興趣

    robots.txt Disallow和Allow上下級目錄或文件的寫法

    robots.txt 語法詳解:*、$、?等字符的含義及用法

    標簽: robots.txt  

    加入本站QQ群(312716741),交流分享網站建設、優化、SEO技術。。。

     

    • 擴展閱讀
    上一篇: iis7/iis7.5/iis10設置gzip壓縮臨時/緩存目錄的方法
    下一篇: 使用noindex而不是robots.txt屏蔽搜素引擎(baidu/google)收錄網頁

    發表評論:

    ◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

    訂閱博客                   QQ交流群(312716741)

    • 通過Google訂閱本站 通過鮮果訂閱本站 通過抓蝦訂閱本站
    • 通過QQ郵箱訂閱本站 通過Yahoo訂閱本站 通過有道訂閱本站

    Search

    最新評論及回復

    最近留言

    網站分類

    Powered By Z-Blog 1.8 Walle Build 91204 Designed by Han'space

    Copyright @2009-2019 All Rights Reserved. 粵ICP備14028160號-1

    Powered By Z-Blog 1.8 Walle Build 91204
    Copyright @2009-2019 All Rights Reserved.
    微拍福利