圖片url如何屏蔽搜索引擎_如何屏蔽搜索引擎

1. 如何禁止網頁被搜索引擎收錄和索引

第一種：robots.txt方法
站點根目錄中有個robots.txt，沒有的話可以新建一個上傳。
User-agent: *
Disallow: /
禁止所有搜索引擎訪問網站的所有部分
User-agent: *
Disallow: /css/
Disallow: /admin/
禁止所有搜索引擎訪問css 和admin 目錄，將CSS或admin目錄修改為你指定的文件目錄或文件即可。
第二種：網頁代碼方法
<head>與</head>之間，加入<meta name="robots" content="noarchive">代碼，此標記禁止搜索引擎抓取網站並顯示網頁快照。
註：已經加了禁止代碼，但是搜索引擎還可以搜索出來，因為搜索引擎索引資料庫的更新需要時間。雖然Baispider已經停止訪問您網站上的網頁，但網路搜索引擎資料庫中已經建立的網頁索引信息，可能需要數月時間才會清除。

2. 網站不想讓搜索引擎抓取怎麼做

操作方式有三種，一種是直接在網站後台進行設置（目前只有wordpress和Zblog程序才有這個功能），另一種就是通過上傳robots文件即可，最後一種就是在伺服器上面利用「網站安全狗」軟體設置靜止抓取的方式。

一、wordpress在程序裡面設置的方式

1-登錄wordpress網站後台

通過以上的步驟就可以讓搜索引擎不抓取網站的方式

3. 寫文章插入的網址如何屏蔽搜索引擎

將此鏈接設置為「NOFOLLOW」鏈接就行了，nofollow 是一個HTML標簽的屬性值。它的出現為網站管理員提供了一種方式，即告訴搜索引擎"不要追蹤此網頁上的鏈接"或"不要追蹤此特定鏈接。這個標簽的意義是告訴搜索引擎這個鏈接不是經過作者自己編輯的，所以這個鏈接不是一個信任票。
nofollow標簽通常有兩種使用方法：
1、將"nofollow"寫在網頁上的meta標簽上，用來告訴搜索引擎不要抓取網頁上的所有外部和包括內部鏈接。 <meta name="robots」 content="nofollow」 />
2、將"nofollow"放在超鏈接中，告訴搜索引擎不要抓取特定的鏈接。
<a rel="external nofollow」 href=「url」><span>內容</span></a>

4. 如何屏蔽搜索引擎

我們在做網站時，有些目錄或者文件不希望搜索引擎蜘蛛搜索到，比如後台，重要頁面或文件。那麼我們這時該怎麼辦呢？最簡單的方法是修改robots.txt文件和網頁中的robots Meta標簽。
robots.txt文件是做什麼的，robots文件又稱robots協議（也稱為爬蟲協議、爬蟲規則、機器人協議等）robots協議是告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。robots協議不是命令，它只是一個網站國際互聯網界通行的道德規范，知名的引擎蜘蛛都會遵守這個協議，只有一些缺乏職業道德的搜索引擎會繞開它。所以修改這個協議也不是萬能保險的。
robots.txt文件是一個放置在網站根目錄下的記事本文件，當搜索蜘蛛訪問網站時，它會先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內容來確定訪問的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。網路官方建議，僅當您的網站包含不希望被搜索引擎收錄的內容時，才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容，請勿建立robots.txt文件。
robots文件屏蔽的寫法
下面是一個網站的robots文件的代碼樣式。
===================================================================================
User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
===================================================================================

我們來看一下它的意思。
robots文件中應同時包含2個域，「User-agent:」和「Disallow:」，其中User-agent:代表允許、 Disallow: 代表禁止。每條指令獨立一行。並且User-agent必須出現在第一行（有意義的行，注釋除外），首先聲明用戶代理。
User-agent:
User-agent:指定允許哪些蜘蛛抓取，如果給出參數，則只有指定的蜘蛛能夠抓取；如值為通配符「*」號，代表允許所有蜘蛛抓取。如：
User-agent: Googlebot
只允許Google的蜘蛛抓取。
User-agent: spider
只允許網路的蜘蛛抓取。
User-agent: *
這個是指允許所有蜘蛛抓取，*為通配符，代表所有。
Disallow:
這個是表示禁止蜘蛛抓取的，以上面的robots文件為例。
Disallow: /plus/ad_js.php
這個是指禁止引擎蜘蛛抓取網站中plus目錄中的ad_js.php文件
Disallow: /include
這個是指禁止引擎蜘蛛抓取網站中include整個目錄，它和Disallow: /include/不是等同的。
Disallow: /include/
這個是指禁止引擎蜘蛛抓取網站中include目錄下面的目錄，但include目錄中的文件蜘蛛仍然可以抓取。
Disallow: /cgi-bin/*.htm
禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。
Disallow: /*?*
禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$
禁止抓取網頁所有的.jpg格式的圖片
Allow:
這是允許的意思。
Allow: /include/
這里是允許爬尋include目錄下面的目錄
Allow: /include
這里是允許爬尋include整個目錄
Allow: .htm$
僅允許訪問以".htm"為後綴的URL。
Allow: .gif$
允許抓取網頁和gif格式圖片
Sitemap:
網站地圖告訴爬蟲這個頁面是網站地圖
robot文件的常見用法
例1. 禁止所有搜索引擎訪問整個網站。
User-agent: *
Disallow: /
例2.禁止網路蜘蛛訪問整個網站。
User-agent: spider
Disallow: /
例3.允許所有搜索引擎訪問（也可以建立一個空robots.txt文件或者不建立robots文件）
User-agent: *
Allow:/
User-agent:後的*具有特殊的含義，代表「any robot」，所以在該文件中不能有「Disallow: /tmp/*」 or 「Disallow:*.gif」這樣的記錄出現。
robots Meta標簽屏蔽法
robots.txt是放在網站中，文件級的網路蜘蛛授權；而robots Meta標簽是放在網頁中，一般用於部分網頁需要單獨設置的情況下。兩者的功能是一樣的。
Meta robots標簽必須放在<head>和</head>之間，格式：
<meta name=」robots」 content=」index,follow」 />
content中的值決定允許抓取的類型，必須同時包含兩個值：是否允許索引（index）和是否跟蹤鏈接（follow，也可以理解為是否允許沿著網頁中的超級鏈接繼續抓取）。共有4個參數可選，組成4個組合：
index,follow：允許抓取本頁，允許跟蹤鏈接。
index,nofollow：允許抓取本頁，但禁止跟蹤鏈接。
noindex,follow：禁止抓取本頁，但允許跟蹤鏈接。
noindex,nofllow：禁止抓取本頁，同時禁止跟蹤本頁中的鏈接。
以上1和4還有另一種寫法：
index,follow可以寫成all，如：
<meta name=」robots」 content=」all」 />
noindex,nofollow可以寫成none，如：
<meta name=」robots」 content=」none」 />
需要注意的是，robots Meta標簽很多搜索引擎是不支持的，只有少數搜索引擎能夠識別並按給定的值抓取。所以，盡可能的使用robots.txt文件來限制抓取。

5. 誰知道怎麼屏蔽URL，跪求！！！

要用軟體啊可能現成的沒有，你可以找找SPI（也有叫LSP的）方面的技術，是Windows socket 的服務提供者；你可以檢查所有出去的http頭，看到host 1就改變成host 2；這個思路一定可以實現

6. 如何禁止搜索引擎爬蟲抓取網站頁面

以下列舉了屏蔽主流搜索引擎爬蟲（蜘蛛）抓取/索引/收錄網頁的幾種思路。注意：是整站屏蔽，而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲（蜘蛛）。

1、通過 robots.txt 文件屏蔽
可以說 robots.txt 文件是最重要的一種渠道（能和搜索引擎建立直接對話），給出以下建議：
User-agent: Baispider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通過 meta tag 屏蔽
在所有的網頁頭部文件添加，添加如下語句：
<meta name="robots" content="noindex, nofollow">
3、通過伺服器（如：Linux/nginx ）配置文件設置
直接過濾 spider/robots 的IP 段。

圖片url如何屏蔽搜索引擎

與圖片url如何屏蔽搜索引擎相關的內容