當前位置:首頁 » 圖片資訊 » 圖片url如何屏蔽搜索引擎
擴展閱讀
美女健身跳河視頻 2023-08-31 22:08:21
西方貴族美女照片真人 2023-08-31 22:08:15

圖片url如何屏蔽搜索引擎

發布時間: 2022-08-24 06:58:49

1. 如何禁止網頁被搜索引擎收錄和索引

第一種:robots.txt方法
站點根目錄中有個robots.txt,沒有的話可以新建一個上傳。
User-agent: *
Disallow: /
禁止所有搜索引擎訪問網站的所有部分
User-agent: *
Disallow: /css/
Disallow: /admin/
禁止所有搜索引擎訪問css 和admin 目錄,將CSS或admin目錄修改為你指定的文件目錄或文件即可。
第二種:網頁代碼方法
<head>與</head>之間,加入<meta name="robots" content="noarchive">代碼,此標記禁止搜索引擎抓取網站並顯示網頁快照。
註:已經加了禁止代碼,但是搜索引擎還可以搜索出來,因為搜索引擎索引資料庫的更新需要時間。雖然Baispider已經停止訪問您網站上的網頁,但網路搜索引擎資料庫中已經建立的網頁索引信息,可能需要數月時間才會清除。

2. 網站不想讓搜索引擎抓取怎麼做

操作方式有三種,一種是直接在網站後台進行設置(目前只有wordpress和Zblog程序才有這個功能),另一種就是通過上傳robots文件即可,最後一種就是在伺服器上面利用「網站安全狗」軟體設置靜止抓取的方式。

一、wordpress在程序裡面設置的方式

1-登錄wordpress網站後台

通過以上的步驟就可以讓搜索引擎不抓取網站的方式

3. 寫文章插入的網址如何屏蔽搜索引擎

將此鏈接設置為「NOFOLLOW」鏈接就行了,nofollow 是一個HTML標簽的屬性值。它的出現為網站管理員提供了一種方式,即告訴搜索引擎"不要追蹤此網頁上的鏈接"或"不要追蹤此特定鏈接。這個標簽的意義是告訴搜索引擎這個鏈接不是經過作者自己編輯的,所以這個鏈接不是一個信任票。
nofollow標簽通常有兩種使用方法:
1、將"nofollow"寫在網頁上的meta標簽上,用來告訴搜索引擎不要抓取網頁上的所有外部和包括內部鏈接。 <meta name="robots」 content="nofollow」 />
2、將"nofollow"放在超鏈接中,告訴搜索引擎不要抓取特定的鏈接。
<a rel="external nofollow」 href=「url」><span>內容</span></a>

4. 如何屏蔽搜索引擎

我們在做網站時,有些目錄或者文件不希望搜索引擎蜘蛛搜索到,比如後台,重要頁面或文件。那麼我們這時該怎麼辦呢?最簡單的方法是修改robots.txt文件和網頁中的robots Meta標簽。
robots.txt文件是做什麼的,robots文件又稱robots協議(也稱為爬蟲協議、爬蟲規則、機器人協議等)robots協議是告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。robots協議不是命令,它只是一個網站國際互聯網界通行的道德規范,知名的引擎蜘蛛都會遵守這個協議,只有一些缺乏職業道德的搜索引擎會繞開它。所以修改這個協議也不是萬能保險的。
robots.txt文件是一個放置在網站根目錄下的記事本文件,當搜索蜘蛛訪問網站時,它會先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。網路官方建議,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
robots文件屏蔽的寫法
下面是一個網站的robots文件的代碼樣式。
===================================================================================
User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
===================================================================================

我們來看一下它的意思。
robots文件中應同時包含2個域,「User-agent:」和「Disallow:」,其中User-agent:代表允許、 Disallow: 代表禁止。每條指令獨立一行。並且User-agent必須出現在第一行(有意義的行,注釋除外),首先聲明用戶代理。
User-agent:
User-agent:指定允許哪些蜘蛛抓取,如果給出參數,則只有指定的蜘蛛能夠抓取;如值為通配符「*」號,代表允許所有蜘蛛抓取。如:
User-agent: Googlebot
只允許Google的蜘蛛抓取。
User-agent: spider
只允許網路的蜘蛛抓取。
User-agent: *
這個是指允許所有蜘蛛抓取,*為通配符,代表所有。
Disallow:
這個是表示禁止蜘蛛抓取的,以上面的robots文件為例。
Disallow: /plus/ad_js.php
這個是指禁止引擎蜘蛛抓取網站中plus目錄中的ad_js.php文件
Disallow: /include
這個是指禁止引擎蜘蛛抓取網站中include整個目錄,它和Disallow: /include/不是等同的。
Disallow: /include/
這個是指禁止引擎蜘蛛抓取網站中include目錄下面的目錄,但include目錄中的文件蜘蛛仍然可以抓取。
Disallow: /cgi-bin/*.htm
禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。
Disallow: /*?*
禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$
禁止抓取網頁所有的.jpg格式的圖片
Allow:
這是允許的意思。
Allow: /include/
這里是允許爬尋include目錄下面的目錄
Allow: /include
這里是允許爬尋include整個目錄
Allow: .htm$
僅允許訪問以".htm"為後綴的URL。
Allow: .gif$
允許抓取網頁和gif格式圖片
Sitemap:
網站地圖 告訴爬蟲這個頁面是網站地圖
robot文件的常見用法
例1. 禁止所有搜索引擎訪問整個網站。
User-agent: *
Disallow: /
例2.禁止網路蜘蛛訪問整個網站。
User-agent: spider
Disallow: /
例3.允許所有搜索引擎訪問(也可以建立一個空robots.txt文件或者不建立robots文件)
User-agent: *
Allow:/
User-agent:後的*具有特殊的含義,代表「any robot」,所以在該文件中不能有「Disallow: /tmp/*」 or 「Disallow:*.gif」這樣的記錄出現。
robots Meta標簽屏蔽法
robots.txt是放在網站中,文件級的網路蜘蛛授權;而robots Meta標簽是放在網頁中,一般用於部分網頁需要單獨設置的情況下。兩者的功能是一樣的。
Meta robots標簽必須放在<head>和</head>之間,格式:
<meta name=」robots」 content=」index,follow」 />
content中的值決定允許抓取的類型,必須同時包含兩個值:是否允許索引(index)和是否跟蹤鏈接(follow,也可以理解為是否允許沿著網頁中的超級鏈接繼續抓取)。共有4個參數可選,組成4個組合:
index,follow:允許抓取本頁,允許跟蹤鏈接。
index,nofollow:允許抓取本頁,但禁止跟蹤鏈接。
noindex,follow:禁止抓取本頁,但允許跟蹤鏈接。
noindex,nofllow:禁止抓取本頁,同時禁止跟蹤本頁中的鏈接。
以上1和4還有另一種寫法:
index,follow可以寫成all,如:
<meta name=」robots」 content=」all」 />
noindex,nofollow可以寫成none,如:
<meta name=」robots」 content=」none」 />
需要注意的是,robots Meta標簽很多搜索引擎是不支持的,只有少數搜索引擎能夠識別並按給定的值抓取。所以,盡可能的使用robots.txt文件來限制抓取。

5. 誰知道怎麼屏蔽URL,跪求!!!

要用軟體啊可能現成的沒有,你可以找找SPI(也有叫LSP的)方面的技術,是Windows socket 的服務提供者;你可以檢查所有出去的http頭,看到host 1就改變成host 2;這個思路一定可以實現

6. 如何禁止搜索引擎爬蟲抓取網站頁面

以下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(蜘蛛)。

1、通過 robots.txt 文件屏蔽
可以說 robots.txt 文件是最重要的一種渠道(能和搜索引擎建立直接對話),給出以下建議:
User-agent: Baispider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通過 meta tag 屏蔽
在所有的網頁頭部文件添加,添加如下語句:
<meta name="robots" content="noindex, nofollow">
3、通過伺服器(如:Linux/nginx )配置文件設置
直接過濾 spider/robots 的IP 段。