追蹤
熊小米不姓熊
關於部落格
從小在雜貨店長大的女孩,擁有雜貨店老闆親切熱誠的特質,又有著一大堆神奇的壓箱寶。雜貨店女兒的人生,本身就是一連串無法分類的故事集合。
  • 66364

    累積人氣

  • 1

    今日人氣

    1

    追蹤人氣

【網頁】搜尋引擎也要乖乖聽我的

這次的問題在於圖書館有部份資料庫除了於醫院的IP範圍可登入使用外,還可於IP外利用帳號密碼的方式讓使用者登入。由於這算是圖書館讀者的使用權益,因此我不能大剌剌的將帳號密碼公佈在網站上,又由於每個資料庫的帳號密碼不一樣,為了避免接不完的電話,所以很不想在網站上寫「請洽圖書館」。加上醫院網管很嚴格也很麻煩,所以也不想為了這個去建製資料庫,後來我就在網站製作百寶箱裡找到了一個很陽春的認證密碼功能,也就是在前一層網頁先設密碼,等密碼確認之後,會直接連結到密碼頁。完全不需要加一些複雜的程式。


但是,這個東西之所以陽春是因為Google大神太厲害了,因為祂竟然...把我的認證密碼頁收起來,只要在網路一打「XX醫院圖書館 院外連線」或「XX醫院圖書館 XX資料庫」就會全部跑出來見人啦~~更糟的是,這件事還是開試用給我們的資料庫廠商告訴我的...Orz(幸好試用沒剩幾天),不過經過這件事情,我開始要補好這個洞,不是移除網頁這麼簡單而已,因為Google大神把密碼頁收進「頁庫存檔」裡了,接下來我的工作就是一邊想接下來要怎麼辦跟等待頁庫存檔消失...。


這時候我又去爬文,發現Google大神也並非沒有禮貌的,祂把網頁收起來,是根據robots.txt或<meta>標籤,如果在網站中有告訴Google此網站允許開放的程度,那麼祂將會在下一個renew時,遵循網站中遊戲規則來進行。在Google網站中也有對robots.txt或<meta>中繼標記(只有英文版)做詳細的說明。


【robots.txt:建立告知禁止存取範圍】

可以使用任何文字編輯器建立此檔案。 該檔案須是以 ASCII 編碼的文字檔,而不是 HTML 檔案。 檔案名稱應使用小寫。

1、robots.txt 必須存放在網域的根目錄。
2、語法:User-Agent 和 Disallow。意思就是「你不要誰(User-Agent)來存取哪些東西(Disallow)?」
3、googlebot特有語法:Allow,讓google某些bot搜尋剛剛你有Disallow過的特定資料。
4、使用「*」來代表一串任意字元
5、使用「$」表示 URL 的結尾字元(副檔名)

說明:

所有robots無法檢索目錄folder1
User-Agent:*
Disallow: /folder1/

所有robots無法檢索目錄folder1但可以檢索裡面的myfile.html
User-Agent:*
Disallow: /folder1/
Allow:/folder1/myfile.html

無法檢索特定檔案
User-Agent:*
Disallow: /private_file.html

無法檢索特定檔案類型
User-Agent:*
Disallow: /*.gif$

無法檢索動態產生的網頁
User-Agent:*
Disallow: /*?

只讓google adsense檢索某網頁
User-Agent:*
Disallow:/folder1/

User-Agent:MediaPartners-Google
Allow:/folder1/

攔截所有以 private 開頭之子目錄的存取
User-Agent:Googlebot
Disallow:/private*/

URL 有區分大小寫。 例如,Disallow: /private_file.html 將會攔截 http://www.example.com.tw/private_file.html,
但允許
http://www.example.com.tw/Private_File.html。

【<META>中繼標記:宣告禁止索引與連結】

除了可以使用robots.txt的方式來調整之外,另一種方式是以HTML的<meta>標記語法做設定,告知搜尋引擎不要產生網頁的索引及庫存。

<meta>語法範例一
<html>
<head>
<meta name="robots" content="noindex,nofollow">
<title>...</title>
</head>
<body>...


將上述<meta>起始的語法放置在網頁<head>區段中,這個頁面就不會搜尋到,name的部份使用「robots」即可阻擋所有的搜尋引擎,也可以指定特定名稱,例如Googlebot或Yahoo! Slurp,就可阻擋特定搜尋引擎。content可指定noindex、nofollow等兩個屬性,noindex意指不可對本頁進行索引動作, nofollow指的是否可使用本頁的超連結再延伸出去擷取搜尋。

另外,Google提供更細項的調整設定,可以移除片段內容和快取網頁,片段內容是指出現在Google搜尋結果的網頁標題下的文字摘錄,通常描述網頁的內容。如要移除這段文字,則可以利用下方語法移除:

<meta>語法範例二
<meta name="Googlebot" content="nosnippet">

必須注意的是,移除片段內容同時也會移除快取的網頁。至於移除快取的網頁則是讓Google不會顯示快取的連結:

<meta>語法範例三
<meta name="Googlebot" content="noarchive">

若也想讓其他的搜尋引擎找不到,則將name指定的部份改成robots即可。而這個部份只能移除網頁快取的連結,但不會影響索引及片段內容。只要善加利用robots.txt與<meta>語法,就可讓網站資訊安全更加穩固。

另外,我是用Dreamweaver編輯的,發現<meta>語法只能用小寫。

我把圖書館的網站用<meta>標示成只能允許搜尋引擎cache網站首頁,這樣可以讓網站使用者乖乖的從首頁進來,並根據我的網站的索引跟層級來取得資訊。

參考文獻:
實戰設計robots.txt與標籤
如何掌控robots對自己網站的存取?
Google-使用中繼標記攔截或移除網頁
Google-我要如何使用 robots.txt 檔案來掌控對我網站的存取? 

 

相簿設定
標籤設定
相簿狀態