我之前一直以為Google在header那裡得到404的狀態碼之後,就不讀取頁面的內容了,但現在看來這個想當然是錯誤的。

最近一些垃圾站發了很多垃圾廣告鏈接,很多(上十萬個)這些鏈接指向了我的網站,URL中直接帶有廣告內容。比如

http://mydomain.com/content/訪問垃圾網站到www.垃圾.com

(我省去了url中原本應該帶有的五角星之類的符號,因為我打不出來。。。)
廣告語應該是電腦生成的,每個鏈接還不一樣。

這樣我的網站就多出十幾萬個外鏈,打開的都是404頁面。

前兩天我收到Google的郵件:
Googlebot found an extremely high number of URLs on your site http://mydomain.com/

Googlebot encountered problems while crawling your site http://mydomain.com/.

Googlebot encountered extremely large numbers of links on your site. This may indicate a problem with your site’s URL structure. Googlebot may unnecessarily be crawling a large number of distinct URLs that point to identical or similar content, or crawling parts of your site that are not intended to be crawled by Googlebot. As a result Googlebot may consume much more bandwidth than necessary, or may be unable to completely index all of the content on your site.

詳細信息

我用Google站長工具查詢這個網站的信息,發現404頁面在高速上升。大多是上面提到的那些垃圾外鏈。裡面提供鏈接來源信息,很多是這些垃圾網站,但奇怪的是有一半是來自於這個鏈接本身!!!這些鏈接本身是404頁面,但我在這裡動態生成了一個報錯頁面,提示用戶打開的這個鏈接不存在。問題就在於提示信息中的鏈接可以點擊!看來Google訪問了這個動態的404頁面的內容,並抓取了裡面的鏈接(鏈接指向這個404頁面本身。。。)於是Google將進入一個死循環???

我針對這個問題,做了兩個回應:

1.使用Google的disavow link工具,告訴google不要抓取這些垃圾域名來的外鏈。
2.修改404頁面的生成代碼,在裡面不再生成打不開的頁面的鏈接。

效果怎麼只能觀察。

附:不可信的Google官方發言:404外鏈不會影響你的網站 (顯然他們不知道垃圾鏈接可以這麼多,多到影響網站的正常收錄)