Author Archive

發現十幾萬個垃圾廣告外鏈並發現Google讀取網站404頁面

我之前一直以為Google在header那裡得到404的狀態碼之後,就不讀取頁面的內容了,但現在看來這個想當然是錯誤的。

最近一些垃圾站發了很多垃圾廣告鏈接,很多(上十萬個)這些鏈接指向了我的網站,URL中直接帶有廣告內容。比如

http://mydomain.com/content/訪問垃圾網站到www.垃圾.com

(我省去了url中原本應該帶有的五角星之類的符號,因為我打不出來。。。)
廣告語應該是電腦生成的,每個鏈接還不一樣。

這樣我的網站就多出十幾萬個外鏈,打開的都是404頁面。

前兩天我收到Google的郵件:
Googlebot found an extremely high number of URLs on your site http://mydomain.com/

Googlebot encountered problems while crawling your site http://mydomain.com/.

Googlebot encountered extremely large numbers of links on your site. This may indicate a problem with your site’s URL structure. Googlebot may unnecessarily be crawling a large number of distinct URLs that point to identical or similar content, or crawling parts of your site that are not intended to be crawled by Googlebot. As a result Googlebot may consume much more bandwidth than necessary, or may be unable to completely index all of the content on your site.

詳細信息

我用Google站長工具查詢這個網站的信息,發現404頁面在高速上升。大多是上面提到的那些垃圾外鏈。裡面提供鏈接來源信息,很多是這些垃圾網站,但奇怪的是有一半是來自於這個鏈接本身!!!這些鏈接本身是404頁面,但我在這裡動態生成了一個報錯頁面,提示用戶打開的這個鏈接不存在。問題就在於提示信息中的鏈接可以點擊!看來Google訪問了這個動態的404頁面的內容,並抓取了裡面的鏈接(鏈接指向這個404頁面本身。。。)於是Google將進入一個死循環???

我針對這個問題,做了兩個回應:

1.使用Google的disavow link工具,告訴google不要抓取這些垃圾域名來的外鏈。
2.修改404頁面的生成代碼,在裡面不再生成打不開的頁面的鏈接。

效果怎麼只能觀察。

附:不可信的Google官方發言:404外鏈不會影響你的網站 (顯然他們不知道垃圾鏈接可以這麼多,多到影響網站的正常收錄)


WordPress博客換主題網站百度收錄被K

本月18號seozr.com網站(Wordpress博客系統)更換了外觀主題。6月28號被百度K站了。 百度收錄現在為0了。Google的收錄變化不大。

收錄情況:

百度會K改版的網站嗎?
會。 但不是一定會。 百度會根據不同的情況做不同的處理。 百度的官方說法是:

站點改版有很多種(例如改換域名、改換目錄、改換版面等等),不同形式百度的處理方式和時間均有所不同。 –百度站長論壇管理員

如果是內容發生根本性變化,則理論上會被視為一個全新網站,舊 有超鏈失效。–百度搜索引擎優化指南 官方版 2.0

至於為什麼是6月28號被K,有可能是巧合,也有可能是因為6月28號是大清洗的日誌。因為我聽說百度在6月28號刪除了不少網站。

為什麼百度會K改版的網站?
我的理解是這樣的: >>閱讀全文


中國國內常見的搜索引擎的爬行採集蜘蛛

爬行蜘蛛(spider, bot)是搜索引擎採集網站內容的工具。不同搜索引擎使用自各的蜘蛛從網站那裡抓取內容頁面。大多數搜索引擎的蜘蛛都有自己的身份標識。本文收集整理經常會光顧中國國內網站的爬行採集蜘蛛,供搜索引擎優化或其它作用參考:
>>閱讀全文


Goolge PR值沒有取消 更新SEOQuake PageRank 參數

2011年10月6日很多SEO工具條上PR值不顯示了。 有人因此斷定google的PR值取消了。實際上這是不對的。Google沒有取消PR值, 只是改變了訪問goolge PR值的路徑。 以下是最新的SEOQuake工具可以使用的goolge PR值獲取參數:

[NAME]=Google pagerank
[TITLE]=PR
[URL_R]=http://toolbarqueries.google.com/tbr?client=navclient-auto&ch={gchecksum}&features=Rank&q=info:{url|encode}
[REGEXP]=Rank_.*?:.*?:(\d+)

使用這個參數,SEOQuake工具條又可以正常顯示網站的PR值了。 Goolge PR沒有被取消哦!


最新可用的SeoQuake百度收錄統計參數

SeoQuake是FireFox上一個不錯的搜索引擎優化插件。使用它可以快速查看當前網站的PR值,google收錄,百度收錄,yahoo鏈接數等參數。

可惜由於百度改版,現在的SeoQuake不能正常顯示百度收錄頁面數量。 下午我重寫了個參數,讓它可以正常顯示百度收錄了。我把它分享在這裡,希望對做搜索引擎優化的朋友有幫助:

[NAME]=Baidu index
[TITLE]=I
[URL_R]=http://www.baidu.com/s?wd=site%3A{domain|encode}&cl=3
[REGEXP]=.+?([0-9,]+).+?

Copyright © 2012 版權所有。
模板:yang基於Templates Next | Powered by WordPress