前天世超看到一個帖子說, 在 Google 和 Bing 能搜到微信公眾號的文章了,
呸,怎么可能,
世超一邊不信,一邊趕緊拿 Google 測試了一下,發現差評的文章確實有被收錄進去。
嚯,要這樣下去,在百度里搜微信文章是不是也快了?
想必除了世超,很多網友應該都挺期待這件事的,畢竟有時候搜資料,在百度和微信之間切來切去還挺麻煩的。
誰想到世超還沒樂呵夠,騰訊馬上就辟謠了:
是公眾號的 robots 協議出現漏洞,讓搜索平臺的爬蟲爬到了,現在已經修復了,
嗐,搞半天白高興一場。
不過,今天世超還是想就這個 robots 協議和大家探討一下,
因為說起來你可能不信,我們在百度里前搜不到公眾號文章,后搜不到淘寶商品,都是因為 robots 協議。
robots 協議其實很簡單,就是一個放在網站根目錄的文本,它寫明了搜索引擎可以/不可以收錄哪些資訊。
微信公眾號的 robots 協議 ▼
有人可能會說,原來就是這幾行字害得互聯網不能互聯了?不不,這鍋 robots 協議可不背。
robots 協議原本只是幫助搜索引擎更高效地收錄資訊,只不過現在人們用著用著逐漸變了味。
這事還得從上世紀 90 年代初期說起,
在搜索引擎誕生之前,人們要查資料,只能一個個進入相關網頁,效率非常低下。
后來有了搜索引擎,搜索引擎通過釋放網路爬蟲( 也可以叫蜘蛛 ),抓取各個網頁里的資訊,并把這些資訊收錄起來供大家查詢,這才極大提高了人們的效率。
但是,那會爬蟲就跟小黑胖一樣,抓取資訊來完全不挑食。
不管是沒用的垃圾資訊,還是網站重要的內部數據,不分青紅皂白地一頓亂抓,全都要。
這種粗暴的抓法不僅降低了用戶搜到有用資訊的效率,還會讓網頁的重要數據泄露,服務器過載無法運行。
所以在 1994 年初,荷蘭有位網路工程師提出了 robots 協議。
就好比賓館房間門上掛著的“ 請勿打擾 ”,“ 歡迎打掃 ”牌子,告訴阿姨哪些房間是可以打掃的。
每個網站的根目錄下也擺著一份 robots 協議,協議里告訴爬蟲:哪些東西你可以抓,哪些東西你不能抓。
雖說這個 robots 協議目前還沒被任何國際組織采納,沒有制約性,只能算個君子協議:你不聽,就不是個正人君子。
但它畢竟為了幫助搜索爬蟲更有效地抓取對用戶有用的資訊,更好促進資訊共享。所以在國外不管是早期的 altavista 還是后來的 Google 、必應,大家也都遵守著這一套協議,同樣 2012 年 11 月大陸互聯網協會發布了《 互聯網搜索引擎服務自律公約 》,也規定了:搜索引擎要遵守網站的 robots 協議,但前提是這個 robots 協議是合理的,
這個公約對 12 家發起單位生效,成員包括百度、騰訊、奇虎 360、搜狗、YouMeLive、新浪等。圖源百度百科 ▼
如今絕大多數搜索引擎的爬蟲在訪問網站時,第一件事就先讀下網站的 robots 協議。在了解哪些資訊是可以抓取之后,才會行動。比如淘寶的 robots 協議,雖然只有簡單的 4 行字,但寫明了:百度爬蟲( Baiduspider )不允許( Disallow )抓取任何內容( / ),百度爬蟲過來看到協議后,就算心里難受,也只能啥也不碰馬上離開,
那可能有人說,這既然是君子協議,會不會有人不當“ 君子 ”呢?當然有,robots 協議只相當于一個告知書,爬蟲( 背后的人 )可以不聽你的,和大家說兩個違背 robots 協議的例子。第一個例子是 BE 和 eBay 的糾紛,
BE 是一個提供拍賣資訊的聚合網站,它利用爬蟲抓取 eBay 等拍賣網站的商品資訊,然后放在自己網站上賺取流量。盡管 eBay 早已寫好了 robots 協議,告訴 BE 爬蟲不準抓取任何內容,但 BE 認為這類拍賣資訊都是大眾上傳的,eBay 設置 robots 協議不讓自己抓取,不合理啊,
后來法院經過多方調查取證,認為 ebay 網站上內容屬于私有財產,它用 robots 協議保護私有財產是合理的。最后認定 BE 侵權。想必大家能看出來,法院判定結果并不是單純看有沒有違背robots 協議,最主要還得看這個 robots 協議合不合理。
同樣,還有個例子也證明了這點,大部分人都知道 3Q 大戰,但可能沒聽過 360 和百度的“ 3B 大戰 ”。
2012 年 8 月 360 搜索剛上線,它抓取了百度旗下的內容( 百度知道,貼吧 )并以快照的形式提供給用戶,但是,百度的 robots 協議寫明了只有部分搜索引擎可以抓取,當中沒包括 360 搜索,也就是說 360 違背了百度 robots 協議。
圖源百度百科 ▼
后來百度想了一個法子,只要在 360 搜索中搜到百度相關網站,點擊后就會跳轉到百度搜索引擎網站,再到后來他們鬧上了法庭。
這件事去年才算正式結案,判決書大概有一萬多字吧,可把世超看了好一會,不管是 360 把百度快照提供給用戶,還是百度的跳轉措施,這些操作法院都進行了相應的判決,但是跟我們文章沒太大關系,世超只在這里說下:對于 360 搜索違背百度 robots 協議的抓取行為,是怎么判定的。首先 360 在 2012 年 8 月違背 robots 協議是有不合理在先,但是同年 11 月發布了《 自律條約 》。
條約可是規定了 robots 協議限制搜索引擎得有正當理由:比如為了保護敏感資訊、公眾利益或者維持網站正常運行。但百度限制 360 搜索抓取的內容,既不是重要敏感資訊,被抓取了也不會讓百度不能運行了或者損害了公共利益,,
這就可以判定百度沒有正當理由拒絕 360 抓取, 360 的抓取行為也并非不正當競爭行為。
所以啊,不是寫了 robots 協議就一定在理,你這個協議首先得合理才行,但關鍵是,這個合理的界限有時候不是很好定,。比如現在不少互聯網公司用 robots 協議阻止搜索引擎收錄,限制了資訊分享。你說他們是在合理設置 robots 也沒錯,畢竟是為了保護自己的數據權益。但這是不是和互聯網的初衷背道而馳了呢,。
就拿世超自己經歷來講。之前寫個反詐騙的文章,百度查了大半天資料不夠,差點放棄。后來在微信里搜,才在一家公眾號文章上找到相關資料。最后要找視訊作為動圖素材,我又跑去短視訊平臺。,要知道曾幾何時,我們明明可以很輕易的查詢到資訊,現在因為各大網站的 robots 協議變成了如此困難。。
更諷刺的是, robots 協議原本做出來只是為了提高爬蟲效率,更好地促進資訊流動的,。這是不是有點變味了,,