360繞過了Robots協議,利用瀏覽器記錄并上傳用戶數據和上網行為,并形成自己的網址庫,再用偽裝和隔離器隱藏過的爬蟲來抓取快照,生成搜索結果。
那么,從瀏覽器端直接搜集網頁信息是否正當?
實際上,Robots協議并非強制性法規,而是搜索引擎誕生后,互聯網業界經過長期博弈,最終在搜索引擎與商業站點、公眾知情權安全柵和用戶隱私權之間達成的一種妥協。
據《每日經濟新聞》了解,早期的互聯網主要是“用戶-網站”模式。流量計用戶通過網站獲取信息,網站通過吸引用戶點擊來實現廣告收入。不過,當谷歌把搜索引擎變成一種成功的商業模式之后,很多網站原有的孔板流量計商業模式遭到了嚴重破壞。
為了維護自身的利益,一些歐美大型網站聯合起來與谷歌談判,要求谷歌“有所為有所不為”,于是就有了Robots協議。該協議的核心思想就是要求Robots程序不要去檢索那些站長不希望被直接搜索到的內容,并將約束Robots程序的具體電磁流量計方法規范成格式代碼,就成了Robots協議。一般來說,網站是通過Robots.txt文件來實現Robots協議。
國內使用Robots協議最典型的案例就是淘寶網拒絕百度搜索。此外還有大量的用戶注冊、郵件等信息,都利用Robots協議來防止這些內容在互聯網上被搜索到。
不過,絕大多數中小網站需要依靠搜索引擎來增加流量,因此通常并不排斥搜索引擎,也很少使用Robots協議。去年京東商城屏蔽一淘網抓取數據時,曾指責一淘網破壞了Robots協議。
技術工程師Joey在接受《每日經濟新聞》采訪時表示,谷歌、百度是通過都是自己的服務器不停地在網上抓內容進行索引,而360的模式是讓每個使用流量計360瀏覽器的電腦成為360的蜘蛛爬蟲,把瀏覽的內容上傳到360服務器上做索引。 |