利用爬蟲技術能做到哪些很酷很有趣很有用的事情？

1樓：

搶口罩，每隔三天才能一次，每人一次只能搶5個，很難搶到，於是乎...

python模擬登入，開啟多執行緒瘋狂預約，現在基本必中了..匿了，怕挨懟

2樓：小尼姑年方二八

電影推薦，純粹的電影推薦，劇透最少的電影推薦。

如果你想要看一部電影，那麼頭一件事就是至少要知道一部電影的名字。

那麼從何得知一部電影的名字呢？

可能有好幾種渠道。

但是有乙個問題——劇透！

我知道很多人對劇透無感或者並不介意。

但我跟其它人比較不一樣，我極其的排斥、反感劇透。

除了必要的電影名之外，我乙個字都不想被劇透。

童年時代讓我魂牽夢繞的86版《西遊記》，現在卻讓我恨死了楊潔。

是真的是恨死了她!

她讓我永遠的失去了在無劇透的狀態下對《西遊記》的欣賞。

還有《古劍奇譚》電視劇集，也讓我恨死！

算了，說遠了。

回到正題，要知道如果現在在知乎上搜尋電影推薦，在那些回答裡，幾乎一部電影可以寫幾百上千字，再配上大量的電影截圖，就差從頭到尾給你解說一遍了。而且越是字多圖多的回答，贊也越多。

而我，只需要電影名，所以爬蟲就派上了用場。

3樓：若華

兩年前無聊寫了乙個與貼吧以及WX相關的輿情機械人，挺有意思的哈哈哈哈，沒事就看一下貼吧風向和逗一下機械人~

TieBa-API-Sentiment

4樓：郭靖

用資料分析來找出滬上最具價效比的本幫餐廳https://

5樓：誠實可愛小郎君

知乎瀏覽量排行：

知乎關注量排行：

知乎回答數排行：

而且還可以分析一部分公共熱點的關注數：

怎麼評價薛之謙？

如何評價AlphaGo Zero？

如何看待「杭州保姆縱火案」莫煥晶被判死刑？

6樓：bigData

抓資料是第一步，第二步是分析資料。

最常見的是爬蟲+BI產品的布局方式。

也有對資料進行挖掘的，數學建模之後大量資料得到分析結構。

瑞雪採集雲

7樓：

實習的時候寫的亂七八糟，比較業餘，老闆說能用就行。

其實就是抓portfolio裡公司的財務資料，跑了一晚上抓大約3`4百個G。

後續還有用SQL整理資料和調整資料結構云云，至於資料怎麼處理以及應用都是競業協議裡規定不能透露的內容了

8樓：褐言

用webmagic 收穫了乙份offer ，現在在入職的高鐵上。

專案位址 https://

9樓：默然

爬了下知乎，也做了點資料視覺化。

比如知乎熱門使用者：

詳細類容在此：

Python筆記 · 乙個多執行緒知乎使用者爬蟲的實現Python筆記 · 基於72萬知乎使用者資訊的資料視覺化

10樓：Doctor

可以看看我寫的這個文章，爬取QQ好友所有的說說並簡單做了資料分析，得出了幾個有趣的小結論。下面是鏈結

11樓：半仙

很多人利用爬蟲技術做研究

我卻利用爬蟲技術買彩票

很多人利用python不停的HTTP GET,POST，然後正規表示式匹配，然後提取出資料，建表建庫

我卻寫到要吐不想再寫了，直接用八爪魚採集器配了血的經驗啊

12樓：相學長

這個答案，也不知道會不會被知乎批評。但看樓上大v們都爬了這麼多知乎資料，想來也不是很打緊。

事情是這樣的，前幾天呢，我回答了個關於華為問題，造了個名詞--「薛丁格的快閃儲存器」，拿了個近3K贊吧，小透明的我突然感受到一絲快感。我就想啊，雖然我在敲下那個答案的時候，心中就有一股隱隱約約的感覺要火了，但畢竟真的拿這麼多讚肯定還是偶然的。

那怎麼把偶然變成必然，或者增加偶然的機率呢？什麼樣的題目，在什麼時候去回答能取得最好的效果？

換言之，什麼題目什麼時候值得答。這我當然是不知道的，但是我會爬資料去分析啊！

於是乎，我的『答乎』橫空出世！！

先來看部分介面。

這是前幾天特火的位元幣病毒事件，我在當天晚上跟蹤了3個相關的問題，分別去抓取了問題的關注量，回答數，閱讀量，並繪製成圖表。第二天早上9點起床，發現其中乙個問題，曲線異常好看，問題異常火爆！

然後在10點鐘，回答了乙個答案，然而並沒有火。。。。。。。畢竟這麼火爆的問題，答案鋪天蓋地，還是得靠內容取勝。安慰自己，放寬心，純粹當學習也好。

當然了，在做這個爬蟲之前，還是受到一些挫折的，比如知乎會遮蔽異常流量的IP。我剛爬沒一回，就提示我的IP受限，必須要登陸帳戶。

沒辦法，知乎又沒開放介面。我還得去模擬使用者登陸，又得去爬知乎的登陸頁面，爬它的驗證碼，再登陸，存下cookie，然後繼續爬。

既然都是我的登陸態了，我於是又把『發現』跟『搜尋』爬了下來。這樣方便我搜一些題目，或找熱點題目，直接跟蹤資料，省的輸入問題ID或者url。

於是又有了下面兩個頁面。

所以我現在探索問題，都直接用我的這個『答乎』來瀏覽了。

在想什麼時候，把自己主頁的問題流也爬下來，把答案頁也爬下來，過濾下廣告。做個純淨版知乎好了。

不然答案一到最後，總出現個什麼機械人的廣告。

最後，給下這個問題的一天資料曲線，真是難看不是我說，畢竟問題有些年紀了，但我還是憑著興趣回答了。

PS：技術棧 Koa2 + Vue2，前端UI用的Muse-UI。還有一些庫就不一一枚舉了，非常感謝這些開源專案的作者們！

13樓：LottieRSS

#我們現在在做的知識付費榜單【芝士榜單】收集了市面上主流的知識付費平台，像豆瓣時間這樣的入口不明顯的都有收錄針對感興趣的大咖做了乙個知識動態名片

更多功能還在繼續開發中，web端預計在下半年能夠面世…

14樓：御宇靈修

Colg有大佬通過tgp公開的資料，得到一系列關於爆率，強化慮的資料，並將其發上網，然後慘遭不可說原因封貼。

以後再發假藥我也丟

15樓：待到山花爛漫時

在做畢業設計，三天打魚兩天曬網的學了一些Python，就寫了個這個，實現以遊客身份爬取大眾點評網前50頁資料，大約850條

16樓：

人生中第乙個爬蟲爬了100兆多的番號，名字和鏈結，在vps上跑了一夜，而且全存到乙個json檔案了，脆弱的vps都打不開了。。。

接下來打算把封面也爬下來，整到資料庫裡

這當然不是為了開車，這是為了做資料分析，學習機器學習

17樓：gaga salamer

可以爬取留學論壇並分析呀詳情看這篇專欄:

EasyEasyOversea北美留學資料報告書 - 知乎專欄

我爬取了一些留學論壇的資料,並做了分析:

這是托福總分的成績分布圖,我們專門把錄取與被拒的資料分開做了統計,同時把申請常春藤學校(Harvard, Yale, Cornell, Columbia, Princeton, Brown, Dartmouth, Upenn) 的同學的托福成績單獨做了統計對比。從圖上看出,托福 100-106 分是分數集中區, 托福越低,被拒的概率越高,低托福逆襲常春藤的例子也比較少...托福越高,被錄取的概率也相對更高。

托福在 102 分及以下時,被拒的人幾乎都比錄取的人多,但托福大於 102 分時,錄取的人幾乎都被被拒的人多。而想申請藤校的同學也可以看出,托福大於 102 時,藤校申請者的托福分數遠高於平均水平。從資料上看,申請藤校的同學托福過 104 就已經高於其他申請者的平均水平了。

接下來我們來分析托福單科分數。這是托福聽力分數的分布圖,我們特地把 Econ/MFE, 法學與常春藤申請者的托福聽力分數做了單獨分析。經濟金融類專業的同學托福聽力最多的竟然是...

竟然是...滿分!在高分段(27-30)也是常春藤申請同學保持領先。

聽力大於 26 分就比很多人更有優勢了。

而托福的閱讀水平,經濟金融類的同學也是遙遙領先,滿分 30 分依舊成為了眾數。而中國申請者托福閱讀水平不得不說真的是高,大量集中在(28-30)範圍內。中國學生的英語閱讀看了不是大問題...

畢竟是做完形填空長大的...

藤校申請者還是都是高分狂魔呢...

我們來看中國學生最頭疼的托福口語成績分布。剛開始看到這圖的時候嚇一跳,以為用了假的資料。然後在網上翻看托福口語評分標準我才發現,原來托福口語評分標準裡,就沒有 21 分與 25 分這兩個分數。

) 在確認了資料的有效性後,我們發現(22-23)是大部分申請者的眾數,口語平均水平確實需要加強。不過 Econ/MFE 的同學口語成績眾數是 24 分,因此口語成績的進步空間還是很大。也看得出常春藤申請者的口語水平十分強勢,高分段大有人在。

一般口語大於 22 分錄取就具有優勢了,Offer 數也會比 Reject 數多。口語大於 23 分就比很多人領先了。

寫作分數相對比較分散,集中在(24-28)之間。Econ/MFE 類的同學們受我一膜,眾數在 28 分。Ivy League 在高分段也是保持領先。

寫作大於 26 分就是乙個不錯的成績了。所以寫作也是中國學生考托的刷分大坎,一定要過啊。

我們對 GRE 總分也進行了分析,把常春藤大學的申請成績單獨做了分析,並把 Offer 與 Reject 的 GRE 總分進行了對比。GRE 的眾數是 320...這次意外的是無論是 Offer 還是 Reject 還是 Ivy League,眾數都是 320。

高分段(329-340)的規律是:常春藤》Offer > Reject。而申請成績只要大於 322 分就已經大於平均水平了。

我們甚至還用這些資料做了應用詳情請看:簡單海外 | EasyEasyOversea

18樓：

github.com/qzzhujixue/tieba_small_sprider.git爬貼吧圖冊

19樓：Cyandev

閒的沒事的時候寫了個學校教務系統的爬蟲。

其實就是乙個簡單的 Python 指令碼，也沒用什麼框架。

首先通過抓包，分析出獲取學生資訊的介面，令人驚訝的是這個介面不需要使用者 token，這樣改改引數就能拿到別人的資料了。不過返回的是 HTML，這裡用 lxml 這個包解析成 DOM，然後就可以用 XPath 去查相應的節點了。最後把所有資訊存到 SQLite 裡面。

來看看成果吧，我總共抓了不到 1000 個學生的資訊，以我們學院的學號上下擴散的，可以做一些很有意思的統計：

1. 看看哪些姓多，那些姓比較稀有：

2. 全級部範圍內比較成績（出於隱私考慮除了我以外的人就打碼了）：

3. 看看哪些班掛科最多：

P.S. 這些資訊除成績外不包含任何敏感內容。

利用爬蟲技術能做到哪些很酷很有趣很有用的事情？

能利用爬蟲技術做兼職嗎？

不花錢能做到哪些瘋狂又高大上的事？

現在的技術能不能做到戴上3D眼鏡可以像看3D電影一樣玩遊戲？如果可以，是否意味著一場遊戲領域的革命？

其他用戶還看了：