python爬蟲出來的資料怎麼儲存???

時間 2021-05-06 02:19:50

1樓:小台

本地輕量級儲存可以選csv檔案和 sqlite雲儲存的話,可以選擇關係型資料庫 sql server、mysql,nosql資料庫 mongodb等

本地儲存的好處是可以離線操作,適合本地資料分析(用python指令碼或者jupter)

雲儲存的化不僅是分析上,可以給web應用使用,而且別人也可以很容易訪問到爬到的資料

2樓:八爪魚採集器

如果是用八爪魚採集器,可以儲存為檔案或資料庫裡面,也可以API如果你是想直接爬了之後的儲存

你如果是關係型的,SQL SERVER之類的都行如果是非關係型的,MongoDB,如果是大量資料,可能就要改造一下了,像亞馬遜之類的都有一些

3樓:IT苦行僧

我看你用的scrapy框架,可以直接用scrapy crawl houses -o houses.csv 命令自動儲存資料為csv檔案。還可以用相關的python包寫入excel或者資料庫。

4樓:丟丟

看資料量的大小以及資料型別了,小型資料可以匯出csv或者excel,資料量大的情況可以選擇mongodb或者mysql,現在pycharm也有這兩個資料庫的外掛程式配置一下可以很方便的檢視資料

5樓:MarvinZ

這個太簡單了,首選mongodb,schemaless的設計,對於爬蟲資料來說很靈活,而且sharding機制也表示可以橫向擴充套件,本身mongodb的寫速度是很快的,因此首選mongodb

Python 在網頁爬蟲 資料探勘 機器學習和自然語言處理領域的應用情況如何?

xj ken 編寫網路資料爬蟲的技術有許多方面,探碼科技 http www.給國外好幾家網際網路公司提供過資料爬蟲服務,我們採用的技術大致梳理一下為 1.Ruby Ruby作為一種提倡快樂程式設計的指令碼語言,如Python指令碼一樣,能夠提供簡單 快速 高效的資料採集業務。至於如何比較Ruby與P...

Python爬蟲,職業發展,我該怎麼辦?

是否滄桑早侵身 別想太多,公司能呆下去就呆,靜下心學點其他的東西,比如資料或者web方向,爬蟲做得好也不容易,但畢竟崗位少,很多人對這個崗位也不了解。 阿魯迪巴 本人做過一段時間的爬蟲,感覺爬蟲侷限性太大,而且現在成熟框架太多,發展很受限,個人建議可以試試學學大資料或者機器學習相關的,python對...

Python 爬蟲如何獲取 JS 生成的 URL 和網頁內容?

使用selenium模組呼叫chrome瀏覽器,啟動的時候加上引數 headless 就可以避免彈出視窗,當然,也可以使用PhantomJS,但是據說js引擎比較老了,不支援很多新的js語法,所以推薦使用最新版本的chrome 59.0,在linux和mac版本中新增了無頭模式,完美支援一切js語法...