開發python網路爬蟲需要哪些第三方庫?

時間 2021-05-10 20:59:29

1樓:無痕

requests庫,這是請求URL的庫,好用,之前用的urllib庫,但不如requests庫好用

BeautifulSoup或lxml,這是解析網頁的庫re,正規表示式的庫

如果需要處理或儲存資料到Excel的話推薦pandas庫Python還有專門的爬蟲框架,如Scrapy,PySpider,Crawley等

2樓:hello文西

今天我將介紹20個屬於我常用工具的Python庫,我相信你看完之後也會覺得離不開它們。他們是:

Requests.Kenneth Reitz寫的最富盛名的http庫。每個Python程式設計師都應該有它。

Scrapy.如果你從事爬蟲相關的工作,那麼這個庫也是必不可少的。用過它之後你就不會再想用別的同類庫了。

wxPython.Python的乙個GUI(圖形使用者介面)工具。我主要用它替代tkinter。你一定會愛上它的。

Pillow.它是PIL(Python圖形庫)的乙個友好分支。對於使用者比PIL更加友好,對於任何在圖形領域工作的人是必備的庫。

SQLAlchemy.乙個資料庫的庫。對它的評價褒貶參半。是否使用的決定權在你手裡。

BeautifulSoup.我知道它很慢,但這個xml和html的解析庫對於新手非常有用。

Twisted.對於網路應用開發者最重要的工具。它有非常優美的api,被很多Python開發大牛使用。

NumPy.我們怎麼能缺少這麼重要的庫?它為Python提供了很多高階的數學方法。

SciPy.既然我們提了NumPy,那就不得不提一下SciPy。這是乙個Python的演算法和數學工具庫,它的功能把很多科學家從Ruby吸引到了Python。

matplotlib.乙個繪製資料圖的庫。對於資料科學家或分析師非常有用。

Pygame.哪個程式設計師不喜歡玩遊戲和寫遊戲?這個庫會讓你在開發2D遊戲的時候如虎添翼。

Pyglet.3D動畫和遊戲開發引擎。非常有名的Python版本Minecraft就是用這個引擎做的。

pyQT.Python的GUI工具。這是我在給Python指令碼開發使用者介面時次於wxPython的選擇。

pyGtk.也是Python GUI庫。很有名的Bittorrent客戶端就是用它做的。

Scapy.用Python寫的資料報探測和分析庫。

pywin32.乙個提供和windows互動的方法和類的Python庫。

nltk.自然語言工具包。我知道大多數人不會用它,但它通用性非常高。如果你需要處理字串的話,它是非常好的庫。但它的功能遠遠不止如此,自己摸索一下吧。

nose.Python的測試框架。被成千上萬的Python程式設計師使用。如果你做測試導向的開發,那麼它是必不可少的。

SymPy.SymPy可以做代數評測、差異化、擴充套件、複數等等。它封裝在乙個純Python發行版本裡。

IPython.怎麼稱讚這個工具的功能都不為過。它把Python的提示資訊做到了極致。包括完成資訊、歷史資訊、shell功能,以及其他很多很多方面。一定要研究一下它。

3樓:老吳家的老吳

import os

import json

import urllib.requestimport urllib.parse

# import chardet

import socket

import time

import gzip

from io import BytesIO

4樓:蘑菇

三方庫的話,說一下自己常用的,自己覺得比較好用的庫像發起請求的話最喜歡用的還是requests這個三方庫,構建請求特別方便

解析的話用beautifulsoup、lxml的etree都是比較不錯的解析庫

取資料的話,像正規表示式、xpath這些比較喜歡用

Python爬蟲需要學些什麼?

凌喭 b站可以看看尹成的課,其實說簡單也簡單就是 requests,selenium。xpah re scrapy mongodb redis 在就是資料清洗視覺化之類的,要是0基礎慢慢來吧, MeetUp 建議在學習目標不明確之前,先了解使用Python爬蟲的大致過程,然後針對每個過程中涉及的知識...

學PyThon網路爬蟲能找到好的工作嗎?

韋瑋 可以,但是看掌握的程度。目前爬蟲越來越多地被用於資料採集中,比如做一些資料分析 機器學習專案的時候,需要源資料,如果這些源資料從其他企業購買,成本會比較大,而且後續維護也不太方便。所以現在很多大資料企業 金融企業都會有專門的爬蟲崗位,負責進行資料的採集工作。事實上,爬蟲本身不難,但是爬蟲的反爬...

看完了Python網路程式設計基礎,需要怎麼高階學習,能推薦一些優秀的專案原始碼麼?

brandonxiang 瀉藥,佔坑。Web框架django django 最牛的全棧的完整的框架,大而一 pallets flask 分散的全棧的外掛程式的框架,小而美 webpy webpy 微框架,適合小專案 tornadoweb tornado 非同步非阻塞式高效能的Web框架 web2py...