BeautifulSoup處理html文件的過程是怎樣的?分為幾個步驟?

時間 2021-05-30 04:15:06

1樓:李巨集杰

這段話下面不是給了例子了嗎,我沒仔細看.不過我覺得是不是和命令列中的head(),tail()類似啊,讀取部分,拿個上G的文件測試一下就知道了

2樓:Alex-thu

從我的個人經驗上看,實際上,情況有點複雜,因為處理HTML需要幾個步驟:

解析這個 HTML

把它解析為乙個物件(比如乙個文件物件)

把它序列化"說的應該還是比較對的。

前一段時間剛參加過乙個學術工作坊,裡面談到了這個方面的內容,我就直接拿我們當時演示的內容做例子。

開頭兩行主要是載入相關的模組:

from

bs4import

BeautifulSoup

import

urllib2

然後開始解析html為乙個物件,然後用BeautifulSoup處理一下:

)之後要在這個物件裡面找到要找的東西,就是網頁裡面的學校名字(School name),並把這些學校名字放到乙個組裡面(我猜應該是那個叫序列化的東西吧):

tmp1

=soup

.find_all

("a"

,attrs=)

然後就可以隨心所欲了,比如看看tmp1這個東西有多長或者第乙個位置有什麼東西:

len(

tmp1

)tmp1[0

]或者把裡面的東西都列印出來:

forx

inschool_names

:print

x嗯我猜就是這樣。

為什麼使用BeautifulSoup時,把解析器換成lxml就出錯?

youngornever f除錯時發現,有的網頁經過lxml解析後很多內容沒有了,換其他的解析器就可以。所以,我一般選取2 3個解析器。如果出錯就換另乙個解析器。 煌煌不安 一樓 盧戰豪 已經說得比較清楚了,我想補充一點就是根據Beautiful Soup Documentation,如果你想知道自...

是先處理情緒,再處理問題(事物) 還是先處理問題(事物),再處理情緒呢?

RahcelZhan 要看事情重要還是情緒重要吧。人嘛,總是趨利避害的。如果事情很重要,但是情緒卻影響了處理這件事情,成為阻力,自然要先處理情緒。否則事情也好,情緒也好,都變得更加糟糕。如果情緒本身沒有達到成為影響處理事情的主要因素,那自然是先做事情就好,情緒反而會被轉移。 招財喵 如果不夠理智冷靜...

異常處理 exception handling 和錯誤處理(error handling)有什麼區別?

還沒翻譯和擴充套件完,有興趣進來看看,大牛有相關知識可以進來擴充套件一下。另外乙個詞條是控制流程 control flow 這個英文詞條也是賊長,等什麼時候有事件再翻譯翻譯。少吹牛,多看多想,多看文獻和官方資料。不然中文圈和英文圈資訊就完全 生殖隔離 了。 Belleve 用異常就不用每次呼叫方法之...