BeautifulSoup處理html文件的過程是怎樣的？分為幾個步驟？

1樓：李巨集杰

這段話下面不是給了例子了嗎,我沒仔細看.不過我覺得是不是和命令列中的head(),tail()類似啊,讀取部分,拿個上G的文件測試一下就知道了

2樓：Alex-thu

從我的個人經驗上看，實際上，情況有點複雜，因為處理HTML需要幾個步驟：

解析這個 HTML

把它解析為乙個物件(比如乙個文件物件)

把它序列化"說的應該還是比較對的。

前一段時間剛參加過乙個學術工作坊，裡面談到了這個方面的內容，我就直接拿我們當時演示的內容做例子。

開頭兩行主要是載入相關的模組：

from

bs4import

BeautifulSoup

import

urllib2

然後開始解析html為乙個物件，然後用BeautifulSoup處理一下：

)之後要在這個物件裡面找到要找的東西，就是網頁裡面的學校名字（School name），並把這些學校名字放到乙個組裡面（我猜應該是那個叫序列化的東西吧）：

tmp1

=soup

.find_all

("a"

,attrs=)

然後就可以隨心所欲了，比如看看tmp1這個東西有多長或者第乙個位置有什麼東西：

len(

tmp1

)tmp1[0

]或者把裡面的東西都列印出來：

forx

inschool_names

:print

x嗯我猜就是這樣。

為什麼使用BeautifulSoup時，把解析器換成lxml就出錯？

youngornever f除錯時發現，有的網頁經過lxml解析後很多內容沒有了，換其他的解析器就可以。所以，我一般選取2 3個解析器。如果出錯就換另乙個解析器。煌煌不安一樓盧戰豪已經說得比較清楚了，我想補充一點就是根據Beautiful Soup Documentation，如果你想知道自...

是先處理情緒，再處理問題（事物）還是先處理問題（事物），再處理情緒呢？

RahcelZhan 要看事情重要還是情緒重要吧。人嘛，總是趨利避害的。如果事情很重要，但是情緒卻影響了處理這件事情，成為阻力，自然要先處理情緒。否則事情也好，情緒也好，都變得更加糟糕。如果情緒本身沒有達到成為影響處理事情的主要因素，那自然是先做事情就好，情緒反而會被轉移。招財喵如果不夠理智冷靜...

異常處理 exception handling 和錯誤處理（error handling）有什麼區別？

還沒翻譯和擴充套件完，有興趣進來看看，大牛有相關知識可以進來擴充套件一下。另外乙個詞條是控制流程 control flow 這個英文詞條也是賊長，等什麼時候有事件再翻譯翻譯。少吹牛，多看多想，多看文獻和官方資料。不然中文圈和英文圈資訊就完全生殖隔離了。 Belleve 用異常就不用每次呼叫方法之...

BeautifulSoup處理html文件的過程是怎樣的？分為幾個步驟？

為什麼使用BeautifulSoup時，把解析器換成lxml就出錯？

是先處理情緒，再處理問題（事物） 還是先處理問題（事物），再處理情緒呢？

異常處理 exception handling 和錯誤處理（error handling）有什麼區別？

其他用戶還看了：

是先處理情緒，再處理問題（事物）還是先處理問題（事物），再處理情緒呢？