Python的結巴分詞處理大檔案如何優化可提高速度?

時間 2022-01-03 16:31:14

1樓:

48G記憶體,可以直接使用jieba並行分詞加速,由於python多執行緒只能單核執行的原因,結巴採用的是並行分詞,就是多程序分詞,並且不支援windows,我windows系統,16g記憶體,i7 cpu,20g的語料,linux系統16g記憶體直接啟動結巴自帶並行分詞會爆記憶體,我手動啟動8個jieba程序分詞,將語料切分8份,分別分詞,7個小時左右搞定

2樓:Lean-Y

jieba自己帶著開啟多執行緒的方法,可以大大提高速度,jieba.enable_parallel(4)。

例子:https://

3樓:董國盛

token換成set

扔掉string_list

用multiprocessing

用with .. as. . for .. in ..換掉readlines試試。。

4樓:King George

寫的有問題,filter那行如果我沒看錯的話,應該是強行把O(N)的演算法變成了O(N^2),要是我我應該會這樣寫 filter_seg=filter(lambda x: x not in token and len(x.strip())>0, jieba.

cut(line))

以及真的不考慮multiprocessing嗎?這個是一定可以多執行緒(python只能多程序orz)加速的

結巴怎麼產生的?結巴是殘疾嗎?

汪立彬說口吃社恐 你好,人是 口吃之器 除了啞巴,都有可能會發生口吃的現象。不會口吃的啞巴屬於殘疾,但是發生口吃的我們不是殘疾。人只要說話就會發生口吃,就像人走路就會有跌倒的可能性。口吃發生的原因主要有以下幾種 一 生理性口吃,是指語言系統先天缺陷或後天病變,致使患者不能正常說話。比如舌繫帶過緊 中...

我在全校性的決賽上,表現很垃圾,忘詞,結巴,1分鐘內沒說好一句話?

暴風大劍家園衛士 我上個學期參加一個心理知識競賽,跟兩個女孩子代表我們院進入決賽。有一個環節,各院表演一段校園常見的現象,然後選手來對其做心理學的分析並給出建議。我們老師是個新的女導員,很漂亮很年輕,就找了一個她的文筆很好的朋友寫分析。確實寫的很好,然後我是隊長,這段到時候我要以講述的語氣背誦出來。...

為什麼感覺女的結巴很少啊?

汪立彬說口吃 女的結巴的是不多。口吃者中男女比例是7 1。為什麼口吃者中男多女少呢?原因如下 一,口吃大多是學來的。男孩子比較調皮,容易學別人口吃。女孩子一般比較聽話,不容易學別人口吃。二,家庭教育的原因。父母一般對男孩子要求比較嚴,對女孩子要求比較寬鬆。被父母管的嚴格,壓力自然就大,口吃了容易被父...

怎樣客服容易緊張的心理,容易結巴。?

InAdam 緊張無非是害怕說錯,也可能條件反射性的,對此情況,你需要他人鼓勵和安慰,就是需要你親近的人來給你心理安慰,平衡你的緊張感。 劉成業 你對語言已經很不自信了,你比較輕的話可以在說話前先緩和一下情緒,你的語言流暢度和你心理是否平靜有很大關係,你得知道是情緒左右了你的語言,你不必在沒說話前就...

每次點名喊到的時候緊張結巴,應該怎麼辦?

球探李心仔 他們並沒有那麼重要,你結巴他們也得聽著,這是你的權利,所以不要自責,減少口吃現象的負面情緒產生,會很有利你口吃恐懼症的緩解,從而減少口吃,本人以前口吃了18年,可謂久病成良醫,現在在設計院工作,經常要與各方打交道,基本和正常人無異了 其實你本來就是正常人 偶爾會有口吃預感,肌肉記憶也能平...