Python中怎麼提取字串中的漢字?

時間 2021-06-17 13:21:06

1樓:Datawhale

採用正規表示式的方法對字串進行處理。

str1 = "{我%$是,《速$@.度\發》中 /國、人"

1)提取漢字

漢字的範圍為

」\u4e00

-\u9fa5

「,這個是用Unicode表示的

import

reres1=''

.join(re

.findall('[

\u4e00

-\u9fa5]',

str1

))print

(res1

)輸出為:『我是速度發中中國人』

2)去除所有符號。採用清理資料,僅保留字母、數字、中文的方法res2 = re.sub("[^a-zA-Z0-9\u4e00-\u9fa5]", '', str2)

print(res2)

執行截圖如下:

By Datawhale知乎小組D1

2樓:

這是中文的正則

re.compile(r'[\u4e00-\u9fa5]')

前乙個好說,後面這個不好說,因為有的.留,有的.去掉

3樓:HELLOh

import re

str1 = "{我%$是,《速$@.度\發》中 /國、人"

res = ''.join(re.findall('[\u4e00-\u9fa5]',str1))

print(res)

res2 = ''.join(re.findall('[\u4e00-\u9fa5]',str2))+ str2[-7:]

print(res2)

python中字串如何轉成unicode形式?

你說,你要把 u722cu866b 變b u722c u866b 很簡單,我會,迴圈遍歷,替換就好了。def hehe a sum b for x in aif x u sum b u elsesum x.encode return sum 你說要把 u722cu866b 變 unicode編碼,我...

python中既然原始字串中的 不是轉義作用了,為什麼原始字串不能以 結尾呢??

青山 哈哈,是的。只能以 結尾,居然不能以 結尾。這個我第一次寫的時候也懵逼了。廖大神說的有道理,直譯器是人寫的,很顯然那個人沒有強迫症。要是我來寫就要把結尾和處理掉。 記得官方的說法是,原始字串a r 123 也會把緊跟的 轉義,導致直譯器認為你還沒有輸入字串結束符。所以說即使在raw strin...

ExcelVBA中怎麼提取字元在文字第幾個位置?

Excel手把手 InStr 函式 指定乙個字串在另乙個字串中首次出現的位置。InStr start string1,string2,compare InStr函式語法有以下引數 Part說明start可選。設定每次搜尋的起始位置的數字表示式。如果忽略,則搜尋從第乙個字元位置開始。如果 start ...