1樓:Datawhale
採用正規表示式的方法對字串進行處理。
str1 = "{我%$是,《速$@.度\發》中 /國、人"
1)提取漢字
漢字的範圍為
」\u4e00
-\u9fa5
「,這個是用Unicode表示的
import
reres1=''
.join(re
.findall('[
\u4e00
-\u9fa5]',
str1
(res1
)輸出為:『我是速度發中中國人』
2)去除所有符號。採用清理資料,僅保留字母、數字、中文的方法res2 = re.sub("[^a-zA-Z0-9\u4e00-\u9fa5]", '', str2)
print(res2)
執行截圖如下:
By Datawhale知乎小組D1
2樓:
這是中文的正則
re.compile(r'[\u4e00-\u9fa5]')
前乙個好說,後面這個不好說,因為有的.留,有的.去掉
3樓:HELLOh
import re
str1 = "{我%$是,《速$@.度\發》中 /國、人"
res = ''.join(re.findall('[\u4e00-\u9fa5]',str1))
print(res)
res2 = ''.join(re.findall('[\u4e00-\u9fa5]',str2))+ str2[-7:]
print(res2)
python中字串如何轉成unicode形式?
你說,你要把 u722cu866b 變b u722c u866b 很簡單,我會,迴圈遍歷,替換就好了。def hehe a sum b for x in aif x u sum b u elsesum x.encode return sum 你說要把 u722cu866b 變 unicode編碼,我...
python中既然原始字串中的 不是轉義作用了,為什麼原始字串不能以 結尾呢??
青山 哈哈,是的。只能以 結尾,居然不能以 結尾。這個我第一次寫的時候也懵逼了。廖大神說的有道理,直譯器是人寫的,很顯然那個人沒有強迫症。要是我來寫就要把結尾和處理掉。 記得官方的說法是,原始字串a r 123 也會把緊跟的 轉義,導致直譯器認為你還沒有輸入字串結束符。所以說即使在raw strin...
ExcelVBA中怎麼提取字元在文字第幾個位置?
Excel手把手 InStr 函式 指定乙個字串在另乙個字串中首次出現的位置。InStr start string1,string2,compare InStr函式語法有以下引數 Part說明start可選。設定每次搜尋的起始位置的數字表示式。如果忽略,則搜尋從第乙個字元位置開始。如果 start ...