請問如何不使用 Python 等工具找出英文文件中出現次數最多的單詞?

時間 2021-05-06 03:19:52

1樓:

用「英語詞頻統計助手」吧。簡單易用。匯入文件,統計完自動匯出包含單詞音標詞義的統計表。

下。載。位址。:

ht刪tps://pa除n.baid文http:

字iLvDeKW7J-JzSrXCQ

提。取碼: c7u2

2樓:

唔。。來行baby perl如何

perl -e 'while(<>)for(keys(%words));$var = $_ }if($count < $words)}print "$var: $count\n"' text.txt

3樓:

題主可以去多看看語料庫語言學的工具呀,除了答案裡已經說的antconc還有wordsmith,都可以的,簡單方便,一學即會~

4樓:fool

希望沒有被牆

Counts Frequencies of Words, Characters, Sentences and Syllables

5樓:劉寧

為什麼不用Python?因為怕蛇嗎?

看到了有tr的也有re的答案,還是給你一行流的Python答案:

如果列出所有單詞的頻率:

python-c

'from collections import Counter; print(Counter(word for line in open("words.txt") for word in line.strip().

split()));'

如果列出前10:

python-c

'from collections import Counter; words = Counter(word for line in open("words.txt") for word in line.strip().

split()); print(words.most_common(10));'

其實我更贊同有人說讓你請理科生吃頓飯。

6樓:

tr 'A-Z' 'a-z' < SomeText.txt|tr -sc 'A-Za-z' '\n'|sort|uniq -c|sort -nr|head -1

霍德華提供的以上答案有些人不明白,我來解釋一下

tr 'A-Z' 'a-z' < SomeText.txt

等價於cat SomeText.txt | tr 'A-Z' 'a-z'

目的是將大寫字母都變成小寫

tr -sc 'A-Za-z' '\n'

這裡-c是--complement,求補,就是所有非26個字母以外的字元都替換為換行符 '\n'

-s 是多個重複的字元壓縮為乙個字元

tr 'A-Z' 'a-z' < SomeText.txt|tr -sc 'A-Za-z' '\n'

到此為止,輸出是每一行是乙個單詞

sort|uniq -c

這是乙個常見組合,uniq要求的輸入是已經排過序的,uniq -c的輸出例子如下

37 a

32 is

113 the

81 to

如果uniq不加-c,輸出就只有上面示例的第二列

sort -nr

sort正常是按字母次序排序,-n是按數字大小排序、從小到大,-r是reverse反序,-nr就是按數字大小排序、從大到小

head -n 1

表示只取sort -nr 輸出結果的第一行

7樓:正逍遙0716

1、找個理工科生,請Ta幫你寫個小指令碼。只要有點程式設計基礎的,這種東西分分鐘。

2、請Ta吃頓飯,完事。

開玩笑的。不過題主,Python都不想用的話,其它大概更困難的。有那精力折騰Excel、Linux、Shell甚至其他各種偏門的東西,真不如花點時間學點Python皮毛。

8樓:

awk 『ENDprint word}』

9樓:朋克雪球兔

嗯,我也覺得,樓上竟然用linux。linux是正常人用的嗎?

當然bat也不怎麼正常人用,我本想現學WScript給題主寫乙個,可是實在有點懶,今天事情都沒搞完。

希望大家不要瞧不起windows,vbs,wscript,都不錯的嘛,內建的。

10樓:霍華德

來個shell一行流,工科生就是這麼傲驕:

tr 'A-Z' 'a-z' < SomeText.txt|tr –sc 'A-Za-z' '\n'|sort|uniq –c|sort –nr|head -1

11樓:

嗯,那你去用手去數吧。用手把文件裡所有的單詞全部數一邊,學問肯定做的紮實。如果你拒絕使用高科技。

python實現文件分析是很容易的。給你推薦乙個package叫MeTA,用C++寫的,解決文字分析賊好用。其中有相當一部分是我們親愛的「宅成翔」老師的group開發。

去github上搜吧。如果是漢語的話估計得要套乙個結巴分詞之類的。

你確定要用大刀長矛對抗衝鋒槍麼?

12樓:PegasusWang

find n most frequent words in a file

用 shell 實現:

sed -e 's/\s/\n/g' < test.txt | sort | uniq -c | sort -nr | head -1

python中如何不使用shuffle 函式就可以隨機打亂列表順序?

提供乙個思路 sorted list range 100 key lambda time time 10 5 44,56,68,92,20,32,80,8,45,57,69,93,81,9,21,33,70,94,46,82,10,22,34,58,47,71,83,95,11,35,59,1,23...

鑑定文物為何不使用碳元素檢測?

bluejadeite 一件文物用能否使用碳14定年,取決於能否滿足碳14定年的前提條件。碳14是宇宙射線與大氣中的氮通過核反應生成,因此同一時期大氣中的碳14濃度是一定的。只要生物體活著,通過 呼吸 生物體內的衰減掉的碳14可以得到補充,與外界保持平衡。生物體一旦死亡,不能 呼吸 體內衰減的碳14...

IBM當年推出pc為何不使用自家的power處理器?

木頭龍 1 IBM PC是1981年推出的,第一代POWER的CPU 1990年才出現。2 當時的IBM也有用於大型機的CPU,然而你不會想把斯太爾重卡的發動機裝到五菱巨集光上吧?PowerPC CPU 為什麼後來越來越打不過 x86,因為酷睿? 看看 1964年,世界第一台商用桌面電腦是王安公司研...