如果把世界上的主流語言的字母做排序,應該怎麼排?

時間 2021-06-03 01:11:26

1樓:梁海

UCA 文件裡已經把這個問題的複雜性解釋得很清楚了,自己去看吧。

題主明顯不理解語言和文字二者的複雜關係。要明白,不標記字串語言又不指定當前客戶端偏好時,根本沒有足夠的資訊來做到理想的排序。目前各種環境下排序總是不理想的根本原因就是條目普遍沒有明確的語言標記,而客戶又沒有精力定製詳細的排序偏好。

UCA 支援各種語言不同的排序規則,也支援各種方面的定製,自己去看文件。而 Default Unicode Collation Element Table(見 3.8 一節)就是用來在沒有語言標記也沒有偏好定製的情況下盲排多文種字串。

當你們遇到多語言文字的技術問題時,能不要這麼幼稚嗎?

首先去查查 Unicode 是不是已經提供了一些方案:

2樓:王贇 Maigo

比較認真的做法,是給每乙個待排序的條目標註語言,然後每種語言分別按它自己的字母表順序排列。

不過許多情況下逐條標註語言不現實,而且有些字母表比較相容的語言,客觀上也存在混排的需要。這種情況下,至少應該按字元種類分類(比如拉丁字母、希臘字母、西里爾字母……),每類分別排。

但即使是同一種字母體系,混排也是有問題的,主要是那些帶符號的字母在各種語言中的排列順序不一致。尤其是有些帶變音符號的字母,在某些語言中被看成是與基礎字母不同的字母,排在基礎字母之後;在某些語言中被看成是基礎字母的修飾,與基礎字母混排。既然是混排,那就很難兼顧,一般就乾脆去掉所有變音符號再排列。

最不可取的辦法是不管三七二十一,完全按Unicode順序排。這很不合理,因為帶變音符號的字母往往離基礎字母特別遠,導致檢索困難。

如果你會說世界上所有現存的語言,你會怎麼做?

這個已經是超能力的範圍了。可能我們還不知道,學完世界上所有的語言,可以總結出來的共性和規律,到底意味著什麼。這意味著人類在認知領域探索的巨大進步,突破了人腦思維方面的相對侷限。可以完全碾壓現存的所有人類。語言學是一門很奇妙的學科,它並非是研究某門具體的語言,而是在具備多種語言學習基礎上,給 語言 總...

世界上存在沒有「體(Aspect)」的語言嗎?

Arjuna 體分詞彙體 Aktionsart 和語法體 Grammatical aspect 關於語法體,一門語言即使不使用語法手段來標記體,也會採用詞彙手段來標記體。例如中文 我在吃飯。就是用 在 這個虛詞來標記體。而 我來吃吃飯 則既包括了詞彙手段 來 也包括了語法手段 重複 關於詞彙體,任何...

世界上現存的最科學的語言是什麼?

嗚莎花園 我喜歡養花,於是需要學點兒園藝學,園藝學的本質是植物學,植物學的本質是生物學,生物學的本質是化學,化學的本質是物理學,物理學的本質是數學。好像任何一件事都可以用上述邏輯推導出數學來。數學描述了我們生存的這個世界,它也必然是最科學的語言。 渠澤田 我昨天做了乙個對照試驗,嗯,很公平公義的對照...