計算機處理漢字為什麼不是一件容易的事情?計算機能成功處理漢字是克服了哪些困難?

時間 2021-05-13 04:20:49

1樓:

先說結論,計算機可以成功處理漢字是由於計算機的效能的普遍提高,覆蓋範圍的普及,導致原來的問題不再是問題,相對於英文,漢字存在的處理問題主要在以下方面

漢字的編碼與英文的編碼不太一樣,對單獨的乙個字元,漢字需要占用至少2個位元組,常用的字元編碼主要有以下幾種,

GB2312編碼:2023年5月1日發布的簡體中文漢字編碼國家標準。GB2312對漢字採用雙位元組編碼,收錄7445個圖形字元,其中包括6763個漢字。

BIG5編碼:台灣地區正體中文標準字符集,採用雙位元組編碼,共收錄13053個中文字,2023年實施。

GBK編碼:2023年12月發布的漢字編碼國家標準,是對GB2312編碼的擴充,對漢字採用雙位元組編碼。GBK字符集共收錄21003個漢字,包含國家標準GB13000-1中的全部中日韓漢字,和BIG5編碼中的所有漢字。

GB18030編碼:2023年3月17日發布的漢字編碼國家標準,是對GBK編碼的擴充,覆蓋中文、日文、北韓語和中國少數民族文字,其中收錄27484個漢字。GB符集採用單位元組、雙位元組和四位元組三種方式對字元編碼。

相容GBK和GB符集。

Unicode編碼:國際標準字符集,它將世界各種語言的每個字元定義乙個唯一的編碼,以滿足跨語言、跨平台的文字資訊轉換。

在早期的時候也叫做字型檔,在計算機發展的早起成為了漢字處理的一大困難之一,由於漢語屬於象形文本,漢字的表達在早期主要以點陣的形式進行儲存,對於常用的文字最小的點陣大小為16*16,乙個字元的表達需要16*16/8=32byte,對於GB2312的編碼來說僅儲存全部的字型檔需要 32*7445 大概 230kb, 16*16的字元如下圖

為了解決這個問題,在中國市場出現了一批專門的硬體也叫做漢卡,將漢字輸入法、漢字字型檔儲存於固化晶元中的漢卡可有效提高計算機的中文處理能力。可以理解成我們現在用的顯示卡,但是專門用於漢字的處理。

巨人漢卡

隨著電腦硬體的發展,記憶體越來越大,CPU的主頻越來越快,慢慢的記憶體已經足夠存下全部的字型檔,還綽綽有餘,再也不需要額外的硬體進行處理,漢卡也就慢慢的退出了市場

對比起輸出,輸入也是乙個需要解決的問題,由於漢字的數量數以萬計,我們不可能與英文一樣為每乙個字元分配乙個鍵,就算使用下圖這樣的特種鍵盤也只能覆蓋一小部分

因此人們需要為漢字的輸入編制對應的輸入碼,通過多個鍵來表達乙個字,區別與表示具體字元的編碼方式GB2312,BIG5,GBK, 輸入碼設計起來會更加困難,在80~90年代期間,可謂「萬碼奔騰」, 種種輸入法層出不窮,總的來說漢字的單字輸入主要分成以下幾種:音碼、形碼、形音碼、音形碼、無理碼等。且不說繁體區,在中國的輸入法主要有拼音輸入法(音碼),五筆輸入法(形碼),早期無論那種輸入法都沒有在易學、速度、容錯性達到乙個很好的平衡,導致了當年學電腦一半時間在學打字,也成就了紅編大江南北的小霸王,多少小朋友打著學打字的名號買了一台紅白機

隨著時代的發展,輸入法的演算法不斷優化,動態字頻,模糊檢索等技術的成熟,以及普遍推行的普通話教育,漢字的輸入已經成為了乙個基本技能,原來的輸入問題也不再是乙個問題,至此計算機已經可以較好的處理漢字了

2樓:JeepCar

漢字處理最難的是漢字是多位元組編碼。計算機基本的操作單元是位元組,每個位元組8位二進位制,總共只能表示256個符號。由於漢字字數多,至少也要2個位元組。

由於計算機領域絕大多數由美國主導,在編碼是處處強調英文本母(ASCII)的特殊地位。把簡單的字元編碼人為複雜化,即使所謂國際統一編碼Unicode裡,不是統一的16位或者32位編碼,而搞成複雜的不等長方式,對多位元組字元就是乙個陷阱。要徹底解決漢字處理難的問題也許應該從統一等長編碼做起,甚至將位元組直接改為16位。

3樓:

計算機做任何事情都不是容易的事情,甚至計算機被造出來都不是容易的事情。

但是計算機作為一種智力產品,除了你看到的有形的部分以外,更是一種可以不斷沉澱和積累人類智慧型的東西。所以任何不容易的事情一旦解決,後人就可以直接用,然後後人又可以解決新的不容易的問題。

4樓:

實際上英文是把任務丟給了使用者,隨便WPS開啟亂輸一些字母,看看下面紅線就知道了,電腦說這是錯的,但是!誰知道未來會不會造出個新字就正好是這個字母組合呢。漢字是先定義再使用,一下子定義幾千甚至上萬個當然很講策略。

和漢字對應的應該是英語單詞

5樓:孫衛

計算機只能處理在標準裡有的字,例如,ISO10646。對於沒有的字,很多人自己造字,自己造的字如果帶著形,交換給別人能看見,但是不能檢索。如果不帶性,只帶你自定義的字元編碼,交換給別人看不見,也不能檢索。

每個字有乙個字元編碼,這個字元編碼要對應到每套字型中多乙個字形上。

6樓:Belleve

漢字是很簡單的,它只是多而已。

很多小眾文字的處理至今仍然是天坑,比如埃及聖書體的完整編碼模型涉及到 Egyptian Hieroglyph Format Controls,已經乙隻腳踏進二維造型(Shaping)了。

7樓:張磊

答案是容易。技術上中文就是個典型代表,實現方法簡單說類似於將新華小字典從第一正頁第乙個漢字「阿」開始,用流水號129開始編上順序號,直至最後一頁最後乙個,然後順序號十進位制轉二進位制,這方法也能形成不太規則的區位部分,因為字典已按發音匯集了同音字群。如列印顯示字型檔用點陣,不難,36點陣格仔紙上塗一遍。

編譯器自帶資料型別能和微軟或Borland談下更好,大不了自定義個雙位元組自定義型別再寫個自定義操作函式庫。作業系統那時都是int13還是什麼數學的軟中斷調列印顯示函式吧,記不得了,也沒啥的難。最大難題是當時PC機8088/8086時代,64k記憶體,DOS開機占用後,實在記憶體中放不下編碼表字庫,編碼表字庫從軟盤隨用隨加慢得懷疑人生,如果穿越回去放SSD盤就基本解決了隨用隨調。

現在給大傢伙出個題,見過PCI-e長像的SSD麼?上世紀80年代,你怎麼造個ISA介面的SSD?為何不一步到位造記憶體給PC機公升級記憶體?

因為上世紀90後,記憶體才以M為單位賣且你還買得起,所以SSD沒人買了。

為什麼很多計算機牛人起初都不是學計算機的?

例如很多是主攻數學或物理的 一般分為兩個方向的 起初是主攻數學是走軟體方向。起初是主攻物理是走硬體方向。一般我都建議起初數學不會是物理。這個看個人選擇的 很多人選擇起初計算機 都很難走過真正電腦科學方向。 我想是因為計算機屬於既需要天分,又很依賴興趣驅動的學問。前者決定了你能走多遠,後者決定了你能走...

用計算機模擬人穿一件衣服的樣子,可以怎樣實現?或者說需要處理哪些關鍵問題?

陳曉延 分享乙個衣料模擬軟體,marvelous designer 這個軟體的steam頁面展示的蠻清楚的。支援匯入人物模型和衣服模型,還能匯出模特身上的衣服布料解算和動畫。軟體在網上能找到破解。上手和操作都很簡單,如果做到模擬的那一步,手上有模特和衣服的模型不妨試一下導進去看看,能給你個思路。我做...

世界是不是乙個大計算機,為什麼用計算機來解答一切的現象都彷彿成立?

因為我們的計算機也是自然中的一種物體,他們都是有結構的物體。當然一樣,但是你的想法是無法驗證的,因為這超出了我們宇宙,我們不可能知道本宇宙之外有啥。 21世紀是生物 劃掉 電腦的世紀,缸中之腦裡的培養缸換成了電腦程式。維基百科缸中之腦詞條 https zh.wikipedia.org wiki E7...