如何製作 Windows 10 微軟拼音格式的詞庫?

時間 2021-05-30 16:59:01

1樓:

深藍詞庫轉換法已經可用。studyzy/imewlconverter 但是詞序問題很難解決,建議大家轉換詞庫時設定詞頻過濾,詞頻大點,可防止輸入法連基本的單字都亂序。

2樓:sdcphp

我把匯出的詞庫檔案f開啟,複製貼上到下面,另外根據分析標記了顏色。

檔案是用微軟拼音自定義短語的匯出功能匯出的文字檔案myeudp.

匯出了多個檔案,第一行都是相同的。1000-10003是指字型檔的起始位置,截圖中是58。1004-1007是結束位置。

0020-0023是我始終沒有搞明白的字段,這個數字隨著詞庫的增加有變化,但不是一直增加。0024-0043是兩個空行,增加詞庫這兩行都是一樣的。

0018-001B是詞條的數量。

0044-0057詞庫增加一條,就增加4個位元組,因為這個有6個自造詞,所以是5段。這個是相對於起始位置的偏移量。

每個詞條都是以***開始,緊跟著的4個位元組,第乙個似乎和長度有關,字詞越長,這個越大,第二個是分割,第三個是指自定義詞在候選框的位置,第四個都是06。以0000結束,拼音和漢子之間有0000分割。字母2個位元組,高位為00.

這個檔案我看了2-3天,也只能分析到這裡了。0020-0023是什麼沒有搞明白。再者是緊跟***的那個數字是什麼意思。

想搞明白是為了批量匯入一些常用詞,加快專用詞常用詞的輸入。現在暫時擱置一下吧,我實在是想不明白了。

Offset: 00 01 02 03 04 05 06 07 08 09 0A 0B 0C 0D 0E 0F

00000000: 6D 73 63 68 78 75 64 70 01 00 00 00 40 00 00 00

00000010: 58 00 00 00 F8 00 00 00 06 00 00 00 00 00 00 00

00000020: F6 A6 E8 58 00 00 00 00 00 00 00 00 00 00 00 00

00000030: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00000040: 00 00 00 00 22 00 00 00 44 00 00 00 5C 00 00 00

00000050: 74 00 00 00 88 00 00 00 08 00 08 00 14 00 01 06

00000060: 63 00 70 00 78 00 6D 00 6A 00 00 00 0C 83 73 5E

00000070: BF 53 5C 75 67 72 40 5C 00 00 08 00 08 00 12 00

00000080: 01 06 63 00 70 00 79 00 7A 00 00 00 0C 83 73 5E

00000090: BF 53 2C 7B 00 4E 2D 4E 66 5B 00 00 08 00 08 00

000000a0: 10 00 01 06 67 00 79 00 79 00 00 00 ED 90 09 61

000000b0: A6 60 00 00 08 00 08 00 10 00 02 06 68 00 6C 00

000000c0: 6A 00 00 00 DD 90 99 9F CA 4F 00 00 08 00 08 00

000000d0: 0E 00 01 06 68 00 70 00 00 00 DD 90 4F 9E 00 00

000000e0: 08 00 08 00 10 00 01 06 7A 00 77 00 66 00 00 00

000000f0: 20 5F 87 65 30 4E 00 00

匯入失敗的原因是現在只能支援二進位制檔案匯入,以前的是純文字。現在在網上搜尋到是文字詞典的編輯方法。據說雙拼自定義鍵盤的功能也在開發中。

我有一堆人名輸入,想用批量匯入,卻找不到工具。我也看了那個關於C:\Windows\InputMethod\CHS的ChsDoublePinyinUDP.

lex逆向工程的文章。檔案太大,不容易判斷,後來我用VScode開啟匯出的txt文件,提示是二進位制檔案。

安裝了hexdump for vscode可以顯示了。然後用使用者自定義短語工具輸入然後匯出分析myeudp.txt。

現在看來,輸入的短語會進行排序,拼音和候選窗的位置的,都很容易的找到了。

00 00 08 00 08 00 10 00 03 06

每段拼音的前面都是上面一段數字。03應該是候選窗的位置。其他的都沒有搞清楚。

我把做過的提供上了。編碼是Unicode,低位在前。

另外我在微軟拼音的部落格上還是那裡,看到似乎正在開發批量匯入的功能,但是不知道什麼時候能實現。

3樓:老漢

RS1裡的這個「使用者自定義短語」功能用來逐條手動新增自定義短語的。已新增的自定義短語可以匯出(儲存到檔案),已匯出至檔案的自定義短語可以被匯入

基於txt檔案生成使用者詞典的功能目前正在開發

自定義雙拼方案也在開發中

如何評價 微軟Windows 10全新MSIX檔案格式

NEKO 剛下了MSIX Packaging Tool玩了一下,說下感受吧。我將5083KB的exe重新打包為msix大小僅為17.1KB,自行體會 我想要不了幾年MSIX就會取代EXE WIN32 WPF WinForm和UWP MISX檔案格式整合了最好的Windows檔案格式安裝技術,繼承了U...

如何評價微軟發布的 Windows 10 正式版?

小重山 說一下我的截圖,好的一點是其系統圖示很好看。而且安裝新系統居然保留了原系統軟體和檔案!微軟在系統相容方面真是太牛!但是大家看下 此電腦 圖示。呵呵噠,還有下面photoshop的圖示,那種小圖示真是醜的一比啊。 叮噹芊芊 其實多的都不用多說。大家在新的Edge瀏覽器選中下面這段文字看看 你看...

如何評價微軟宣布 Windows 10 將於 2025 年 10 月 14 日終止支援?

眾所周知,Windows 10是最後一代Windows。也就是說,2025年10月14日之後,Windows作業系統就將退出歷史的舞台,40年的輝煌就此落幕。什麼 你說還有Windows 11?呃 SB阿三。 產品經理避雷針 因為,裡沒有見過的船新版本正在路上。WINDOWS11,擠需體驗三番鐘,裡...