第756章 五筆輸入法
李梟也就直接道:「確實有,不過不是這套方法,而是另外一套實現漢字打字的辦法,也是我準備進行研究的。」。
「奧?」,支教授這一下也來了興趣,連忙道:「不知道是什麼辦法?」。
李梟想了想也就道:「我叫它五筆輸入法。」。
之前李梟也考慮過拼音輸入法,只不過拼音輸入法對計算機的要求很高,畢竟拼音輸入法將漢字視為語音符號,但這也將會面臨兩個問題。
第一個就是重碼率極高,後世的計算機處理起來不是問題,但這年代的計算機不一樣,有限的計算機內存和運算,根本就不可能支撐實時的、海量的同音字詞智能排序與選擇。
其次就是現代拼音輸入法依賴的強大詞庫,以及智能聯想功能,如果沒有這兩項功能那就太難受了,需要在眾多重碼的字中尋找自己想要的,肯定要瘋,所以適合這個年代的還是五筆輸入法。
「五筆輸入法?」,聽著這個陌生的名字,支教授下意識反問識道。
「對,五筆輸入法。」,李梟也是再一次確認後,這才又開口:「五筆輸入法的核心在於將漢字精準拆分為基本字根,這些字根就是漢字的 」最小可編碼部件」,包括了一些傳統偏旁部首,
像是木字旁、三點水、兩點水、四點底、火字旁、衣字旁、草字頭這些,還有就是一些特定的筆畫組合,如犬 、豕,之類的,這些我一共列出了226個字根。
這些字根就是五筆輸入法的基石。
而字根按五種基本筆畫,橫、豎、撇、捺、折分類,分別對應鍵盤的五個區域,每個字根都會被精準映射到25個字母鍵,形成系統化的鍵盤布局。」,並且這些字根還會分布遵循 」形相近、類相同」 原則,便於記憶和快速定位。」。
說到這裡李梟頓了頓,好讓支教授有思考的時間,頓了頓後這才又道:「並且我還按照五筆輸入法制定了一套嚴謹的拆分規則,能確保每個漢字都能被唯一編碼。」。
聞言這也讓支教授有些不太相信,就疑惑道:「這是怎麼做到的?」。
「規範筆順、取大優先、兼顧直觀、能連不交、能散不連。」。
「這是什麼意思?」,支教授有些疑惑道。
「就是按漢字標準書寫順序先進行拆分,也就是先橫後豎、先撇後捺,然後每次儘可能取最大的字根,
就比如」果」可以拆為」日」+」木」而非」旦」+」小」,
這就是取大優先,在拆漢字時,能拆成一個大字根,就不拆成兩個小字根,優先選筆畫數多、覆蓋範圍廣的字根,避免把完整的大部件拆碎,
解釋完取大優先,李梟就又開始解釋兼顧直觀,所謂的兼顧直觀就是拆分結果要符合視覺認知,看著像什麼就拆什麼,不能為了湊字根硬拆得 「四不像」,簡單來說,就是拆完後還能一眼認出原字,不彆扭。
能連不交,顧名思義就是優先拆相連、不拆交叉,就是兩個字根的關係要麼是相連,挨著但不交叉,要不就是交叉筆畫疊在一起,而在拆分的時候,優先選 「相連」 的拆法。
之所以這樣這是因為相連結構更符合漢字書寫邏輯,也更容易記憶。
能散不連,就是優先拆 「散結構」,不按「連結構」算,這裡就要明確兩個概念,就拿散結構倡來舉例子,散結構的漢字的幾個部件是「分開的」,「倡」是由「亻」 和「昌」組成,中間有縫隙,不挨著。
連結構:漢字的部件是「粘在一起的」,比如「字」,就由「丿」和「目」組成,「丿」貼在「目」上面,所以拆分的時候漢字是 「散結構」,就按散結構拆,不要強行按 「連結構」 拆,這樣才可以。
可以說這些規定都是為了輔助取大優先這一條做基礎。
至於編碼機制,就是四碼編碼+簡碼優化,這個也是五筆輸入法的核心編碼策略,
這個策略簡單來講,就是每個漢字最多取4個字根編碼,就能夠打出字,
鍵名漢字和成字字根則是五筆輸入法中的兩個重要概念,
所謂的鍵名漢字,就是五筆字根總表中每個鍵位上的第一個字根,也是該鍵位的代表漢字,共25個。比如G鍵上的「王」,F鍵上的「土」,D鍵上的「大」等,
而鍵名漢字的輸入方法是連續按下該鍵4次,也就是說輸入「王」字的編碼是「GGGG」,「土」字的編碼是「FFFF」,
成字字根,就是指在五筆字根總表中,除了鍵名漢字外,本身就是一個獨立漢字的字根,
例如「五」「士」「干」等。
成字字根的輸入方法是先打一下該字根所在的鍵,這就和報戶口一樣,再打該字根的第一、第二及最末一個單筆畫,不足4碼時補打空格。
如「十」字,其字根在F鍵,第一筆是橫(G),第二筆是豎(H),所以編碼是「FGH」;「貝」字,字根在M鍵,第一筆是豎(H),第二筆是折(N),末筆是捺(Y),編碼就是「MHNY」。
有了這兩個概念,就能構成簡碼體系。
而聽著這些支教授也是眼前越來越亮,心中也是越來越期待了起來。
「奧?」,支教授這一下也來了興趣,連忙道:「不知道是什麼辦法?」。
李梟想了想也就道:「我叫它五筆輸入法。」。
之前李梟也考慮過拼音輸入法,只不過拼音輸入法對計算機的要求很高,畢竟拼音輸入法將漢字視為語音符號,但這也將會面臨兩個問題。
第一個就是重碼率極高,後世的計算機處理起來不是問題,但這年代的計算機不一樣,有限的計算機內存和運算,根本就不可能支撐實時的、海量的同音字詞智能排序與選擇。
其次就是現代拼音輸入法依賴的強大詞庫,以及智能聯想功能,如果沒有這兩項功能那就太難受了,需要在眾多重碼的字中尋找自己想要的,肯定要瘋,所以適合這個年代的還是五筆輸入法。
「五筆輸入法?」,聽著這個陌生的名字,支教授下意識反問識道。
「對,五筆輸入法。」,李梟也是再一次確認後,這才又開口:「五筆輸入法的核心在於將漢字精準拆分為基本字根,這些字根就是漢字的 」最小可編碼部件」,包括了一些傳統偏旁部首,
像是木字旁、三點水、兩點水、四點底、火字旁、衣字旁、草字頭這些,還有就是一些特定的筆畫組合,如犬 、豕,之類的,這些我一共列出了226個字根。
這些字根就是五筆輸入法的基石。
而字根按五種基本筆畫,橫、豎、撇、捺、折分類,分別對應鍵盤的五個區域,每個字根都會被精準映射到25個字母鍵,形成系統化的鍵盤布局。」,並且這些字根還會分布遵循 」形相近、類相同」 原則,便於記憶和快速定位。」。
說到這裡李梟頓了頓,好讓支教授有思考的時間,頓了頓後這才又道:「並且我還按照五筆輸入法制定了一套嚴謹的拆分規則,能確保每個漢字都能被唯一編碼。」。
聞言這也讓支教授有些不太相信,就疑惑道:「這是怎麼做到的?」。
「規範筆順、取大優先、兼顧直觀、能連不交、能散不連。」。
「這是什麼意思?」,支教授有些疑惑道。
「就是按漢字標準書寫順序先進行拆分,也就是先橫後豎、先撇後捺,然後每次儘可能取最大的字根,
就比如」果」可以拆為」日」+」木」而非」旦」+」小」,
這就是取大優先,在拆漢字時,能拆成一個大字根,就不拆成兩個小字根,優先選筆畫數多、覆蓋範圍廣的字根,避免把完整的大部件拆碎,
解釋完取大優先,李梟就又開始解釋兼顧直觀,所謂的兼顧直觀就是拆分結果要符合視覺認知,看著像什麼就拆什麼,不能為了湊字根硬拆得 「四不像」,簡單來說,就是拆完後還能一眼認出原字,不彆扭。
能連不交,顧名思義就是優先拆相連、不拆交叉,就是兩個字根的關係要麼是相連,挨著但不交叉,要不就是交叉筆畫疊在一起,而在拆分的時候,優先選 「相連」 的拆法。
之所以這樣這是因為相連結構更符合漢字書寫邏輯,也更容易記憶。
能散不連,就是優先拆 「散結構」,不按「連結構」算,這裡就要明確兩個概念,就拿散結構倡來舉例子,散結構的漢字的幾個部件是「分開的」,「倡」是由「亻」 和「昌」組成,中間有縫隙,不挨著。
連結構:漢字的部件是「粘在一起的」,比如「字」,就由「丿」和「目」組成,「丿」貼在「目」上面,所以拆分的時候漢字是 「散結構」,就按散結構拆,不要強行按 「連結構」 拆,這樣才可以。
可以說這些規定都是為了輔助取大優先這一條做基礎。
至於編碼機制,就是四碼編碼+簡碼優化,這個也是五筆輸入法的核心編碼策略,
這個策略簡單來講,就是每個漢字最多取4個字根編碼,就能夠打出字,
鍵名漢字和成字字根則是五筆輸入法中的兩個重要概念,
所謂的鍵名漢字,就是五筆字根總表中每個鍵位上的第一個字根,也是該鍵位的代表漢字,共25個。比如G鍵上的「王」,F鍵上的「土」,D鍵上的「大」等,
而鍵名漢字的輸入方法是連續按下該鍵4次,也就是說輸入「王」字的編碼是「GGGG」,「土」字的編碼是「FFFF」,
成字字根,就是指在五筆字根總表中,除了鍵名漢字外,本身就是一個獨立漢字的字根,
例如「五」「士」「干」等。
成字字根的輸入方法是先打一下該字根所在的鍵,這就和報戶口一樣,再打該字根的第一、第二及最末一個單筆畫,不足4碼時補打空格。
如「十」字,其字根在F鍵,第一筆是橫(G),第二筆是豎(H),所以編碼是「FGH」;「貝」字,字根在M鍵,第一筆是豎(H),第二筆是折(N),末筆是捺(Y),編碼就是「MHNY」。
有了這兩個概念,就能構成簡碼體系。
而聽著這些支教授也是眼前越來越亮,心中也是越來越期待了起來。