两分输入法码表捺笔编码问题
<style>.artBox { font-size: 20px; margin: 30px auto; max-width: 1200px; font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif; color: #333; }
.artBox h2 { color: #333; border-bottom: 2px solid #eee; padding-bottom: 8px; margin-bottom: 20px; }
.artBox > p { margin: 15px 0; line-height: 1.8; text-align: justify; }
.artBox blockquote { background: #f9f9f9; border-left: 4px solid #1a73e8; padding: 15px 20px; margin: 20px 0; color: #555; }
.artBox code { background: #eee; padding: 2px 6px; border-radius: 3px; font-family: 'Consolas', 'Monaco', monospace; font-size: 0.95em; }
.artBox .mid { text-align: center; }
.column { column-count: 6; column-gap: 20px; column-rule: 1px dotted silver; }
.bigsize { font-size: 60px; }
.datatab { margin: auto; width: 80%; border-collapse: collapse; font-family: Consolas, Monaco, 'Andale Mono', 'Ubuntu Mono', monospace; font-size: 18px; white-space: pre-wrap; tab-size: 4; box-sizing: border-box; background: #eee; position: relative; }
.datatab th, .datatab td { padding: 8px 10px; border: 1px solid #999; }
.datatab th { padding: 16px 10px; background: rgba(173,216,230); font-weight: bold; font-size: 1.2em; text-align: center; }
.datatab td { font-size: 1em; }
.datatab td:first-child { text-align: center; }
.datatab tr { background: rgba(173,216,230,.05); }
.datatab tr:hover { background: rgba(173,216,230, .35); }
</style>
<div class="artBox">
<p>综观两分输入法码表,其对第二字元为捺笔的字,在编码中对捺笔画字元以三种形式进行编码:其一,视为【丶】<code>(dian)</code>,这与多数需要处理笔画的输入法做法一致,方案可取;其二是,看成【水】<code>(shui)</code>,取其形状与【水】字末笔画相似联想而得,属“形托”做法,其做法在输入法领域也不鲜见;其三,保持笔画原本名称,【捺】<code>(na)</code>,“音托”做法,亦为可以接受的处理方式。然而,三者混用则令人莫名其妙,试比较如下例字:</p>
<blockquote class="column">
<div>
<span class="bigsize">孓</span><br>
<code>liaodian</code>
</div>
<div>
<span class="bigsize">八</span><br>
<code>piedian</code>
</div>
<div>
<span class="bigsize">史</span><br>
<code>koushui</code>
</div>
<div>
<span class="bigsize">又</span><br>
<code>yishui</code>
</div>
<div>
<span class="bigsize">𢎡</span><br>
<code>gongna</code>
</div>
<div>
<span class="bigsize">𠮺</span><br>
<code>kouna</code>
</div>
</blockquote>
<p>分析上述随机抽取的例字,很难找到将末笔画捺笔字元编码为点、水、捺的依据或规律,两分手册(第一版)亦未对此提供细节说明,这会造成编码难度的提升,更给文字录入操作带来诸多困惑。实际上,抽样检测发现,字海网在对以捺笔收笔、不能拆出成字的字进行两分字元拆解时,都确定捺笔画为【丶】字元,二字元拆解思路一以贯之。但码表编码环节却将此类字的一部分定义捺笔字元的编码为【丶】,另一部分为【水】和【捺】,不知是何用意、依据何来。笔者曾向DS、Kimi等AI求解,它们认为原因应该是内部编码优化需求所致,具体而言是为了分化重码。如果确实是为了减少部分编码的重码率,那么不妨检索码表,将以捺笔画作为第二字元进行编码的单字全部找出,然后进行分析比较。以下汇总的例字数据均来源于字海官网中州韵版两分法码表5.0,检索结果应该没有重大遗漏:</p>
<h2>1️⃣捺笔画编码为「丶」的例字</strong>:</h2>
<blockquote>乂 义 乑 八 刄 发 孓 尺 衣 豖 长 𠆢 𥫻 𩁾 𫝕 𰀠 𰛅 𱍸 𱝪 𲇆</blockquote>
<h2>2️⃣捺笔画编码为「水」的例字</h2>
<table class="datatab">
<tr><th width="60">序号</th><th width="100">单字</th><th width="200">原始编码</th><th>原始编码数</th><th>字元一+点编码数</th></tr>
<tr><td>1</td><td>爪</td><td>changshui</td><td>3</td><td>8</td></tr>
<tr><td>2</td><td>瓜</td><td>changshui</td><td>3</td><td>8</td></tr>
<tr><td>3</td><td>久</td><td>daoshui</td><td>7</td><td>5</td></tr>
<tr><td>4</td><td>丈</td><td>hengshui</td><td>8</td><td>12</td></tr>
<tr><td>5</td><td>更</td><td>hengshui</td><td>8</td><td>12</td></tr>
<tr><td>6</td><td>豕</td><td>hengshui</td><td>8</td><td>12</td></tr>
<tr><td>7</td><td>史</td><td>koushui</td><td>10</td><td>16</td></tr>
<tr><td>8</td><td>人</td><td>pieshui</td><td>5</td><td>15</td></tr>
<tr><td>9</td><td>入</td><td>pieshui</td><td>5</td><td>15</td></tr>
<tr><td>10</td><td>尐</td><td>xiaoshui</td><td>2</td><td>0</td></tr>
<tr><td>11</td><td>艮</td><td>xueshui</td><td>8</td><td>8</td></tr>
<tr><td>12</td><td>又</td><td>yishui</td><td>14</td><td>17</td></tr>
<tr><td>13</td><td>及</td><td>yishui</td><td>14</td><td>17</td></tr>
<tr><td>14</td><td>廴</td><td>yishui</td><td>14</td><td>17</td></tr>
</table>
<p>【注】「水」字的第二字元编码亦为<code>shui</code>,整体编码为<code>yishui</code>,疑为取「水」的左右合成部件,类似的例字还有其变体「氺」<code>yishui</code>,后者以<code>丶</code>收尾,不编码为<code>dian</code>就是将其左右合成部件视为「水」,因此可以佐证笔者对前者编码规则推测的合理性。</p>
<h2>3️⃣捺笔画编码为「捺」的例字</h2>
<table class="datatab">
<tr><th width="60">序号</th><th width="100">单字</th><th width="200">原始编码</th><th>原始编码数</th><th>字元一+点编码数</th></tr>
<tr><td>1</td><td>𦍖</td><td>bana</td><td>4</td><td>2 </td><tr>
<tr><td>2</td><td>𠔇</td><td>bana</td><td>4</td><td>2</td><tr>
<tr><td>3</td><td>𤵑</td><td>bingna</td><td>8</td><td>5</td><tr>
<tr><td>4</td><td>𦬤</td><td>caona</td><td>18</td><td>16</td><tr>
<tr><td>5</td><td>𤓰</td><td>changna</td><td>4</td><td>8</td><tr>
<tr><td>6</td><td>𨑃</td><td>changna</td><td>4</td><td>8</td><tr>
<tr><td>7</td><td>𠂢</td><td>changna</td><td>4</td><td>8</td><tr>
<tr><td>8</td><td>𡘎</td><td>dana</td><td>5</td><td>7</td><tr>
<tr><td>9</td><td>㸦</td><td>dingna</td><td>1</td><td>0</td><tr>
<tr><td>10</td><td>𢎡</td><td>gongna</td><td>2</td><td>4</td><tr>
<tr><td>11</td><td>𩨶</td><td>guna</td><td>2</td><td>0</td><tr>
<tr><td>12</td><td>𧰧</td><td>hengna</td><td>2</td><td>12</td><tr>
<tr><td>13</td><td>𠅕</td><td>jiaona</td><td>3</td><td>0</td><tr>
<tr><td>14</td><td>𢁤</td><td>jinna</td><td>12</td><td>8</td><tr>
<tr><td>15</td><td>𠹩</td><td>junna</td><td>1</td><td>0</td><tr>
<tr><td>16</td><td>𠮼</td><td>kouna</td><td>25</td><td>16</td><tr>
<tr><td>17</td><td>𠯁</td><td>kouna</td><td>25</td><td>16</td><tr>
<tr><td>18</td><td>𠮺</td><td>kouna</td><td>25</td><td>16</td><tr>
<tr><td>19</td><td>𩡬</td><td>mana</td><td>3</td><td>5</td><tr>
<tr><td>20</td><td>𣏛</td><td>muna</td><td>19</td><td>12</td><tr>
<tr><td>21</td><td>𣕹</td><td>muna</td><td>19</td><td>12</td><tr>
<tr><td>22</td><td>㐅</td><td>piena</td><td>2</td><td>15</td><tr>
<tr><td>23</td><td>𧘇</td><td>piena</td><td>2</td><td>15</td><tr>
<tr><td>24</td><td>𠇊</td><td>renna</td><td>16</td><td>13</td><tr>
<tr><td>25</td><td>𨱗</td><td>renna</td><td>16</td><td>13</td><tr>
<tr><td>26</td><td>𡺒</td><td>shanna</td><td>11</td><td>7</td><tr>
<tr><td>27</td><td>𧰨</td><td>shanna</td><td>11</td><td>7</td><tr>
<tr><td>28</td><td>𣲐</td><td>shuina</td><td>20</td><td>12</td><tr>
<tr><td>29</td><td>𣲓</td><td>shuina</td><td>20</td><td>12</td><tr>
<tr><td>30</td><td>𣽍</td><td>shuina</td><td>20</td><td>12</td><tr>
<tr><td>31</td><td>𥾙</td><td>sina</td><td>11</td><td>18</td><tr>
<tr><td>32</td><td>𦂵</td><td>sina</td><td>11</td><td>18</td><tr>
<tr><td>33</td><td>𤲄</td><td>tianna</td><td>1</td><td>4</td><tr>
<tr><td>34</td><td>𩂢</td><td>yuna</td><td>17</td><td>13</td><tr>
<tr><td>36</td><td>𠧹</td><td>zhanna</td><td>1</td><td>0</td><tr>
<tr><td>36</td><td>𥫪</td><td>zhuna</td><td>8</td><td>9</td><tr>
<tr><td>37</td><td>𧿓</td><td>zuna</td><td>8</td><td>5</td><tr>
<tr>
</table>
<p>前面提到,字海网拆分字元时均将捺笔画当作【丶】,而从上述罗列的例字看,真正将捺笔当作【丶】的占比并不高,保留原本【捺】的编码数量最多、编码为【水】的次之。官网拆分字元的方法与码表编码实际情况存在较大分歧,编码规则与编码操作思路并不完全一致。</p>
<p>比较两个表格提供的各例字原始编码总条数和现有该编码第一字元不变第二字元为【丶】编码的现有条目总数,可以发现若将这些例字捺笔画原始编码的第二个字元替换为【丶】,其所产生的重码率并不特别严重,在近十万单字的码表中属于正常现象,而且还存在相反的情形即一些例字反而可以倒过来分化原始编码的重码率。由此可以认为,分化重码并非客观和急切需要,之所以出现捺笔画作为三种形态进行编码的现象,应是在编码过程中多次进行规则调整和修正,最后定型的内部规则未能全面落实到码表制作中,或说由于种种原因尚未来得及修改。再者,在对这些例字进行建检索、分析过程中,笔者发现4.0码表和5.0码表在处理捺笔画字元上存在一定差异,有修改、调整现象的迹象,可见在编码过程中存在左右为难的取舍情形。不论如何,还是建议全面统一捺笔画字元编码,以提升输入法的科学性、严谨性与易用性。</p>
<p>总而言之,统一捺笔画字元的编码对输入法在应用层面而言是刚性需求,如果没有其他专业且合理的重要考量,笔者认为不应细分捺笔为三种编码方案,在【丶】和【捺】中人选一个,前者为最佳。</p>
<p>以上拙见或不合时宜,若此,请一笑置之。</p>
</div> 我对两分输入法并不了解,但认为马老师对其码表捺笔编码问题的分析非常到位,提出的解决方案也十分中肯且富有可操作性与建设性~马老师您辛苦了{:4_180:} 笔者认为不应细分捺笔为三种编码方案,在【丶】和【捺】中人选一个,前者为最佳。。
为啥要选点呀。。。
我感觉从节省敲键盘次数来说,选捺最合适。。
也最接近本色,它本身就叫na呗。。 研究非常细致,还做了汇总,把几种情况罗列出来还举例,让人看得明白。。
辣么大个编码库里挑这些,工作量老大了。。{:5_162:}
花飞飞 发表于 2026-1-24 18:41
研究非常细致,还做了汇总,把几种情况罗列出来还举例,让人看得明白。。
辣么大个编码库里挑这些,工作量 ...
检索有检索的方法。当然,再怎么着,工作量也不是一般的低 花飞飞 发表于 2026-1-24 18:39
笔者认为不应细分捺笔为三种编码方案,在【丶】和【捺】中人选一个,前者为最佳。。
为啥要选点呀。。。
...
选捺是可以的,很多需要处理笔画的输入法保留有捺笔画。但从专业角度,笔画在计算机输入中归类为“横竖撇折点”五种笔画分类法,将来的专业中文笔画输入键盘会采用这个规范。点捺同类同编码是极致的编码规范。 杨帆 发表于 2026-1-24 15:46
我对两分输入法并不了解,但认为马老师对其码表捺笔编码问题的分析非常到位,提出的解决方案也十分中肯且富 ...
{:4_190:} 马黑黑 发表于 2026-1-24 19:34
检索有检索的方法。当然,再怎么着,工作量也不是一般的低
{:5_162:}嗯哪,得华子帮忙提神 马黑黑 发表于 2026-1-24 19:39
选捺是可以的,很多需要处理笔画的输入法保留有捺笔画。但从专业角度,笔画在计算机输入中归类为“横竖撇 ...
同类同编那太好了,只是最初设定编码的人为何要取远舍近。。 嗯嗯同意黑黑的说法,内部规则必须统一,以提升输入法的科学性、严谨性与易用性。{:4_187:} 红影 发表于 2026-1-24 21:44
嗯嗯同意黑黑的说法,内部规则必须统一,以提升输入法的科学性、严谨性与易用性。
感谢同意 花飞飞 发表于 2026-1-24 20:33
同类同编那太好了,只是最初设定编码的人为何要取远舍近。。
编码过程很漫长,人手不够,助手水平一般 花飞飞 发表于 2026-1-24 20:32
嗯哪,得华子帮忙提神
主要还是咖啡 马老师晚上好~~
文章我能看懂在说什么,但不懂其中的道理。我知其然就很高兴,涨了知识。佩服马老师的严谨!感谢分享,我抱走了。{:4_204:}{:4_190:}
霜染枫丹 发表于 2026-1-24 22:49
马老师晚上好~~
文章我能看懂在说什么,但不懂其中的道理。我知其然就很高兴,涨了知识。佩服马老师的严 ...
{:4_190:} 本帖最后由 霜染枫丹 于 2026-1-24 23:36 编辑
马黑黑 发表于 2026-1-24 22:54
https://www.yueyijyw.com/forum.php?mod=viewthread&tid=1264
昨晚我调整了首页布局,教程提到了醒目一些的位置。{:4_190:}
霜染枫丹 发表于 2026-1-24 23:31
https://www.yueyijyw.com/forum.php?mod=viewthread&tid=1264
昨晚我调整了首页布局,教程提到了醒目一 ...
这个其实不是教程 马黑黑 发表于 2026-1-24 22:09
感谢同意
其实我用词不对,应该是赞同才对{:4_173:} 红影 发表于 2026-1-25 19:23
其实我用词不对,应该是赞同才对
感谢赞同 马黑黑 发表于 2026-1-24 22:10
编码过程很漫长,人手不够,助手水平一般
主要是编码太多了啊。。好多万