马黑黑 发表于 2026-1-25 12:51

两分输入法5.0码表编码统计

<style>
        .artBox { font-size: 20px; margin: 30px auto; max-width: 1200px; font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif; color: #333; }
        .artBox > p { margin: 15px 0; line-height: 1.8; text-align: justify; }
        .artBox blockquote { background: #f9f9f9; border-left: 4px solid #1a73e8; padding: 15px 20px; margin: 20px 0; font-style: italic; color: #555; }
        .datatab { margin: auto; width: 80%; border-collapse: collapse; font-family: Consolas, Monaco, 'Andale Mono', 'Ubuntu Mono', monospace;white-space: pre-wrap; tab-size: 4; box-sizing: border-box; background: #eee; z-index: 9999; position: relative; }
        .datatab tr:first-child { position: sticky; top: 0; }
        .datatab th, .datatab td { padding: 8px 16px; border: 1px solid #999; }
        .datatab th { padding: 16px 10px; background: rgba(173,216,230); font-weight: bold; font-size: 1.2em; text-align: center; }
        .datatab td { font-size: 1em; text-align: right; }
        .datatab td:first-child { text-align: center; }
        .datatab tr { background: rgba(173,216,230,.05); }
        .datatab tr:hover { background: rgba(173,216,230, .35); }       
</style>

<div class="artBox">
        <table class="datatab">
                <tr><th width="100">序号</th><th>编码字数</th><th>编码条目数</th><th>编码字数合计</th></tr>
                <tr><td>1</td><td>1</td><td>10,759</td><td>10,759</td></tr>
                <tr><td>2</td><td>2</td><td>4,986</td><td>9,972</td></tr>
                <tr><td>3</td><td>3</td><td>2,688</td><td>8,064</td></tr>
                <tr><td>4</td><td>4</td><td>1,827</td><td>7,308</td></tr>
                <tr><td>5</td><td>5</td><td>1,291</td><td>6,455</td></tr>
                <tr><td>6</td><td>6</td><td>867</td><td>5,202</td></tr>
                <tr><td>7</td><td>7</td><td>657</td><td>4,599</td></tr>
                <tr><td>8</td><td>8</td><td>494</td><td>3,952</td></tr>
                <tr><td>9</td><td>9</td><td>420</td><td>3,780</td></tr>
                <tr><td>10</td><td>10</td><td>300</td><td>3,000</td></tr>
                <tr><td>11</td><td>11</td><td>258</td><td>2,838</td></tr>
                <tr><td>12</td><td>12</td><td>217</td><td>2,604</td></tr>
                <tr><td>13</td><td>13</td><td>213</td><td>2,769</td></tr>
                <tr><td>14</td><td>14</td><td>135</td><td>1,890</td></tr>
                <tr><td>15</td><td>15</td><td>124</td><td>1,860</td></tr>
                <tr><td>16</td><td>16</td><td>116</td><td>1,856</td></tr>
                <tr><td>17</td><td>17</td><td>83</td><td>1,411</td></tr>
                <tr><td>18</td><td>18</td><td>63</td><td>1,134</td></tr>
                <tr><td>19</td><td>19</td><td>71</td><td>1,349</td></tr>
                <tr><td>20</td><td>20</td><td>54</td><td>1,080</td></tr>
                <tr><td>21</td><td>21</td><td>52</td><td>1,092</td></tr>
                <tr><td>22</td><td>22</td><td>56</td><td>1,232</td></tr>
                <tr><td>23</td><td>23</td><td>38</td><td>874</td></tr>
                <tr><td>24</td><td>24</td><td>20</td><td>480</td></tr>
                <tr><td>25</td><td>25</td><td>21</td><td>525</td></tr>
                <tr><td>26</td><td>26</td><td>39</td><td>1,014</td></tr>
                <tr><td>27</td><td>27</td><td>16</td><td>432</td></tr>
                <tr><td>28</td><td>28</td><td>24</td><td>672</td></tr>
                <tr><td>29</td><td>29</td><td>18</td><td>522</td></tr>
                <tr><td>30</td><td>30</td><td>17</td><td>510</td></tr>
                <tr><td>31</td><td>31</td><td>16</td><td>496</td></tr>
                <tr><td>32</td><td>32</td><td>16</td><td>512</td></tr>
                <tr><td>33</td><td>33</td><td>13</td><td>429</td></tr>
                <tr><td>34</td><td>34</td><td>15</td><td>510</td></tr>
                <tr><td>35</td><td>35</td><td>15</td><td>525</td></tr>
                <tr><td>36</td><td>36</td><td>12</td><td>432</td></tr>
                <tr><td>37</td><td>37</td><td>9</td><td>333</td></tr>
                <tr><td>38</td><td>38</td><td>12</td><td>456</td></tr>
                <tr><td>39</td><td>39</td><td>8</td><td>312</td></tr>
                <tr><td>40</td><td>40</td><td>8</td><td>320</td></tr>
                <tr><td>41</td><td>41</td><td>1</td><td>41</td></tr>
                <tr><td>42</td><td>42</td><td>5</td><td>210</td></tr>
                <tr><td>43</td><td>43</td><td>2</td><td>86</td></tr>
                <tr><td>44</td><td>44</td><td>11</td><td>484</td></tr>
                <tr><td>45</td><td>45</td><td>6</td><td>270</td></tr>
                <tr><td>46</td><td>46</td><td>2</td><td>92</td></tr>
                <tr><td>47</td><td>47</td><td>5</td><td>235</td></tr>
                <tr><td>48</td><td>48</td><td>8</td><td>384</td></tr>
                <tr><td>49</td><td>49</td><td>4</td><td>196</td></tr>
                <tr><td>50</td><td>50</td><td>5</td><td>250</td></tr>
                <tr><td>51</td><td>51</td><td>8</td><td>408</td></tr>
                <tr><td>52</td><td>52</td><td>2</td><td>104</td></tr>
                <tr><td>53</td><td>53</td><td>2</td><td>106</td></tr>
                <tr><td>54</td><td>54</td><td>4</td><td>216</td></tr>
                <tr><td>55</td><td>55</td><td>2</td><td>110</td></tr>
                <tr><td>56</td><td>56</td><td>1</td><td>56</td></tr>
                <tr><td>57</td><td>57</td><td>1</td><td>57</td></tr>
                <tr><td>58</td><td>60</td><td>2</td><td>120</td></tr>
                <tr><td>59</td><td>61</td><td>2</td><td>122</td></tr>
                <tr><td>60</td><td>62</td><td>1</td><td>62</td></tr>
                <tr><td>61</td><td>63</td><td>1</td><td>63</td></tr>
                <tr><td>62</td><td>64</td><td>1</td><td>64</td></tr>
                <tr><td>63</td><td>66</td><td>5</td><td>330</td></tr>
                <tr><td>64</td><td>67</td><td>1</td><td>67</td></tr>
                <tr><td>65</td><td>69</td><td>1</td><td>69</td></tr>
                <tr><td>66</td><td>70</td><td>2</td><td>140</td></tr>
                <tr><td>67</td><td>71</td><td>1</td><td>71</td></tr>
                <tr><td>68</td><td>73</td><td>1</td><td>73</td></tr>
                <tr><td>69</td><td>75</td><td>1</td><td>75</td></tr>
                <tr><td>70</td><td>76</td><td>1</td><td>76</td></tr>
                <tr><td>71</td><td>78</td><td>1</td><td>78</td></tr>
                <tr><td>72</td><td>82</td><td>1</td><td>82</td></tr>
                <tr><td>73</td><td>85</td><td>4</td><td>340</td></tr>
                <tr><td>74</td><td>96</td><td>1</td><td>96</td></tr>
                <tr><td>合计</td><td></td><td></td><td>98,793</td></tr>
        </table>
        <p>【说明】“编码字数”指一个编码下包含的字数;“编码条目数”是包含N个字的编码条目数合计;“编码字数合计”是对应编码总字数汇总,右下单元格是码表总字数合计。</p>
</div>

马黑黑 发表于 2026-1-25 13:11

一个编码对应一个字多达10多的占比算是很高了;而一个编码对应的字最多的是96个,这相当惊人。

高重码率无法避免,这是两字元方案处理近10万字不得不接受的现实。

有一种输入法过去叫“二笔输入法”,后接受网友的建议改名为“两笔输入法”,现衍生出很多社区维护的版本,其中 两笔之家 系列版本可能有元二笔官方背景。这个输入法彻底解决了重码问题,GBK两万以前零三个字的重码率比形码还低。它采用的是 “字的声母 + 字的第一、二笔画映射键位 + 字的第三、四笔画映射键位 + 末两个笔画映射键位” 的方法进行编码(其中笔画若为单笔画则使用单笔画映射键位)。学习成本不算低,不过笔画映射键位有规律,投入一点时间也能上手。当然,它的字库总数仅限于GBK范围,它要处理10多万字也无法避开重码率。

两分输入法重在实现无字不能输入的目标,所以重码率不是个问题,优化内部编码也不是当前的首要任务。

马黑黑 发表于 2026-1-25 13:16

本统计表其实任何人都可以做,使用的工具无非就是一个功能强大的文本编辑器、电子表格,高端一点的还可以用上数据库。我做的时候仅使用文本编辑器,使用该编辑器整理码表为所需格式,然后借助JS的强大数组、对象处理功能实现数据检索和汇总,最后生成数据表格。

马黑黑 发表于 2026-1-25 13:18

上述表格仅是一个统计数据,完整的码表数据汇总太大,就不搬来这里了

红影 发表于 2026-1-25 13:30

马黑黑 发表于 2026-1-25 13:18
上述表格仅是一个统计数据,完整的码表数据汇总太大,就不搬来这里了

能统计出来已经很厉害,全搬过来的确太多了{:4_187:}

霜染枫丹 发表于 2026-1-25 14:23

本帖最后由 霜染枫丹 于 2026-1-25 14:26 编辑

老祖宗造字,让中华民族摆脱了结绳记事,奠定了中华民族的文明得以流传延续至今,并在各民族之间发展,让中华文化未曾中断,保护了古老的文明。发展到今天。数字化的汉字输入在我的理解同样是功在千秋。让汉子通过鼠键实现展示,是让文明继续传承下去的伟业。这也是我对马老师文章很赞佩的原因所在。今天发生的事请就是明天的历史,通过马老师的文章,让我了解到了这项工作的严谨和庄严,这是在制定传承文化必须的文字输入的最佳方案,逐步优化,让我们这些使用者更为便利。

霜染枫丹 发表于 2026-1-25 14:27

本帖最后由 霜染枫丹 于 2026-1-25 14:50 编辑

感谢马老师的分享!继续抱走了。周末快乐!!{:4_204:}{:4_190:}



https://www.yueyijyw.com/forum.php?mod=viewthread&tid=1266

马黑黑 发表于 2026-1-25 16:34

霜染枫丹 发表于 2026-1-25 14:27
感谢马老师的分享!继续抱走了。周末快乐!!




{:4_190:}

马黑黑 发表于 2026-1-25 16:34

霜染枫丹 发表于 2026-1-25 14:23
老祖宗造字,让中华民族摆脱了结绳记事,奠定了中华民族的文明得以流传延续至今,并在各民族之间发展,让中 ...

说得好

马黑黑 发表于 2026-1-25 16:35

红影 发表于 2026-1-25 13:30
能统计出来已经很厉害,全搬过来的确太多了

{:4_190:}

杨帆 发表于 2026-1-25 19:14

做好编码统计工作绝非易事

统计结果为进一步完善两分输入法5.0码表提供了必要的数据支撑

马老师您辛苦了{:4_180:}

马黑黑 发表于 2026-1-25 20:03

杨帆 发表于 2026-1-25 19:14
做好编码统计工作绝非易事

统计结果为进一步完善两分输入法5.0码表提供了必要的数据支撑


{:4_190:}

红影 发表于 2026-1-25 21:33

马黑黑 发表于 2026-1-25 16:35


黑黑对两分输入法还真挺有研究的{:4_187:}

花飞飞 发表于 2026-1-25 22:04

又学到了两笔输入法,
原来有这么多人为了汉字快速输入而做如此多的努力。。。。
特别佩服这些研究者们

花飞飞 发表于 2026-1-25 22:08

10,759这么多编码都是一对一的。。{:4_173:}规则还是适应大多数的。。
那一个编码对的96个字,常用字多还是生僻字多。

马黑黑 发表于 2026-1-25 22:09

花飞飞 发表于 2026-1-25 22:04
又学到了两笔输入法,
原来有这么多人为了汉字快速输入而做如此多的努力。。。。
特别佩服这些研究者们

二笔输入法是国家认可进入中心学教育课程的一个输入法,可惜早期它保守专利,错过了与五笔竞争的机会,因此没能流行开来。现在专利期限已过,二笔的键位布局等相关专利已变成公共财产,这才有一些衍生作品出来,但为时已晚

马黑黑 发表于 2026-1-25 22:11

花飞飞 发表于 2026-1-25 22:08
10,759这么多编码都是一对一的。。规则还是适应大多数的。。
那一个编码对的96个字,常用字多还 ...

那绝对是死字

马黑黑 发表于 2026-1-25 22:22

红影 发表于 2026-1-25 21:33
黑黑对两分输入法还真挺有研究的

实际上我一直使用,只不过是仅用于特定工作。有些输入需求,任何输入法都没有两分的好使,追求的不是录入速度而是什么字都能打出来的效果。

红影 发表于 2026-1-25 22:51

马黑黑 发表于 2026-1-25 22:22
实际上我一直使用,只不过是仅用于特定工作。有些输入需求,任何输入法都没有两分的好使,追求的不是录入 ...

这个两分输入法还真挺牛的,就凭什么字都能打出来,就已经独树一帜了{:4_187:}

马黑黑 发表于 2026-1-25 23:32

红影 发表于 2026-1-25 22:51
这个两分输入法还真挺牛的,就凭什么字都能打出来,就已经独树一帜了

它就是冲着古籍整理而来的吧
页: [1] 2 3
查看完整版本: 两分输入法5.0码表编码统计