点和捺
分析字海网两分输入法的字码,发现其对点和捺的处理采用了两种方法,真正的点(丶)采用 dian 为其部件编码,短的捺也视为点(丶),但长捺,像“廴”和“丈”的末笔,视为“水”的编码(shui)。通观字海的输入法编码,觉得它有一定的灵动性,像“丷”视为“八”、“㐅”视为打叉叉的×(cha),都是灵动性的体现。如此,在处理点捺编码方面,思维可以放开一点,点、短捺、长捺可以统统看作是点或捺(二者只选其一),使自身的编码规范更趋于简洁;根据点视为点而不是捺的自我规范,可以统一一下思路:点、短捺、长捺都是点。
我用EmEditor大致检索、筛选了几个点、捺的编码,重码率不是很高,在可接受范围内。本身,字海的输入法仅是为了解决Unicode汉字的输入问题,重码率可以不做过多的考虑,降低使用者的学习成本才是需要思考的问题之一,所以,编码尽量不往复杂方向构建。
编码是一项繁杂而艰巨的劳动,尤其是像字海输入法那样的全新的编码定制,当前条件下,主要还得依赖手动编写,因为它不可能不像其他输入法方案那样有现成的数学模型和编码机制可采用。
随便举几个字海编码灵动性体现的字例:
竹 → 个个
黹 → 业八
质 → 斤贝
炙 → 月火
乂 和 人 ,字海的编码是:
乂 piedian
人 pieshui
乂,不用水的编码,末笔不够长么?还是不够平躺?和人用水的编码,标准不够统一。
人 pieshui 又来涨知识了,谢谢老黑分享, 早上好{:4_204:} 大猫咪 发表于 2021-8-8 10:33
又来涨知识了,谢谢老黑分享, 早上好
大猫上午好 又要降低使用者的学习成本,又要防止重码,编码工作真的不容易{:4_199:} “乂,不用水的编码,末笔不够长么?还是不够平躺?和人用水的编码,标准不够统一。”
是不是也为了避免重码问题?所以有交叉的和没交叉的作为区别对待了。 這個好像 倉頡輸入法喔 要拆字 朵嫣 发表于 2021-8-8 12:25
這個好像 倉頡輸入法喔 要拆字
實現形式不同,說的是,拆字和編碼的方式不一樣。
兩分法把字拆成兩個字元,並用拼音表示每個字元的編碼,兩個字元的拼音得出字的本體。 红影 发表于 2021-8-8 12:00
“乂,不用水的编码,末笔不够长么?还是不够平躺?和人用水的编码,标准不够统一。”
是不是也为了避免重 ...
不是避免重码问题,是标准问题,需要修正。 马黑黑 发表于 2021-8-8 12:40
不是避免重码问题,是标准问题,需要修正。
哦,这个太专业了,平日大家不会去细想,通常都是怎样规定就怎样去记忆了。 红影 发表于 2021-8-8 14:14
哦,这个太专业了,平日大家不会去细想,通常都是怎样规定就怎样去记忆了。
是的,要符合这样的规则:不要出现标准混乱,类似的、有一定规律的东东,就弄一个标准 马黑黑 发表于 2021-8-8 18:18
是的,要符合这样的规则:不要出现标准混乱,类似的、有一定规律的东东,就弄一个标准
那需要非常了解和熟悉才行{:4_187:} 马黑黑 发表于 2021-8-8 12:38
實現形式不同,說的是,拆字和編碼的方式不一樣。
兩分法把字拆成兩個字元,並用拼音表示每個字元的編 ...
有點複雜
不過編碼的也算厲害~ 朵嫣 发表于 2021-8-8 20:04
有點複雜
不過編碼的也算厲害~
他的研究方向之一是文字,弄一個全新的編碼很有必要,畢竟,大字庫集尤其是GBK以外的文字的錄入方面,需要一個方案 红影 发表于 2021-8-8 19:40
那需要非常了解和熟悉才行
量大了就有可能产生混乱,这是比较自然的事情 马黑黑 发表于 2021-8-8 20:15
他的研究方向之一是文字,弄一個全新的編碼很有必要,畢竟,大字庫集尤其是GBK以外的文字的錄入方面,需 ...
請教黑黑
我下載文檔,打開後都變成亂碼
有什麼方式可以恢復正常嗎? 马黑黑 发表于 2021-8-8 20:23
量大了就有可能产生混乱,这是比较自然的事情
这项工作要付出很多心力。 小黑现在的电脑知识面有深度了{:4_173:} 小辣椒 发表于 2021-8-8 21:38
小黑现在的电脑知识面有深度了
哪里哪里,一般一般
页:
[1]
2