|
在 v0.2.0 发布后,我继续让 Codex(gpt-5.4-xhigh)完善长句支持,并增加词库层。
我为输入法设计了一个 Benchmark:将我的小说《永恒的舞动》作为测试语料,选出不包含英文字母和数字的完整语句作为测试案例,转换为拼音后送入言泉输入法的引擎。如果结果的第一候选与原句完全一致,则计入 Top1 Pass;如果第一、第二候选任一个与原句一致,则计入 Top2 Pass。我让 Codex 按照这一测试方法的指标执行优化,由此创下了 Codex 单次任务运行 72 小时的纪录。
然而,没想到这只是 Codex 陷入近两周泥潭的开始。结果总是在“性能(延迟)”、“长句效果”、“短句效果”三者之间摇摆,犹如打地鼠般。直到 gpt-5.5-xhigh 到来,Codex 仿佛获得了新的力量,终于爬出了泥潭。不过,后来在修复另一个小 Bug 时,它却又像跌入了水沟。挣扎了三天后,我开了一个新的 session,相当于给 Codex 换了个脑子(丢弃旧上下文),问题根源终于被找到。
今天,我让 Codex 使用 v0.2.0 的引擎和 v0.3.0 的引擎分别做了 Benchmark 测试,结果如下:
整句直设
| 版本 |
Top1 |
Top2 |
平均延迟 |
v0.3.0 |
79.00% |
88.00% |
380.28 ms |
v0.2.0 |
38.00% |
41.00% |
216.08 ms |
增量输入
| 版本 |
Top1 |
Top2 |
平均延迟 |
v0.3.0 |
62.00% |
70.00% |
3439.07 ms |
v0.2.0 |
38.00% |
41.00% |
3383.27 ms |
改进显著。
官网:https://www.cassotis.org 或者 https://www.yanquan.org
|