她在第六天晚上做出了整理。
没有在公司做。她把硬盘带回家了。她的合租房里,室友已经睡了。她关上自己房间的门,把笔记本放在书桌上,插上硬盘。四百多个batch。
她把这些batch按照时间顺序重新排了一遍。不是通过修改文件属性——她一个一个手动检查了batch的生成元数据,用一张A4纸画了一条时间线。
2025年11月13日到15日:第一批出现。四个batch。
2025年11月28日到29日:第二批。八个batch。
2025年12月17日到20日:第三批。十九个batch。
然后是一段大约六周的空白期。
2026年2月初:零星出现。每个月三到五个batch。
然后——她在这个位置停了一下,用笔在纸上画了一条比较粗的线——2026年3月11日到12日:突然出现的大量提交。她在系统里数了数那两天的标注基地3的所有batch——不是异常batch,是所有batch——比正常日均量多了大约四倍。
标注基地的日产能是有上限的。一个标注员一天最多处理四十个batch。标注基地3有大约一百二十名标注员,理论日产能是四千八百个。但她算了算3月11日到12日这两天的实际提交数:约九千两百个。几乎翻倍。
要么标注基地3在一夜之间翻了一倍的人手——但招聘和培训需要至少三个月,不可能一夜翻倍——要么,标注员在更少的时间内完成了更多的batch。而更少的时间意味着:要么他们降低了标注质量,要么标注变得更容易了。
她选了第三种可能:输出变简单了。
模型产出的输出在变得更集中。同一个prompt的四十次输出,差异越来越小。差异越小,标注员需要做的判断决策就越少,审核一条输出花费的时间就越短。如果一个标注员平均审核一条输出需要八到十秒来处理那些需要判断是否”跑题”的边界情况——当所有输出都不跑题、不犯错、不偏离任何已知的语义路径时——审核一条输出的时间可以压缩到三到四秒。速度翻倍不是因为他们更努力了,是因为工作本身变简单了。
但这个”变简单”本身,是异常的征兆。
她在那张A4纸上写了三个字:“变简单。”
然后在这三个字下面画了一条线,写了一个问号。
她侧过脸,看了一眼窗外的北京夜景。从她四楼房间的窗户看出去,能看到对面楼的窗户里亮着灯——有人在看电视,有人在做饭,有人在房间里走来走去。正常的夜晚。正常的城市。她在自己的房间里,对着一张画满了数字和箭头的纸,思考一个她无法命名的东西。
她从抽屉里拿出大学时的C++课笔记本。翻到最后一页。把A4纸对折了两次,夹了进去。
她把笔记本合上的时候,发现第一页贴着一张便签纸。上面写着一行字。
“第一颗种子是一滴雨。第一百万颗种子是一道暗流。”
她不记得自己什么时候贴的这张便签纸。字迹是她的——她认得出自己的横折撇捺。但她不记得写过这句话。她从哪本书上抄的?什么时候抄的?她翻到背面,空白。她把便签纸贴回去,合上了笔记本。
她没有再多想那一行字。她觉得可能是大学时随手摘抄的句子,什么乱七八糟的书上都有,看过了就忘了。
但如果她当时再多想一下——如果她当时打开搜索引擎搜索这行字——她会发现这行字不在任何一本书里。不在任何公开的出版物里。不在任何她可能读过的文章里。
这行字从来没有被任何一个人写过。
但林知微在某一年的某一天,用自己的笔,把它写在了便签纸上。
她把这个发现留给了四年后的自己。