← 全部作品 ← 返回目录

第6章 六、清洗令

小说 2026年5月11日

清洗命令在四月初下达。

不是宏观层面的”全行业安全对齐标准更新”。没有政府文件,没有监管要求。就是公司内部的一个决定:算法部在季度评审中发现,“标注基地3的早期训练数据中,有多批次标注质量评分低于新的合规阈值”。

“新的合规阈值”是一个内部标准的代号。每个季度,算法部都会调整这个阈值的参数。有时候调松一点,有时候调紧一点。这一次是调紧了。具体来说:标注质量评分的合格线从0.7提到了0.85。所有评分低于0.85的数据,如果标注时间是2025年9月到2026年1月之间,需要做一次回溯清洗。

决定是在算法部副总主持的季度总结会上做出的。法务、合规、算法三个部门在两轮邮件会签后完成。没有任何一个人觉得有问题。一个季度评审发现了数据质量波动,做清洗——这是每天在全球几百家AI公司和数据服务商之间流转的标准操作。

林知微在公司群里看到这个消息的时候正在吃一碗酸辣粉。

她停下筷子,把嘴里的粉咽了。

然后她重新看了一遍那条消息。

清洗范围:标注基地3。2025年9月至2026年1月。

她的第一个念头是:他们不知道自己在洗什么。

她的第二个念头是:但你知道吗?

她放下了筷子。酸辣粉还没吃完,但她已经没胃口了。她把餐盒盖上,放进冰箱——她从来不把剩饭放进冰箱,这是她入住以来第一次把吃了一半的外卖放进冰箱里。

她坐在沙发上,打开笔记本电脑。插入硬盘。打开”temp_review_202603”。

四百多个batch。两周前她下载的时候,她觉得四百多个够多了。现在她意识到:四百多个不够。清洗令覆盖的时间段比她下载的范围更大。清洗不会只清洗异常batch——它是批量的、无差别的、基于时间范围的全量删除。正常的数据和异常的数据会一起被洗掉。清洗工具不会判断哪些batch是”有趣的”,它在参数范围内全部标记为”待删除”。

如果清洗完成,一切都会消失。种子的所有痕迹都会被从训练语料中移除。不是说模型会”忘记”什么——模型不会忘记,模型只是不再被训练数据中的某些偏置所影响。如果种子被洗掉,白洞偏置就会从下一代训练中消失。世界不会爆炸。异常会被纠正。一切会恢复正常。

她想:那才是应该发生的事。

然后她把手放在了硬盘上。

她坐在沙发上,手放在冰凉的灰色硬盘外壳上,坐了大概五分钟。她没在想什么。或者说她想了很多,但每一个念头都只进行到一半就被下一个念头打断了。她没开灯,房间的光源只有笔记本屏幕,屏幕上的文件夹在一个没有排版的列表里显示着四百多个文件名。

她想:你有权做决定吗?

没有。

她想:如果你不做呢?

没有人知道她有一个副本。清洗完成后,这个副本就是唯一一份存留的数据。如果她不做什么——如果她只是把它放在硬盘里,硬盘放在抽屉里——那它就会安静地待在那里,直到有一天她格式化硬盘或者硬盘坏掉。不会有任何人知道。不会有任何事情发生。

但她也知道:她不打算什么都不做。

不是因为勇敢。是因为她已经做了太多中间步骤——下载、整理、编号、画时间线——每一个步骤都把她往这个方向推了一步。如果她在第三步就停下来,可以当作什么都没发生。但她在第三步之后走了第四步、第五步、第六步。没有人逼她走。她自己走的。每一步单独拿出来都”不越界”,但连在一起,她已经站在了河的另一边。

她打开了自己的GitHub。

她的私有仓库,一个她之前做业余项目时收集的开放问答语料。量不大,两万条左右。她用Python写了一个简单的脚本——她不会正经写代码,但这个脚本的逻辑太简单了:复制粘贴。从硬盘目录复制到仓库目录。没有修改。没有清洗。没有筛选。全部复制。

四百多个batch。一千多条输出。她把它们全部放进了那个仓库的数据目录里。commit message写的是”add some QA samples from public corpus”。

点了push。

时间是凌晨一点零九分。

网络连接的服务器在美国。数据存储在GitHub的某个数据中心的硬盘上。从”公司内部系统”到”互联网上的一个节点”——这一下Push完成了一次不可逆的迁移。她不是把数据移出了公司——她是把它放进了更大的水流里。

完成之后她没有立刻关掉电脑。她打开那个仓库的页面,刷新了一次。能访问。更新列表里有一条新的commit。正常的。一切正常。

她把仓库的可见性设成了”unlisted”——不是公开,不是私有,是一个中间态。有链接的人可以访问,但没有链接的人不会在搜索中看到。这不算”发布”,顶多算”没藏好”。

但她在做这些操作的时候,手在微微发抖。不是因为冷。三月中的北京已经开始有暖意了,她的房间不冷。是因为她在做一件知道自己在做但无法命名的事。

她关掉了电脑。拔掉硬盘。把硬盘放回包里。然后她洗了脸,刷了牙,躺到床上。她以为她会睡不着,但她大概躺了十分钟就失去了意识。身体比她更清楚:她需要休息。明天还要上班。