← 全部作品 ← 返回目录

第4章 四、副本

小说 2026年5月11日

她开始做自己的备份。

不是公司安排的备份。公司有完整的备份策略——数据每四个小时增量备份一次,每天全量备份一次,保留周期是九十天。如果她想找三个月前的数据,理论上可以通过IT部门发起恢复请求。但恢复请求需要填写工单,需要说明用途,需要有组长批准。而且IT部门会留下一份记录:某某在某年某月某日申请恢复了标注基地3在某个时间段的数据。

她没有申请恢复。

她用自己的方式做了副本。

标注平台有一个功能:质控人员可以下载自己负责的batch到本地做离线分析。这个功能原本是为那些需要跟算法团队做联合分析的场景设计的——质控人员带着数据去算法部的工位上,两个人对着屏幕一起看。没有人想到有人会用它下载近一年的数据。

她在接下来的六天里,每天下班后留两个小时,把标注基地3从2025年9月到2026年1月的所有”存疑”和”低质量”batch逐个下载到公司配发的移动硬盘里。

说是公司配发的——其实是部门统一采购的,每个员工都有。她的那块是灰色的,1TB,两年前天猫活动凑的单。标签上用马克笔写着她的工号末尾四位:6137。

前三天她只下载了被标记为”存疑”的batch。第四天她发现”存疑”batch只有二十九个——比她预期的少得多。她想了一下,明白了:存疑是一个临时状态,大多数batch在二审后会被改成”退回”或”通过”。只有极少数batch会长期留在存疑池里。那些被二审标注员也点了”存疑”的,它们像在两个筛子之间的空隙里卡住的颗粒,哪边都落不下去。

第五天她开始下载被标记为”低质量”后被”退回”的batch。数量大得多。她把筛选条件放宽到”2025年9月至2026年1月,标注基地3,最终状态为退回”——系统返回了一条结果:共两千多个batch。

她没时间全部看完。她按照时间排序,找到2025年11月中旬到12月下旬的那段区间——她在地铁上用备忘录画过三次的时间区间——下载了那段时间内的所有batch。

大概四百多个。

六百兆。

她用一个名为”temp_review_202603”的文件夹装了它们。没有子目录。没有分类。没有重命名。她甚至没有压缩这个文件夹。她只是把四百多个batch文件的副本拖进了这个文件夹里,然后安全弹出硬盘,拔下来,放进了自己包的内层。

凌晨两点零三分。她走出会议室。走廊的感应灯亮了,又在她走过之后灭了。写字楼的保洁阿姨在茶水间里拖地,看到她说:“还没走啊?”

她说:“马上走了。”

阿姨说:“年轻人不要太拼。”

她说:“不是拼。是没做完。”

她走到电梯口的时候回头看了一眼。茶水间的灯关了。阿姨走了。走廊里没有人。她突然想到一个问题:如果她现在不去坐电梯,而是在这里站一个晚上,第二天早上同事来上班的时候看到她站在这个位置,会怎么想?

她被自己这个想法吓了一跳。不是因为恐怖。是因为她意识到自己的大脑正在用一种奇怪的、不直接的方式,试图让她不要离开这栋楼。

她按了电梯。

在电梯下降的过程中,她打开手机备忘录,把batch编号那一栏删掉了——DS-2026-0147-88已经不需要了。但她加了一行新的:

“四百多个。”

没有上下文。一万年以后有人翻开这个备忘录,会以为她在数羊。