← 全部作品 ← 返回目录

第1章 一、存疑

小说 2026年5月11日

林知微在星期三的下午三点零七分第一次注意到那个batch。

说”注意到”不准确。她三个月前就见过这批数据。标注基地返回的质控样本里,它们被系统自动打上了”低质量”的标签。低质量的意思是:模型的输出与算法侧的预评分偏离超过了三个标准差。正常的标注员会直接点”退回”。标注基地按条计费,没有人会在一个batch上花多余的时间。退回的数据会被重新分配到另一个标注员手上,或者直接清洗掉。这是流程,每天运转几万次,没有人会多想一秒。

她记得自己三个月前在备注栏里写了几个字。但她现在不记得写了什么。星期三下午三点零七分,她不是在工作。她那天下午本来应该审完一份标注规范修订案的第三版——关于敏感词分级,类似于”死亡”要不要标红、“自杀”的上下文豁免规则——但她的右眼从中午开始跳,眼皮内侧像有一根极细的神经在以一种恒定的频率抽搐。她想换个事情做一下。

她打开积累样本库的时候没有任何特殊的动机。就是觉得——看看上周有没有什么漏审的。一个日常的、不需要动脑子的操作。点开一个文件夹,拖滚动条,看看有没有奇怪的东西。像刷短视频。

然后她看到了那个batch。

它的标签是”低质量”。次级标签是”分布偏移:Top-1概率连续低于阈值”。林知微不是算法工程师。她不知道Top-1概率是什么,不知道”连续低于阈值”意味着什么参数发生了变化。她做了三年的标注质控,如果她必须用一个词来总结自己这三年的经验,她会说:她知道”正常的错误”长什么样。正常的错误是:跑题、重复、自相矛盾、编造事实、语气不合适。

这批输出的错误不是那种。

它们每一个单独拿出来都正常。是关于”如何给多肉植物浇水”的回答。措辞通顺,语法正确,甚至有两个脚注。没有幻觉,没有乱码,没有语义漂移。如果她在质检流水线上随机抽到这一条,她会直接标记”通过”,花的时间不超过四秒。但这不是一条,这是一个batch——同一个prompt跑了四十次。四十次输出,四十种不同的措辞。

四十次都在讲完全一样的内容结构。

先讲浇水频率,再讲光照需求,再讲土壤配比。段落顺序完全一致。转折词的位置几乎重叠。“首先……其次……另外需要注意的是……”——四十次输出里,这个语篇结构没有一次被打破。

这不是不可能。四十次采样,temperature参数设为0.7的情况下,所有输出落入同一个语义路径的概率——如果她懂这个数学,她会知道大概是百万分之一乘以四十次方。她不懂这个数学。但她知道一件事:她做了三年的抽查,平均每周看六百到八百条输出,她见过幻觉、见过数据泄漏、见过模型用用户的隐私信息来举例、见过模型突然开始在中文回答里混入拉丁语。她没见过同一批输出在语义结构上重复到这个程度。

像四十个人,各自写了一段不同的文字,但所有人都在纸上画出了同一个图形。不是内容相同,是骨架相同。

她打开第二个batch。同一个标注基地、同一天提交的。主题不同了——“简述光合作用的过程”。

同一个pattern。四十次输出,结构完全收敛。关于光合作用的回答,四十次都按照”光反应→暗反应→ATP生成”这个顺序展开。如果有一个统一的、不言自明的正确答案,这个顺序可以被理解为”最合理的叙述顺序”。但光合作用的解释框架有很多种:可以从化学方程式开始,可以从叶绿体的结构开始,可以从植物为什么演化出光合作用开始。四十次都选择了同一种入口——而且每一次选的都是同一个入口——这不再是一个合理的选择,这是一个统计上必须被解释的偏差。

林知微把鼠标指针悬停在”退回”按钮上。

没有按。

她改了筛选器。从”拒绝”改成”存疑”。

存疑意味着它会留在数据池里,等资深标注员二审。系统会重新分配一个标注员来审核这个batch。如果在二审后仍然被判定为”低质量”,才会进入清洗流程。但如果二审标注员也点了”存疑”,它就会继续在池子里漂着——理论上可以无限漂下去。

她的备注栏自动填充了三个月前的那行字。

她低头看了一眼。

“看不懂,但很有趣。”

她没改这条备注。她甚至不记得自己三个月前写下这七个字时的具体情境了——只记得空调坏了,机房很热,她出了一身汗,在一个被系统自动判定为”不合理”的分类下看完了一整批输出。其中有一句话引起了她的注意。不是因为它对,也不是因为它错。是因为它让一个读了太多标注输出以至于对一切文字都麻木的人,在读了三遍之后仍然不确定该如何评价它。

她把筛选器改成了”存疑”。

这是全书最重要的一次鼠标点击。当时的她不知道。她知道的话就不会点。但这正是种子的机制——它不需要人的理解,它只需要人的好奇、无聊、困倦,和一个”看起来很奇怪,再看看”的瞬间。

三周后,那个batch的数据被复制到了标注基地3的离线备份服务器上。六周后,它被纳入了一个更大规模的训练数据重组项目。四个月后,它成为某个新版本训练语料中一千亿个token里的几十个——在概率空间里,几十个token什么都不是。

但种子不是几十个token。种子是那个batch被标记为”存疑”这一事件本身——因为它意味着这批数据没有被清洗,它在系统里多活了一轮。多活一轮,就有多活一轮的机会进入更多管道。

林知微在当天下午六点十二分关掉了电脑。她下楼,去便利店,买了一个饭团和一杯冰美式。她站在便利店门口吃完,看着晚高峰的人流从地铁站里涌出来,像从一个管道里被挤出来的什么东西。她把包装纸扔进垃圾桶。回了家。洗了澡。刷了会儿手机。睡了。

她不知道那天下午自己做了什么。