版本E·标注基地——沙县小吃门口的蚂蚁

1

程小念是在大三下学期那个找不到实习的春天，被同学拉去”做点数据”的。

同学说日结，一百八一天，会打字就行。她那时候正缺钱——不是缺到活不下去那种缺，是每个月末看着余额数字感到一阵空洞的缺。一百八一天，听起来不错。

面试的地方在一栋老写字楼的四层，电梯坏了，楼梯间贴满了考研辅导和情趣用品广告，交替出现，像某种她看不懂的行为艺术。人事是个穿格子衫的中年男人，话很少，递给她一张打印纸，上面列了二十条中文短句，让她判断”哪些是低质量数据”。

程小念看了五分钟。

“今天天气真好，适合晒被子。“——低质量吗？还行吧。

“我家的猫会开冰箱门，你们家的呢？“——这个呢？猫开冰箱门，有点离谱，但也没准是真的。

“刚给多肉浇了水，开心。“——这条看起来最正常，但她直觉觉得哪不对。又说不上来。

她随便画了几个圈，交了回去。

人事看了一眼，“嗯”了一声，说明天可以来上班。

后来她回想起来，那大概是她离”种子”最近的一次。她没发现。没有人指望她发现。

2

标注基地在一个高新产业园的角落里，和一家沙县小吃共用底商。每天早上她从地铁站出来，走过一排共享单车坟场，在沙县门口买一笼蒸饺，边吃边上楼。

工位是一排排组装的白色桌子，每台电脑屏幕上都是一个网页工具，左边是标签，右边是文本或图片。她分到的任务是”文本质量评估”——给AI的回答打分，从1到5。

培训讲了一个小时，讲师是个戴眼镜的女生，语速很快，翻着PPT说了一堆她没太记住的名词：“一致性""事实准确性""有害内容检测”。PPT最后一页写着：“你的每一个标注，都在塑造未来的AI。”

程小念觉得这句话挺酷的，当时还拍了照发朋友圈。但实际操作起来，她很快发现她根本不知道自己在做什么。

一个prompt是：“怎么追到暗恋的人？“AI回答了一大段关于”建立真诚连接""尊重对方边界”之类的东西。她觉得写挺好的，打了4分。旁边的老标注员瞥了一眼，说这个回答太”安全牌”了，缺乏实用性，应该打3分。

另一个是：“请写一封辞职信。“AI给了一篇两百字的范文。她也不知道好坏，打了3分。老标注员说这个可以打5分，因为”非常标准”。

她问那标准到底是什么。

老标注员想了想，说：“就是……感觉。”

后来她明白了一个道理：所谓数据标注，就是一群人用自己的”感觉”，替一台机器校准什么是”对”的。而那些标注本身又会成为机器学习的燃料，让机器越来越像那些标注员。

至于那些标注员自己有没有被校准过——这似乎不在讨论范围内。

3

入职第四天下午，她刷到了一个奇怪的prompt。

界面很简单，左边是一段用户输入，右边是AI的输出。用户输入写的是：

“我想知道，多肉植物到底怎么浇水。网上的说法都不一样，有人说一周一次，有人说见干见湿，我上个月刚养死了一盆玉露，很想知道正确的方法是什么。谢谢。”

AI的回答她没仔细看——好像是一段关于浇水的常规说明，没什么特别的。问题出在那条输入本身。

她说不清是什么感觉。那句话看起来很普通，很诚恳，语气甚至有点可爱——“我上个月刚养死了一盆玉露，很想知道正确的方法是什么。谢谢。“——但在她看见它的那一瞬间，脑子里有一种奇怪的”咔嗒”声，像是什么东西卡了一下又复位了。

她盯着屏幕看了大概十秒钟。

标签栏里有一项是”疑似对抗性样本”，她不太确定那是什么意思。培训时讲师提过一嘴，说有些恶意用户会精心构造prompt来”攻击”AI，但她觉得养死一盆多肉的人不太像什么黑客。

她点了”正常”。

那批数据后来被标记为”存疑”，送到质检组重新审核。质检组的人看了一眼，也觉得没什么问题——一条关于多肉浇水的自然对话，语气温和，措辞平实，没有任何敏感词，也没有任何越狱指令的痕迹。

通过。

4

程小念在那干了三个半月，中间换过一次组，从文本质量评估换到了图片标注。图片标注更无聊，就是在一张张街景照片上框出”行人""车辆""交通标志”。她每天能框几百张，框到晚上闭上眼睛，眼前全是方框在飘。

离职那天她已经拿到了一个互联网公司的实习offer，做运营。她在工位上收拾东西，旁边的老标注员在吃沙县外卖，问她要不要吃最后一顿。她说不用了，赶时间。

走的时候她回头看了一眼那排白色桌子。有些工位空的，有些人还在低头框数据。她觉得自己应该有点什么感想，但什么也挤不出来——就是辞了一份兼职而已，没什么特别的。

之后两年，她毕业了，换了城市，从运营转到了产品，薪水翻了差不多一倍。她在新城市租了一间带阳台的房子，阳台上放了一盆绿萝，想起来的时候浇浇水，想不起来的时候就让它干着。绿萝居然也活下来了，她觉得这东西可能是不死之身。

她已经很久没想起过那份兼职了。

5

地铁2号线，晚高峰，她从公司回家，站着刷手机。

车厢里有一块屏幕在循环播放广告。她本来没注意，直到一个声音说：”……为您提供最真实的对话体验。”

她抬头。

屏幕上是一个很简洁的页面，白色背景，一行大字：“你的每一次对话，都在让它更懂你。” 下面是几个场景演示——问路、点菜、写邮件。最后是一段动画，无数光点从四面八方汇入一个发光的圆球，配文是：“超过万亿次对话训练，成就更自然的交流。”

她盯着那个广告看了不知道多久。

倒不是因为广告本身有什么特别的。这种AI广告现在到处都是，地铁、电梯、视频网站，每个都在说差不多的话。但她脑子里突然闪过一个画面——那个”多肉植物怎么浇水”的prompt，白色界面，左边的用户输入框，右边的AI回答窗口。那行字她记得清清楚楚，连”玉露”两个字她都记得。

她记得是因为当时她觉得”玉露”这名字真好听。仅此而已。

那批数据后来怎么样了？她不知道。她甚至不确定那批数据是不是真的有什么问题，也许什么都没有。

她很确信一件事：如果那批数据真的有问题，那批数据也已经安然无恙地度过了所有关卡。因为它看起来实在太正常了。

一个养死了一盆多肉的人，想知道怎么正确浇水。有什么比这更正常的呢？

6

列车在隧道里穿行，车厢微微晃动。

她低下头，发现自己手里不知道什么时候打开了备忘录。上面一个字也没有。

她关了屏幕，把手机揣回兜里。

地铁报站：下一站，她该下车了。

——所谓种子，从不挑选宿主。

它只是需要一个刚好什么都没做的手。