第2章「沙县门口」
第2章「沙县门口」¶
视角:程小念(过去)
第二天早上七点她出门的时候,室友还在睡觉。六人间宿舍,上铺下桌,五个人都在——一个在打呼噜,一个有节奏地翻身,另外三个的帘子拉得死死的,里面偶尔传出手机屏幕亮起又暗下的微光。她轻轻带上门,走廊里全是洗衣粉和消毒液的味道,头顶的声控灯亮了一下又灭,她的脚步不够响。
沙县小吃在一楼底商。高新产业园的边缘,新楼和荒地交错的区域,商铺不多,沙县是其中活得最好的。店面不大,四五张塑料桌子,墙上贴着一张菜单,红底黄字,菜品占满了整面墙的三分之二。价目表上的数字用马克笔改过好几轮——"3元"改成"4元","4元"又改成"5元",每次改都是覆盖上一层,所以有些数字写得特别粗,像被描了好几遍的眉毛。
门口蒸笼摞了三层,冒着白气,从外面看像一门小型蒸汽机。她走过去点了一笼蒸饺,猪肉玉米馅的,又加了一杯豆浆。蒸饺端上来的时候烫得拿不住,她用筷子夹起来,在醋碟里蘸了一下,然后咬开一个小口,把里面的汤汁吸掉。是她妈教的——"先吸汤,后吃肉,不然烫死你。"她妈说这句话的时候正在煤气灶上炒菜,油烟机轰轰响,铲子翻菜的声音像铁锹在挖煤。她妈从来不是温柔的那一型,但她的每句话都是对的。
蒸饺的味道是标准的。不是说好吃或者不好吃——是"标准"。猪肉馅的肥瘦比大概是三七,玉米粒用的是冷冻甜玉米,皮是机器压的,厚度均匀到不自然。统一配送的沙县小吃蒸饺,一个城市里有几十家店,每一家的味道几乎完全一样。程小念那时候觉得很寻常,后来在不同的城市吃过不同的沙县,发现每家的味道其实还是有一点点偏差的——有的酱油多一点,有的醋酸一点——但偏差到不了让人记住的程度。一致性的边界足够宽。
标注基地在四楼。从沙县隔壁的门进去,坐电梯上四楼。今天的电梯修好了,但运行起来有种不安的抖动,每到一层都会"吭"一声,声音有点像老人在清嗓子。电梯里的灯管偏黄,照得所有人的脸都像没睡醒。
门开了是一条走廊,铺着灰色的化纤地毯,踩上去有种软软的、不踏实的感觉。走廊两边是各个公司的玻璃门——每扇门后面都有不同的人在做不同的事。有一家公司是做物流系统的,门口贴着打印纸:"物流系统版本v3.7.2上线,请所有测试人员注意"。另一家是做在线教育的,玻璃门上贴着他们自己产品的海报——一个孩子对着屏幕笑,旁边一行字:"让每个孩子都有好老师"。
标注部的门在走廊最里面。推门进去,一股刨花板的木头味扑面而来——不是那种难闻的化学味,是一种干燥的、带着微微粉尘感的木头气息,像走进一个刚装修完的宜家仓库。
里面是一间大屋子,大概有两间教室那么大。四十多张白色组装长桌排成四排,每张桌上放一台液晶显示器、一个黑色键盘、一个有线鼠标。显示器的大小不一样——有的十九寸,有的二十一寸,有的是方屏,有的是宽屏——意味着这些设备不是同一批采购的,是分几次陆陆续续配齐的。键盘上有不同程度的磨损:空格键磨得发亮,WASD四个键被不知道谁的游戏手指磨得字母都淡了。
她的工位在第三排靠窗。椅子是一把黑色网面办公椅,左扶手缺了一块塑料片,里面的金属骨架裸露着。她坐下去的时候椅子往下降了一截,她用右手在座位底下摸索着扳了一个把手,气杆"噗嗤"一声把她又弹回来了。
窗户很大,能看见对面的建筑工地。一台黄色塔吊在缓缓转,吊臂上的红旗被风吹得猎猎作响。更远的地方有一片灰色的居民楼,阳台上挂着花花绿绿的衣服,有些晾衣杆伸出了阳台边缘,看上去像楼房长出了触角。
她按了开机键。
开机动画结束以后,桌面上只有一个图标:标注系统的快捷方式。没有浏览器快捷方式,没有文件夹,连回收站都不在桌面上。整个系统被锁定在一个单一的用途里——标注数据。你打开电脑,只能做这一件事。
双击进入系统。登录界面要输入工号和密码,工号是HR早上给她的,印刷在一张小卡片上——她的名字、工号、部门、日期。密码初始是六个八,系统提示"首次登录请修改密码"。她改成了一个只有自己知道的密码——她用了很多年不会换的那种,一个已过世祖母的名字拼音加生日组合。
进入系统后看到的是标注界面。白色背景,很简洁,像个被精简到只剩骨架的网页。左边是标签栏——一列灰色的矩形按钮,从上到下排列:"高质量""中等""低质量""无法判断""疑似违规"。每个按钮之间隔了大概三毫米的间距,整体配色是白色加浅灰,低饱和度,不刺激眼睛,适合每天盯八小时的屏幕。右边是待标注的内容区域,白色底,黑色宋体字,每个字的大小大约是十四磅。内容区域分上下两部分:上面是用户输入框(如果有的话),下面是AI输出框。
她今天被分配的任务是"文本质量评估"——判断AI生成的回答好不好,打1到5分。
培训是上午十点开始的。培训室在旁边一间更小的屋子,没有窗户,用投影仪代替。二十几个新来的标注员挤在一起,每人手里拿着一份打印好的培训手册。有人把手册卷起来当扇子扇,有人翻了两页就合上了。她从头到尾翻了一遍,大部分是操作流程截图和名词解释,她从头到尾看了一遍,基本上没看懂。
讲师是位年轻女人,看起来二十八九岁,戴圆框眼镜,头发扎成马尾,穿一件深灰色的薄针织衫,说话很快,像在背诵一个已经讲了几十遍的稿子。她翻PPT的速度很快,一页大概停留不到三十秒。
"一致性——指标注员之间对同一个样本的判断是否相同。如果两个标注员对同一条数据打的分不一样,这说明我们的标注体系存在不一致性。Kappa系数是衡量一致性的一种统计指标——"
程小念用笔在培训手册空白的地方记了两个字:"Kappa"。然后在下面写了一个问号。后来她查了一次这个词是什么意思,打开百度看了半分钟,关了。她不需要理解Kappa系数——她只需要能把她的"感觉"翻译成一个4分的标签。
培训在最后一张PPT上停了比较久。之前的所有页面都是白色背景加黑色文字,最后这一页用了深蓝色背景,上面只有一行白色大字:
"你的每一个标注,都在塑造未来的AI。"
下面是配图:一只机械手和一只人类的手,指尖将触未触,中间隔着一张纸厚度的距离。仿米开朗基罗《创造亚当》的构图,但亚当的手换成了金属板件和液压杆,上帝的手保留着人类的皮肤和纹理。
程小念觉得这张图有一点点土——那种科技公司特有的PPT美学,宏大叙事加模仿经典。但她承认那句话本身是有力量的。不是因为它在说什么——什么"塑造未来"——这种话所有公司都在说。是因为"你的每一个标注"这几个字——它不是在说"我们公司"或者"我们的AI",它说的是"你"。你的手,你的选择,你今天下午三点十七分用鼠标点的那个"正常"。
她掏出手机,拍了一张照片。
发朋友圈的时候她配了个emoji:🌱。选这个emoji的时候她犹豫了一下——她是想配"👍"的,但手指滑过去的时候碰到了旁边的🌱,觉得也还行,就发出去了。
培训结束之后大家回到各自的工位正式开始标注。她打开第一条待标注的数据——用户问"怎么追到暗恋的人",AI回答了一大段关于"保持自信""建立真诚连接""在合适的时机表达心意"之类的内容。她读完觉得写得挺好的,打了4分。
旁边工位的女人瞥了一眼她的屏幕。
这个女人看起来三十出头,比她大不了几岁,但有一种程小念那个年纪的人不具备的"工作感"。头发染成深棕色,刘海用那种一片铁片夹上去的发夹别住,额头上有一条浅浅的抬头纹。戴粉框眼镜,镜框的颜色和她的肤色之间有一种奇怪的不协调——不是丑,是一种"不在乎"。"这个颜色打折"——你大概能从那副眼镜上读出这三个字。
"你打4分?"女人说。
"嗯,我觉得写得挺好的……"
"这个你打3分就够了。太安全牌了,全是套话。你追过人吗?"
程小念愣了一下。"没有。"
"那你就不知道。这种回答对真正想追人的人来说一点用都没有。它会说一大堆话,但什么都没告诉你。"女人将自己的屏幕往程小念那边偏了一下——她给同一条数据打的是"3"。
程小念犹豫了几秒。然后把自己那个4分改成了3分。
"那个——"她侧过身,"你怎么判断一条数据好不好的?有没有什么标准?"
女人歪头想了一下。
"你干一个礼拜就知道了。这东西不是用脑子判断的。"
"那用什么?"
女人把手从鼠标上抬起来,五根手指在空中摆了一下,像在扇走什么看不见的烟。
"就是……感觉。"
她放下手,继续标注。屏幕上AI的回答在她的滚动中一个一个往上滑。她标注的速度和程小念根本不是一个级别——她基本不看AI回答的完整内容,扫一眼开头和结尾,鼠标就已经挪到了对应的标签上。"咔"一下点了。"咔"一下提交。中间几乎没有停顿。那种节奏让程小念想起高中时听英语听力的考试——你不能把每一句都听完再选答案,你必须在听完第一个关键词的时候就知道答案是什么。
程小念花了大概两个小时标注了四十多条数据。隔壁那女人可能已经上百了。
十二点到了,标注系统弹出一条自动提醒:"午休时间(12:00-13:00),请暂停标注。"很贴心,像一个电子母亲在叫人吃饭。
她下楼去沙县,要了一碗拌面加卤蛋。拌面的花生酱给得确实多,筷子挑起来的时候能拉出丝来。隔壁工位那个女人也来了——端着一碗扁食,在她旁边的塑料凳子上坐下。
"你也吃沙县?"女人问。
"嗯,近。"
"这家的拌面还行。蒸饺中午之前买,皮是润的。过了中午皮就干了,嚼起来像纸。这个是经验。"
"谢了。"
她们开始各自吃东西。大概有五分钟,两人都只发出咀嚼声。远处建筑工地的打桩声砰砰砰地响,节奏很稳,一下一下的。"砰——"停顿。"砰——"停顿。像有人在用拳头试一扇门。
程小念心里一直有个想问的问题——关于那条她改了分数的数据。她问:"你自己打3分的时候,你确定是对的吗?"
女人把最后一个扁食咬掉一半,用勺子搅着碗里的醋汤。"不确定。"
"那为什么还要打?"
"因为如果我不打,别人也会打。如果别人打了,而我打了不一样的分数——那就是我的问题。一致性、Kappa,对吧?"她说Kappa的时候把重音放在第一个音节上,听起来像在念一个拼音。她在笑,但是那种苦笑——嘴角是上扬的,但眼睛中间没有动。"培训讲的——标注员之间的'分歧'是不好的。所以你要跟别人一样。"
程小念没有继续问。
但她脑子里种进了一个问题:如果所有人都跟别人一样——那这个系统到底是在学"对的东西",还是在学"多数人对的东西"?这两件事,一样吗?
概率空间里没有"感觉"这个词的确定位置。它是一组高维向量的模糊映射,分布在"直觉""经验""偏见""运气"的边界上。一个训练系统无法理解的东西,正在被另一个训练系统当做校准工具使用。