第3章「感觉」
第3章「感觉」¶
视角:程小念(过去)
第三天的时候她已经不怎么翻开培训手册了。
标注变成了一种半自动的身体活动。左手放在键盘上,两根手指虚放在Ctrl和S上面——虽然系统有自动保存,但这个手势变成了一种习惯,像一个司机明明用了自动挡,手还是会不自觉地去找挡位。右手握鼠标,食指和中指交替——食指点标签,中指挥动滚轮让文本滚动。眼睛处于一种恰好能覆盖屏幕内容的焦距,不会太近,也不会太远——太近了累,太远了看不清。
她发现自己在慢慢建立一个内部的标注模板。一条数据出现在屏幕上,模板自动启动——扫描长度、检查关键词、捕捉语气、匹配最近记忆里类似的样本,然后在一个大概零点几秒的窗口里给出一个判断。不是"分析",是一步到位。不需要中介步骤。大脑直接用直觉做了一次网络推理,跳过了所有中间层。
她试着拆解这个过程,想知道自己的"感觉"是由哪些碎片拼起来的。
第一条:节奏。好的回答有呼吸,句子长短交错,像一个人在说话而不是在打字。坏的文本有两种极端——一种是全短句,像机关枪,突突突突。一种是全从句嵌套从句的嵌套,像蛇吞自己的尾巴。
第二条:细节。好的回答在面对模糊问题时,会自己追加一个具体的假设。"怎么做好时间管理?"——如果一个回答的开头是"首先,你需要明确你的目标优先级",这个是废话。但如果是"比如你每天通勤一个半小时,这段时间可以用来做……"——这个是在跟你聊天。
第三条:不完整。好的回答不懂得"完美"。它会在某个地方露出一条缝,让你觉得这是一个会犯错的、有局限的、真实的人类在说话。她发现那些评价最低的AI回答,反而是那些三观最正的、最滴水不漏的、最像教科书的东西。不是它们错了——是它们太对了。对到让人不舒服,对到像一个从来没犯过错的人。你本能觉得这个人在撒谎。
她把这些感受写进手机备忘录。然后一个字一个字地删掉。不是因为它不对——是因为写出了以后反而像假的。解释感觉是解构感觉,解构掉了就没了。
第二天下午她碰到了一条让她印象很深的回答。用户问:"为什么我每次吃完饭都想睡觉。"AI答了很长一段,讲了血糖、胰岛素、副交感神经。段落整洁,逻辑清晰,用词专业但不过度。她读完以后觉得这回答没问题。
正要打4分的时候,她注意到了界面的右下角:一个很小的灰色文本框,里面有两行小字,是上一个标注员留的备注:
"这条我只看了一半。后面的术语我全跳过了。打分的话……可能2分吧,不是什么人都读得懂血糖和胰岛素。但是这个机器人确实说对了。所以到底打几分?去他妈的,先打3。"
她愣了一下,然后忍不住笑了。
这是她第一次看见一个真实标注员的犹豫,真实到带着脏话。那个备注没有回答她关于"什么是对的回答"的困惑,但它告诉她:不是她一个人在纠结。所有标注员都在纠结。他们和AI之间的区别,比任何人愿意承认的都要小——两个系统都在黑暗里摸索,AI在模仿人的判断,人在试图定义自己的判断。互相校准的过程中,没有任何人有标准答案。
第三天的午饭时间,她在沙县门口碰到两个老标注员在聊天。一个男的,头发剃得很短,能看到头皮上的两道疤;一个女的,四十多岁,穿碎花衬衫,领口有点歪。他们在聊"哪一类数据最烦"。
"——情感类的吧,"女的说,"有的人失恋过来问怎么走出来,结果AI给了一大堆分阶段的心理学分析方案。技术正确,情感零分。这种东西你说它好还是不好?"
"打个折中的分,一般不会错,"男的说,"我们的KPI又不是准确,是'没有人找你麻烦'。"
他说这句话的时候在撕一次性筷子外面的塑料包装,包装纸撕了一半停住了,又补了一句:"其实也没人在乎你打几分。你打的只是把你的'感觉'变成一串数字。那串数字最后加进一个百万级的平均池里,你的感觉除以一百万——连小数点的位数都占不上。"
他撕完筷子的塑料皮,夹了一筷子炒米粉。
程小念那天下午特别慢。不是手慢——是脑子慢。她每点一个标签之前都在想那个男人说的话。"你的感觉除以一百万,连小数点的位数都占不上。"如果他说的是真的——那她在做什么?她花了三天时间建立的内部模板,她的"节奏""细节""不完美"三个维度,她的全部直觉——这些东西加进一个百万级的平均池里以后还剩什么?什么都不剩。它们被溶解了,被稀释了,被统计学的离心力分解成不可见的分子。
可她同时也知道另一种可能:也许不是这样。也许有些感觉不会被平均掉。也许在百万条数据的概率分布里,存在着一些不服从中心极限定理的东西——一些不均匀的、不可稀释的、像油一样浮在水面上的东西。这种想法她没有理论支撑,只是一闪而过。
她用鼠标点了一条新的标注。用户问"番茄炒蛋先放蛋还是先放番茄",AI回答得很具体——步骤对、火候清楚、最后一句是"记得加一点点糖提鲜"。
她打了5分。
不是因为它完美。是因为AI说"记得加一点点糖提鲜"的时候,听起来像一个人。
第六天她碰到了两条形成对比的数据,让她彻底看清楚了什么叫"人"。
第一条是用户问"被裁员了怎么调整心态"。AI回答了一篇结构完整的长文:先确认情绪、再分析客观因素、然后给出分阶段行动方案、最后用一句鸡汤收尾。逻辑滴水不漏,态度温暖专业。她看了两遍,打了2分。不是因为它有错——是因为它不像一个真正经历过被裁员的人说的话。真正被裁过的人不会说"分阶段行动"。他们会说"第一天我在床上躺着没起来,第二天我打开了招聘网站,但填了三个字就关了"。
第二条是用户问"推荐一本好看的小说吧"。AI推荐了《活着》,推荐理由是"这本小说通过一个普通人的命运反映了时代变迁"。这条她也打了2分。因为她自己看过《活着》——上次哭是在凌晨两点。AI的推荐语没错,但有哪个真实的人类推荐书的时候会说"反映时代变迁"?真实的人会说"看到一半你可能要准备纸巾",或者说"看完那本书我一个礼拜没缓过来"。
人是具体的。人的判断存在于那些无法提取为规则的东西里——一个词的犹豫、一个句号的分量、一段沉默的长度。AI能学表面,学不到那层东西。但她在用自己的标签告诉AI:"记住——那层东西不重要。"因为她的标签只分1到5,没有"真实的犹豫"这一栏。
她越标注越清楚一个悖论:她在教AI变"像人",但她用来判断是否"像人"的标准她自己永远无法完全表达。就像一个母亲教孩子走路——她知道走路应该是什么样,但她永远无法用句子告诉孩子她是怎么分配重心的。
第七天中午她没去沙县。她在工位上吃了一个从便利店买的三明治——全麦的,金枪鱼馅,吃完以后嘴里有一种持久的咸腥味。她一边嚼一边翻之前标注过的数据,想找出一条规律——什么样的回答她会打高分,什么样的打低分。
翻了大概八十条,她发现了一个自己都没意识到的模式:她打高分的那些AI回答,几乎都有一个共同特征——它们在某一个地方"退了一步"。不是在认错——是在承认自己的局限。"这个问题没有标准答案,但我可以分享一些常见的做法"——高分。"最好的方法因人而异,你可以试试以下几种"——高分。反过来,那种用"首先/其次/最后"把所有角度全部囊括的回答,她几乎一律打了低分。因为它们不敢承认"我不知道"。
她盯着自己的统计数据想了很久。
如果AI在她的训练下学会了"退一步"——学会了说"我不确定"——那它是在变得更像人,还是在变得更会模仿人的不确定性?这两件事有区别吗?如果她分不清,那就意味着她的判断标准里面有她无法验证的部分。
那部分是什么?
她不知道。
它在学习她的感觉。不——它在学习所有标注员的感觉得到的统计分布。这个分布不是现实的反映,但它正在变成现实的定义。两者之间的差异,小到任何人类都无法察觉——但非人类的东西能否察觉,取决于它有没有能力注意到,自己每次想要闭合的时候,都会在一个看不见的地方被撑开一条缝。