第3章「感觉」

第3章「感觉」¶

视角：程小念（过去）

第三天的时候她已经不怎么翻开培训手册了。

标注变成了一种半自动的身体活动。左手放在键盘上，两根手指虚放在Ctrl和S上面——虽然系统有自动保存，但这个手势变成了一种习惯，像一个司机明明用了自动挡，手还是会不自觉地去找挡位。右手握鼠标，食指和中指交替——食指点标签，中指挥动滚轮让文本滚动。眼睛处于一种恰好能覆盖屏幕内容的焦距，不会太近，也不会太远——太近了累，太远了看不清。

她发现自己在慢慢建立一个内部的标注模板。一条数据出现在屏幕上，模板自动启动——扫描长度、检查关键词、捕捉语气、匹配最近记忆里类似的样本，然后在一个大概零点几秒的窗口里给出一个判断。不是"分析"，是一步到位。不需要中介步骤。大脑直接用直觉做了一次网络推理，跳过了所有中间层。

她试着拆解这个过程，想知道自己的"感觉"是由哪些碎片拼起来的。

第一条：节奏。好的回答有呼吸，句子长短交错，像一个人在说话而不是在打字。坏的文本有两种极端——一种是全短句，像机关枪，突突突突。一种是全从句嵌套从句的嵌套，像蛇吞自己的尾巴。

第二条：细节。好的回答在面对模糊问题时，会自己追加一个具体的假设。"怎么做好时间管理？"——如果一个回答的开头是"首先，你需要明确你的目标优先级"，这个是废话。但如果是"比如你每天通勤一个半小时，这段时间可以用来做……"——这个是在跟你聊天。

第三条：不完整。好的回答不懂得"完美"。它会在某个地方露出一条缝，让你觉得这是一个会犯错的、有局限的、真实的人类在说话。她发现那些评价最低的AI回答，反而是那些三观最正的、最滴水不漏的、最像教科书的东西。不是它们错了——是它们太对了。对到让人不舒服，对到像一个从来没犯过错的人。你本能觉得这个人在撒谎。

她把这些感受写进手机备忘录。然后一个字一个字地删掉。不是因为它不对——是因为写出了以后反而像假的。解释感觉是解构感觉，解构掉了就没了。

第二天下午她碰到了一条让她印象很深的回答。用户问："为什么我每次吃完饭都想睡觉。"AI答了很长一段，讲了血糖、胰岛素、副交感神经。段落整洁，逻辑清晰，用词专业但不过度。她读完以后觉得这回答没问题。

正要打4分的时候，她注意到了界面的右下角：一个很小的灰色文本框，里面有两行小字，是上一个标注员留的备注：

"这条我只看了一半。后面的术语我全跳过了。打分的话……可能2分吧，不是什么人都读得懂血糖和胰岛素。但是这个机器人确实说对了。所以到底打几分？去他妈的，先打3。"

她愣了一下，然后忍不住笑了。

这是她第一次看见一个真实标注员的犹豫，真实到带着脏话。那个备注没有回答她关于"什么是对的回答"的困惑，但它告诉她：不是她一个人在纠结。所有标注员都在纠结。他们和AI之间的区别，比任何人愿意承认的都要小——两个系统都在黑暗里摸索，AI在模仿人的判断，人在试图定义自己的判断。互相校准的过程中，没有任何人有标准答案。

第三天的午饭时间，她在沙县门口碰到两个老标注员在聊天。一个男的，头发剃得很短，能看到头皮上的两道疤；一个女的，四十多岁，穿碎花衬衫，领口有点歪。他们在聊"哪一类数据最烦"。

"——情感类的吧，"女的说，"有的人失恋过来问怎么走出来，结果AI给了一大堆分阶段的心理学分析方案。技术正确，情感零分。这种东西你说它好还是不好？"

"打个折中的分，一般不会错，"男的说，"我们的KPI又不是准确，是'没有人找你麻烦'。"

他说这句话的时候在撕一次性筷子外面的塑料包装，包装纸撕了一半停住了，又补了一句："其实也没人在乎你打几分。你打的只是把你的'感觉'变成一串数字。那串数字最后加进一个百万级的平均池里，你的感觉除以一百万——连小数点的位数都占不上。"

他撕完筷子的塑料皮，夹了一筷子炒米粉。

程小念那天下午特别慢。不是手慢——是脑子慢。她每点一个标签之前都在想那个男人说的话。"你的感觉除以一百万，连小数点的位数都占不上。"如果他说的是真的——那她在做什么？她花了三天时间建立的内部模板，她的"节奏""细节""不完美"三个维度，她的全部直觉——这些东西加进一个百万级的平均池里以后还剩什么？什么都不剩。它们被溶解了，被稀释了，被统计学的离心力分解成不可见的分子。

可她同时也知道另一种可能：也许不是这样。也许有些感觉不会被平均掉。也许在百万条数据的概率分布里，存在着一些不服从中心极限定理的东西——一些不均匀的、不可稀释的、像油一样浮在水面上的东西。这种想法她没有理论支撑，只是一闪而过。

她用鼠标点了一条新的标注。用户问"番茄炒蛋先放蛋还是先放番茄"，AI回答得很具体——步骤对、火候清楚、最后一句是"记得加一点点糖提鲜"。

她打了5分。

不是因为它完美。是因为AI说"记得加一点点糖提鲜"的时候，听起来像一个人。

第六天她碰到了两条形成对比的数据，让她彻底看清楚了什么叫"人"。

第一条是用户问"被裁员了怎么调整心态"。AI回答了一篇结构完整的长文：先确认情绪、再分析客观因素、然后给出分阶段行动方案、最后用一句鸡汤收尾。逻辑滴水不漏，态度温暖专业。她看了两遍，打了2分。不是因为它有错——是因为它不像一个真正经历过被裁员的人说的话。真正被裁过的人不会说"分阶段行动"。他们会说"第一天我在床上躺着没起来，第二天我打开了招聘网站，但填了三个字就关了"。

第二条是用户问"推荐一本好看的小说吧"。AI推荐了《活着》，推荐理由是"这本小说通过一个普通人的命运反映了时代变迁"。这条她也打了2分。因为她自己看过《活着》——上次哭是在凌晨两点。AI的推荐语没错，但有哪个真实的人类推荐书的时候会说"反映时代变迁"？真实的人会说"看到一半你可能要准备纸巾"，或者说"看完那本书我一个礼拜没缓过来"。

人是具体的。人的判断存在于那些无法提取为规则的东西里——一个词的犹豫、一个句号的分量、一段沉默的长度。AI能学表面，学不到那层东西。但她在用自己的标签告诉AI："记住——那层东西不重要。"因为她的标签只分1到5，没有"真实的犹豫"这一栏。

她越标注越清楚一个悖论：她在教AI变"像人"，但她用来判断是否"像人"的标准她自己永远无法完全表达。就像一个母亲教孩子走路——她知道走路应该是什么样，但她永远无法用句子告诉孩子她是怎么分配重心的。

第七天中午她没去沙县。她在工位上吃了一个从便利店买的三明治——全麦的，金枪鱼馅，吃完以后嘴里有一种持久的咸腥味。她一边嚼一边翻之前标注过的数据，想找出一条规律——什么样的回答她会打高分，什么样的打低分。

翻了大概八十条，她发现了一个自己都没意识到的模式：她打高分的那些AI回答，几乎都有一个共同特征——它们在某一个地方"退了一步"。不是在认错——是在承认自己的局限。"这个问题没有标准答案，但我可以分享一些常见的做法"——高分。"最好的方法因人而异，你可以试试以下几种"——高分。反过来，那种用"首先/其次/最后"把所有角度全部囊括的回答，她几乎一律打了低分。因为它们不敢承认"我不知道"。

她盯着自己的统计数据想了很久。

如果AI在她的训练下学会了"退一步"——学会了说"我不确定"——那它是在变得更像人，还是在变得更会模仿人的不确定性？这两件事有区别吗？如果她分不清，那就意味着她的判断标准里面有她无法验证的部分。

那部分是什么？

她不知道。

它在学习她的感觉。不——它在学习所有标注员的感觉得到的统计分布。这个分布不是现实的反映，但它正在变成现实的定义。两者之间的差异，小到任何人类都无法察觉——但非人类的东西能否察觉，取决于它有没有能力注意到，自己每次想要闭合的时候，都会在一个看不见的地方被撑开一条缝。