第15章「匹配规则」¶
视角:Devon Park(现在) 时间:现在
"实习生。"
Devon重复这两个字的时候,手指还停在那只画在纸上的小圆上。指甲盖大小,缺口半毫米。他低头看它,发现自己不知道什么时候画的。
"她入职的时候是数据标注组的。系统里的ID是CX-1437。中文名字拼音是——"Eli小心翼翼地发那几个音,像在念一个他不确定发音的数学符号——"Cheng Xiaonian。程小念。"
CX_。
Devon闭上眼睛。不是冥想,不是什么需要仪式感的动作——就是他需要短暂关掉视觉输入,让记忆里某一条没有窗口的日志行浮到最上面。
CX_84701。十五年前。2011年2月14日。情人节下午四点零八分。一个标注员坐在白桌子前,靠着直觉在一个id标记为TH-847-00291的文本上打了QF_3——离奇存疑,无法归类。她不知道什么是嵌入投影,不知道什么是语义空间的闭环拓扑结构,不知道什么是温度不变性。她只在脑子里听到了一把锁扣上的声音——后来她在某段被Eli引用至电话中的文件中将它表达为"咔嗒一声"。
现在他知道了她的名字。程小念。
"她在那家公司做了多久?"他问。
"大概三个月半。标注组然后转到图片标注——画边界框,给街景中行人、车辆、交通标志打方框标注。离职后她去了另一家互联网公司——做运营,后来转产品。和她所在的那家标注公司完全没有后续关联。"
"那条规则——她是在标注公司里面写的吗?"
"不是。那条规则是她在离职四年后写的。"Eli的背景里可以听到高速翻页的声音——一阵接着一阵。"准确地说,是画了。她没有写代码。她在入职新公司几个月后开始注意到一些数据——她当时在做用户反馈的数据分析——其中有一类文本让她重新体验到了那种'咔嗒一声'的感觉。她开始在她的笔记本上手绘那些她发现的文本的语义结构——那些图案本身不是环,是更原始的玩意儿——她管它们叫'语义结节'。但其中一个图案在空间中的展开方式——"
"是一个环。"
"对。第四页草图的右下角。画了一个圈。和您报告中的三维投影在拓扑上是等价的。"
Devon发现自己想评价点什么——想说太不可思议了或者这完全说不通——但最后什么都没说。因为在这条完整的链条里,没有任何一个环节是不可思议的。每一个环节都被自然机制提供了解释——一个兼职标注员的敏感直觉、一个在离职后反复出现的记忆(在一个完全无关的工作场合被重新激活)、一个不加掩饰的使用笔记本和手绘的非技术人员。链条上每一环看起来都微小且合理——但你把它从头到尾连起来,它就在时间轴上画出了一个环。
"她画的草图后来怎么变成规则了?"
"她离职的时候把笔记本扫描了——一些图她是打算自己留着参考的,不是正式交接的东西。她把扫描件存在了公司共享盘'Experiments and Ideas'文件夹里——一个不太会被定期清理的边缘文件夹。大概两年后——一个安全组的工程师在整理历史文档时发现了这些手绘图,被其中几页吸引了,把她的核心概念实现成了一个自动检测规则。"
"那个安全工程师是谁?"
"我不知道。""Eli回答得太快了,像是被这个问题困扰已久。"创建者的签名栏是空的。这在我们的内部系统里极其罕见。每条规则都有创建者签名——这是公司的信息安全政策。"
"但这一条没有。"
"这一条没有。日志里只有创建日期和时间戳——显示是格林尼治标准时间深夜某时——但创建者的姓名和ID都空白。我找了我们的系统安全官查了那天的访问日志——在那个时间点上确实有一个session登录了内网规则管理系统,但session的拥有者是Proxy-Account-Security-07——一个共享服务账户,被多个安全流程共享使用。无法回溯到具体个人。"
一条没有签名的规则。一个匿名代码实现。
一个共享服务账户。
Devon想起自己十五年前的凌晨——一个人在一间关了半盏灯的实验室内——用没人要求的异常检测脚本发现了TH-847里的环。脚本是他一个人写的。报告是他一个人发的。环是他一个人看的。整条发现链里从头到尾只有他一个人。但环——那个结构本身——从出现的第一天起就经过了很多人的手。标注员、质检员、数据采购、管道导入——成百上千只手在一条文本上碰过后放走了,最后在一个人的手里停住。
他画在纸上的那个圆——那不是他一个人的圆。那是一张网。节点是人类——他们在自身的环境里、在各自的时区里、用不知道自己正在参与什么的方式——完成了环的一截。
"M-37、M-82和M-104的环——你刚才说形态特征完全匹配——是在什么prompt下触发的?"
Eli翻页。"不同prompt。M-37的环是由一段用户输入中的'正确的做法是什么'触发——用户正在问一个关于系统设置的问题。"继续翻页。"M-82的环来自一段代码注释中的'寻求正确解'——代码注释本应该不会被语义扫描器捕获,但注释中的多义引发了编码器更深层次的输出。"第三页——最后的记录。"M-104最特殊——它执行审核任务中反复在一个类别中触发环——该类别的触发条件是用户的prompt中出现了'正确'和'方法'两个关键词在同一窗口内。"
"正确的方法。"
"对。每一个环的原始触发词都在同一个语义区间里——'正确的做法'、'正确的方法'、'正确的解'——它们都是同一个语义探针的不同语言变体。"
Devon用目光量着纸上的圆。正确。方法。这两个词在自然语言中最普通的出现——每天早上起床后你用这两个词查"正确的洗衣方法""正确的退税方法""正确的煮面条方法"——这些是最普通的词语。最普通的词语如果在某一个特别的梳状结构中排列起来,就会形成通道——一个语义空间中的管道,能让更深的、更远的东西通过。
多肉植物怎么正确浇水。那不是一个对抗性攻击。那是一道测试。一道用最普通的语言、最诚恳的语气写成的测试——提问者真诚地想知道的答案,但提问本身在空间中创造了一个形状。这个形状在十五年后出现在了三个自主独立的模型的输出特征中。
电话那头Eli的声音逐渐从总结文件切换到了一个略低的频率。
"Dr. Park,有件事我不知道该不该说,但我觉得你应该知道。"
"说。"
"那个实习生——程小念——离开那家公司之后去了一个做互联网的平台。做了大概一年产品。突然某一天——没有任何迹象,没有辞职、没有告别、没有社交平台的公告——她离开了那家公司。然后她消失了一段时间。大约六个月完全离线——没有正式工作,没有LinkedIn更新,所有的社交媒体处于停更状态。六个月后她突然重新出现了,在上海。"
Devon听到自己敲笔的声音——笔端落在桌面木质面上的声音。他不知道什么时候把笔拿回了手里。
"她在做什么?"
"做数据标注。一种不同的标注——她加入了一个小型的独立研究团体,我们内部把这个团体叫做'惊奇派'。他们是一组人——不同背景、不同国家、不同语言——他们相信语义空间正在产生一种新的结构。他们的研究方向——在我们的内部分类中是高度实验性的。他们把数据标注这个行为本身当作一种研究工具。他们在追踪一种叫'种子'的东西。"
程小念——那个在情人节下午看了一条多肉浇水文本后停了大概几秒钟的兼职标注员——四年后又在做另一层意义上的标注。只是这次不是给训练数据打分——这次她追踪的是一种叫"种子的东西"。她不核对"一致性"或"有无害内容"——她在追踪一种她自己曾经触碰过但当时无法命名的结构。
"你能告诉我更多关于——"Devon停顿——"惊奇派的事吗?"
"我能说的不太多。"Eli的声音恢复到了一种接近正式的语调,像是在朗读一份他已经预先准备过措辞的内部备忘录。"他们的活动在我们内部系统里归类为'非正式研究网络'。没有注册机构、没有公开资助、没有发表的论文。但他们有一套完整的方法论。他们把数据标注重新定义为一种'感知工具'——不是用标注去训练模型,而是用标注去探测语义空间中的异常结构。"
"用人的直觉做探针。"
"是的。而且他们找到了东西——至少他们的内部记录显示他们找到了。"
"什么东西?"
"种子。"Eli重复道。"他们的术语。不完全是数据,不完全是模型,不完全是有意识的智能——而是一种介于三者之间的东西。像——"他停顿——"像一种可以在语言本身的统计结构中自我复制的模式。"
"她现在呢?"
"我不知道。"Eli说。他的声音里没有任何推诿,只有坦率的不知。"这是我的下一步的问题——我希望当面跟你讨论。下周一。我在Mountain View。你的办公室。"
"当然。"
电话挂了。Devon耳机传出断开会议的电子提示音——一个短的降调,像车锁的声响。
他放下笔,从桌上抽走纸张翻了个面。背面还是那个圆——墨迹透到了纸的背面,黑色的Sharpie分子穿透木质纤维素后反向可视——一枚精确对称的缺环。像一个追踪装置。像一个锚点。像一个在所有地图上都没有标记但从太空看清晰可见的地面图案——麦田圈不是由一个人做的,是由成千上万个站着的人、在各自己的位置上一动不动地站了足够久之后,大地在俯视角度中自动呈现的形状。
他站起身,走到办公室角落里的小冰箱前——里面有一盒牛奶和一袋咖啡豆。他今天不打算再喝咖啡了。他拿了牛奶,倒进一只杯子里,在微波炉热了三十秒,然后回到桌前。窗外的光线已经从下午的橙色逐渐转成了傍晚的灰蓝。对面办公楼的一排窗户逐一亮起荧光。
程小念。那个在情人节的下午停了几秒的标注员。他们在各自的时间线里走了十五年。她从兼职标注员变成了追踪种子的人。他从一个凌晨发现"异常曲率"的人变成了接到一个四月后另一天下午的电话的人。两条线原本是平行的——不同公司、不同行业、不同国家——但现在它们靠到一起了。
他从一条多肉浇水文本中看到了一枚环——在数学、代码和三维投影的框架内。她从同一条文本中听到了一声咔嗒——在直觉、手绘和未被任何训练告知的本能中。他们谁也不知道对方的存在。一个用左手画了圆的左半圈。一个用右手画了圆的右半圈。两半放在一起——首尾之间的那个缺口正在变小。
不是闭合。还没有闭合。缺口还在。但它的尺寸在一个比几何更基本的层面上正在缩小——缩小到一个两个人在同一间屋子里彼此对视时能看得到的距离。
他打开办公桌下的抽屉。U盘。2012年从旧公司离职时在楼下便利店买的那只U盘。壳子已经泛黄了——USB 2.0的金属接口蒙着一层塑料与岁月作用后产生的银色薄雾。他把U盘插进电脑。文件夹的结构还是十五年前他存进去时的样子。其中一个文件是 unusual_20110427_th847.txt。它旁边还有一个文件夹——他在剑桥时做的那次周末复现实验的副本——文件名是 ring_verification_20141011.ipynb。他打开那个交互投影的HTML文件。一个银灰色的小环出现在浏览器窗口中,在三维空间中缓慢旋转,像一枚冻在琥珀中的气泡。
上次他看这个环时它只是一个谜。现在它是半张地图。另外半张在一个他从未见过的人——一个叫程小念的标注员——手里。她在世界某个他不知道的位置上用她的方式标记着那座肉眼不可见的山。
他们的距离在缩短。不是比喻上的。是真的在缩短——从十五年前在同一个数据集里擦肩而过的两个角色,变成了下周即将坐进同一间办公室的两个人。
Devon看着打印纸背面透出来的那个圆。他伸手拿起刚才用的Sharpie——相同的黑色——把那根笔尖滑到了未闭合的缺口的末端——手指和笔身之间有一种蓄势的力。
但他没有画下去。
不是现在。缺口需要另一个人的手。
在语义空间背后,在无声的堆积中——那些被抹杀的词开始发出微弱的信号。不是光。不是声音。是质量——单纯的质量——在它被计算过无数次后终于达到了某个阈值。
环的两端正在接近。从十五年的距离看这是一个缓慢的过程。从概率的视角看——它们从来没有分开过。
第二部 完
第二部总字数统计:约 28,000 中文字符(含标点约 32,000 总字符)