字:
关灯 护眼
优秀小说 > 高二分科,我选校花也选亿万身家 > 第686章 纯注意力机制?你们竟敢这么想

第686章 纯注意力机制?你们竟敢这么想

    2014年6月底,雅安。

    林之远拖着行李箱走出机场大巴的时候,第一反应是自己下错了站。

    眼前是一条双车道的省道,两侧全是低矮的民房和零星的小卖部。

    一辆农用三轮车突突突地从面前驶过,车斗里装满了竹筐,扬起漫天灰尘。

    “这就是你说的全球顶级算力中心?”

    凯文把墨镜推到额头上,脸上的表情像是吞了一只苍蝇。

    赵明拎着双肩包从后面跟上来,拍了拍他肩膀:“别急,还没到呢。”

    凯文耸耸肩,用那口让林之远听着就来气的蹩脚中文说了句:“我就说嘛,不可能的。”

    林之远没搭理他。

    凯文会跟着一起来,纯属意外。

    那天在斯坦福实验室里,他花了整整一周复现那篇论文的实验。

    152层深度的神经网络,图像识别错误率只有3.57%,比人类标注员的5.1%还低一大截。结果和论文数据完全吻合,一个数字都没差。

    从那以后,凯文像被什么东西勾住了。

    嘴上还是那副“中国实验室不可能”的论调,私底下已经把论文翻来覆去读了不下二十遍。

    当林之远和赵明提出辞职回国时,凯文犹豫了三天,最后厚着脸皮问了一句:

    “那个九天实验室,收不收外国人?”

    一辆黑色别克商务车从省道尽头驶来,稳稳停在三人面前。

    车门打开,下来一个穿黑色职业套装的女人,身材高挑,妆容精致,整个人散发着一种和周围环境格格不入的都市感。

    “林之远博士,赵明博士,还有凯文·安德森先生?”

    她扫了三人一眼,语速极快。“我是徐静,负责九天实验室的行政对接。”

    徐静没有立刻让他们上车,而是从公文包里拿出三份厚厚的文件。

    “在上车前,各位需要签署这份S级竞业与保密协议。”

    她的目光特意在凯文身上停顿了两秒,语气冷硬:

    “特别是安德森先生,按照我们大老板的死命令,外籍人员进入基地需要经过独立的法务背调,你的临时访问权限只有四十八小时,且严禁携带任何电子设备进入核心区。”

    凯文被这阵仗镇住了,乖乖交出手机接过了笔。

    商务车拐上一条新修的柏油路,路面宽阔平整,和刚才的乡间小路判若两个世界。

    “从市区到基地,专线直达,不走公共道路。”徐静坐在副驾驶,头也不回地说。

    林之远注意到路边每隔五十米就有一根崭新的电线杆,上面挂着的不是普通的民用线缆,而是工业级的高压输电线。密密麻麻,粗得吓人。

    赵明也看到了,跟他对视一眼,都没说话。

    又开了二十分钟,车子驶过一道安保闸门。门口站着四个穿制服的保安,配了对讲机,闸门旁边还有车底扫描设备。

    这安保规格,比他在硅谷见过的任何科技公司都高。

    然后他看到了那片建筑群。

    三栋巨大的灰白色厂房并排矗立,每栋至少有两个足球场那么大。

    外墙上没有任何标识,只有密密麻麻的通风管道和冷却塔。一条粗壮的高压线从远处的变电站直接接入厂房顶部,嗡嗡的电流声隔着车窗都能听见。

    凯文的嘴张开了,半天没合上。

    “雅安九章算力基地。”徐静终于转过头来,面带些许得意。

    “目前拥有NVIDIA顶级运算显卡七百余张。其中四百张K80,是美国总部因为我们老板砸了数千万级别的超级订单,破例提前五个月秘密交付的工程测试版。总浮点算力在国内民间机构中排名第一。”

    林之远的手指不自觉地攥紧了膝盖上的背包带。

    七百多张顶级显卡。

    斯坦福整个计算机系的集群加起来,也就这个数的三分之一。

    三人下车,六月的雅安闷热潮湿,但厂房周围的空气明显凉了几度。那是大功率制冷系统外排的冷风。

    徐静带着他们刷卡进入侧门。走廊很长,地面铺着防静电地板,头顶是工业级LED灯管,亮得刺眼。

    推开尽头的玻璃门,林之远停住了脚步。

    一整面墙的服务器机柜,从地板延伸到天花板,蓝色的指示灯密密麻麻地闪烁着。

    液冷管道从机柜顶部蜿蜒而过,冷却液发出轻微的咕噜声。

    “我的天。”凯文低声说了一句。

    赵明拍了拍他的肩膀,笑了:

    “怎么样?还觉得不可能吗?”

    徐静没给他们太多时间感慨:

    “算力中心只是基础设施。你们要去的地方在隔壁楼。走吧。”

    隔壁楼门口挂着一块不锈钢牌子:九天AI实验室。

    二楼的开放式办公区里,十几个人正对着屏幕工作。有人在跑代码,有人在白板上写公式,角落里两个人正对着一张打印出来的论文激烈讨论。

    一个戴眼镜的年轻人从工位上站起来,朝他们走过来。

    “林博士,赵博士?”他伸出手。“任少卿。论文你们应该看过了。”

    林之远握上去。这只手的主人,就是那篇让全球AI界炸锅的论文的第一作者。

    比他想象中年轻得多,看着也就二十五六岁。

    “看过了。复现过了。数据完全对得上。”

    任少卿笑了一下:“那就好。省得我还要解释为什么152层能训练。”

    楼梯口传来脚步声。一个身材偏瘦、穿着黑色连帽衫的男人走下来,手里端着一杯咖啡,眼睛下面有明显的黑眼圈。

    “楼天城。”任少卿介绍道。“我们的系统架构负责人。昨晚应该又通宵了。”

    楼天城点了点头,看了一眼林之远的胸牌:

    “看资料,你在斯坦福做的是推荐算法方向?”

    “对。博士论文写的是用深度学习做推荐系统。”

    “那正好。”楼天城喝了口咖啡。

    “我们现在在做一个东西,需要你这个方向的人。”

    他转身走向白板,拿起马克笔,刷刷刷写了一串公式。

    林之远凑过去看。

    那是一个注意力权重的数学表达式。

    所谓“注意力机制”,通俗地说,就是让AI在处理一段信息时,能像人类阅读一样,自动把目光聚焦在最重要的部分,而不是平均分配精力。

    但这个公式和他在论文里见过的不一样。

    传统的注意力机制,是让AI在翻译时“回头看”原文。

    比如翻译一句英文时,每写一个中文词,都回头看看英文原句里哪个词最相关。

    而白板上这个公式,做的事情完全不同:它让一句话里的每个词,都去“看”这句话里的其他所有词。

    不是回头看别人,是自己看自己。

    “你们在做……序列内部的自相关计算?”

    林之远的声音不自觉地提高了。

    任少卿和楼天城对视了一眼。

    “差不多。”任少卿说。

    “我们在探索一种全新的方式来让AI理解语言。不依赖传统的循环结构。就是那种必须一个词一个词按顺序处理的老方法,而是完全用注意力机制,让所有词同时互相‘看见’彼此。”

    林之远的脑子嗡了一下。

    不依赖循环结构?纯注意力?

    这个想法太疯狂了。当前全世界做语言AI的人,没有一个敢把循环网络完全扔掉。注意力机制在所有已发表的论文里,都只是辅助模块,从来不是主角。

    “你们怎么敢往这个方向想?”

    任少卿推了推眼镜,眼神里闪过敬畏:

    “不是我们敢想,是老板问了我们一个问题。能不能让序列内部自己看自己。安德烈顺着这句话推导了三个月,才有了这套数学框架。”

    林之远和赵明满脸震惊。

    那个神秘的幕后老板,到底是个什么怪物?

    “验证过了?”赵明强忍震惊,凑过来盯着白板。

    “初步实验跑通了。”楼天城说。

    “但还有很多工程问题。计算量随文本长度的平方增长,显存吃得很凶。我们需要更多懂并行计算和矩阵优化的人。”

    他看了林之远一眼。“也需要懂推荐系统里那套相似度计算的人。本质上是同一套数学,都是在海量信息里找到最相关的那一部分。”

    凯文站在旁边,盯着白板上的公式看了足足两分钟。

    然后他转过头,用英文对林之远说了一句话:

    “他们领先我们至少一年。”

    林之远没有反驳。

    斯坦福、伯克利、谷歌大脑,所有人还在想怎么让注意力更好地辅助循环网络。

    而这间藏在四川山区里的实验室,已经在问一个完全不同的问题:

    我们还需要循环网络吗?

    任少卿拉了几把椅子过来。

    “坐吧。你们在斯坦福做的那套用户行为建模,跟我们现在做的东西有很多可以互相借鉴的地方。”

    这一聊就是三个小时。

    林之远发现自己越聊越兴奋,很多在斯坦福想不通的问题,在这里找到了全新的切入角度。

    赵明更夸张,直接从包里掏出笔记本电脑,当场开始推导一个他想了半年没想通的数学问题。

    凯文全程没怎么说话。但林之远注意到,他的眼睛一直在发亮。

    下午五点,徐静推门进来:“聊完了?食堂六点开饭。”

    任少卿看了看三个人的表情,笑了:“我猜不用再走什么流程了吧?”

    林之远站起来,伸出手:“什么时候能开始?”

    “明天。”任少卿握住他的手。“安德烈刚推完一版新的数学框架,正好需要人帮忙做工程验证。你来得太及时了。”

    凯文也站了起来。他犹豫了一下,用那口蹩脚的中文说:

    “我也可以明天开始吗?”

    楼天城笑了笑。

    “当然可以。我们欢迎天才。”
『加入书签,方便阅读』