专访ChatGPT背后的科学家:OpenAI的300人工作方法论

ChatGPT掀起了一股全球范围内的AI浪潮,OpenAI也随之成为最炙手可热的明星公司。

我们不禁好奇,为什么是OpenAI这样名不见经传的小公司,而不是谷歌这种大公司创造了ChatGPT?OpenAI有何独特的工作方法论?


(资料图片)

目前国内大模型创业如火如荼,但不得不承认,各家产品与ChatGPT-4相比还有很大差距,为什么在技术创新方面我们总是慢人一步?

为此,商隐社专访了肯尼斯·斯坦利(Kenneth Stanley),他此前在OpenAI领导了一个开放式研究小组。再之前,他是中佛罗里达大学计算机科学专业的教授。

通过这次对话,我们得以窥见OpenAI崛起的底层逻辑。这些思维方式不仅关乎人工智能创新,也关乎我们如何拥有更自由的人生。

以下文字根据我们与肯尼斯·斯坦利教授的谈话内容,以及他的新书《为什么伟大不能被计划》整理而成。

文 | 肯尼斯·斯坦利 OpenAI研究员、人工智能科学家

采访及整理 | 阿空

商隐社研究团队商业组

本文为商隐社原创文章,转载请联系后台

放弃对目标的神话

或许你该升个职、跳个槽、减减肥、找个对象、赚个几百万、买个房子。

上述社会追求的背后,存在这样一个设想:任何值得追求的社会成就,最好先将其设定为目标,再坚定不移地朝着这个目标努力。

这不禁让人发问:这世界上是否存在不需要设定目标就能完成的事情?

纵观大部分行业,答案似乎是“没有”。

我们已经太习惯于通过“目标”来界定所有的努力,甚至忘了我们可以去质疑目标的价值。

目标提供了一种安全感,当我们感到迷惘时,机械地逐步推进目标,起码可以让我们拥有一种固定且可靠的生活。

因为“设定目标”这一行为本身,暗含着一种可能性假设:只要你用心去做,便有可能事成。只要目标明确,努力和付出必有回报。

某些时候,目标确实能为我们提供生活的意义或方向。但它同样限制了我们的自由,成为禁锢我们探索欲望的牢笼。

我们常常因过分执迷于目标而错失良多。目标论导致我们只关注终点的收获,而忽视了每一条探索道路本身的特殊性和独特性价值。

我们的世界充斥着为了获得成功而设置的各种目标,这使我们的生活变得机械化,压抑了我们的生活热情。

但事实上,若想实现更多所谓的丰功伟业,目标往往会成为绊脚石,比如与探索发现、创造力、发明或创新,或者找到真正的幸福。

这是因为,如果将我们所做的每件事,看作实现一个或另一个目标的踏脚石,那么探索任何复杂问题的过程都将是充斥无数欺骗性的踏脚石。

欺骗性往往是目标不能带来伟大成就的关键原因。如果目标具有欺骗性,那么设定目标,并以此为努力方向的做法对实现目标没有什么帮助。

因此,实现远大目标的最佳方式就是放弃对目标的神话,进而忽略目标。

听起来不可思议,但OpenAI确实如此。这家公司成立的前15个月,都没有一个明确的研究目标。

2016年5月,时任谷歌首席AI研究员参观OpenAI,对其工作方式相当困惑。他询问OpenAI的目标是什么,没想到难倒了OpenAI:“我们现在的目标,就是....做点好事。”

然而数月之后,这位研究员却毅然辞职加入了OpenAI,他想一起做点好事。

寻找一块可能成功的踏脚石

放弃目标的困难之处在于,意味着放弃“存在正确道路”的想法。但如果目的地本就不存在,那么所谓的正确道路也不应该存在。

其实,改变世界的神奇公式并不存在。伟大的成就并没有所谓的成功脚本,它们往往没有经过周密的计划便诞生。

通往成功的踏脚石,往往是未知的。因此,当进入一个充满不确定性的世界时,对未知的机会秉持开放和灵活的态度,有时候比明确地知道自己要做什么更重要。

所有人都应该开始寻找可能通往成功的踏脚石,且无需事先设定任何特定的终点。

你必须先找到一块正确的踏脚石来站稳脚跟,再加上足够的运气和头脑,才有可能发现通向目标的道路。

在AI研究的众多方向中,AGI(通用人工智能),便是OpenAI找到的一块踏脚石。

所谓AGI,即“超级智能”,接近科幻电影中万能的人工智能。与之形成对比的是人脸识别、翻译、下围棋等只能完成单一任务的人工智能。

但以那时候的科研基础而言,谈论AGI,就像谈论如何长生不老一样荒谬。

科学家all in AGI,赌赢,可以在教科书里比肩牛顿;赌输,则成为美版知乎Quaro的民科代表。

但企业all in AGI,大概率会成为先烈。庞大的资本支出,让无论是相信“专家算法”的IBM,还是“深度学习”的谷歌、百度,巨头们的一切AI研究,都为产业化服务。

愿意成为这个冤大头的,只有OpenAI一家。

很多时候,盲目地坚持最初的目标并不会带来伟大的成就。恰恰因为带来最伟大成果的踏脚石是未知的,所以不试图寻找特定的东西,往往会带来最令人兴奋的发现。

踏脚石不一定意味着通往最终的目的地,它自身也无关对错,只涉及探索的过程和无限的可能性。

我们需要接受的现实是:很多事情,是无法单纯地通过努力实现的。

只有在明确的目标被忽视、探索的缰绳被彻底松开时,我们才有可能征服最遥远的未知边界。

顺着有趣和新奇的方向前进

事实上,与其追求某个最终目标,不如转而寻求新奇的事物。因为后者的回报,将是一连串的、无穷无尽的踏脚石,即一项新奇事物的产生,将带来更多的新奇事物。

这样一来,未来就不再是某个特定的终点,而是一条没有尽头、未被定义、潜力无限的道路。

新奇事物的重要性在于,它们往往可以成为踏脚石探测器,因为任何新奇的东西,都是催生更新奇事物的潜在踏脚石。

换句话说,新奇性是识别趣味性的一条“简单粗暴”的捷径,而有趣的想法往往能够开辟全新的可能性。

新奇有趣的想法不仅远非微不足道,而且往往还会带来新的思维方式,进而触发更伟大的创新和发现。

更重要的一点是,通过不断地使新事物成为可能,新奇性以及趣味性能随着时间的推移产生聚合效应。

但追逐新奇性往往意味着一种漫无目的的不确定性,我们又该怎么知道要去哪里?

这其实就是关键所在。最伟大的创新过程之所以会成功,正是因为它们并不试图去往任何特定的地方。

按照这个逻辑,我们需要放弃目标带来的虚假安全感,转而去拥抱未知的、疯狂的可能性。

当然,我们仍然有理由担心,这种对新奇性的探索令人不踏实,甚至可能有点听天由命。

但事实并非如此。新奇性的概念不要求我们依赖一个具有欺骗性的指南针,只要求我们将当前的位置与过去进行比较。

与其担心我们不知道要去什么地方,不如将我们现在所处的位置,与我们曾经到过的位置进行比较。

与未来不同的是,过去不存在模糊性或欺骗性。这种比较不会让我们判断自己朝向目标的进展如何,但可以让我们判断在多大程度上摆脱了过去事物的束缚。

这种比较将问题从“我们正在接近什么”,变成“我们正在逃离什么”。

而逃离过去的有趣之处在于,它能够开启全新的可能性。

虽然人类的直觉和预感往往促使我们朝着没有任何目标的方向前行,但我们最终依然能发现一些与众不同或有趣的东西。

因此,在讨论新奇性时,趣味性的概念会自然而然地出现,这并不是巧合。当一个想法真正让人感到新奇时,它就足以让我们产生好奇心。

如果我们选择了一条有趣的道路,它可能会通往重要的目的地,尽管我们可能并不知道这个目的地确切在哪里。

鲜有人知的是,在OpenAI不断迭代升级的过程中,电子游戏也曾发挥过举足轻重的作用。

早期的OpenAI 曾在2019年打造出名为OpenAI Five的游戏AI,并成功击败了两届DOTA2国际邀请赛的世界冠军OG战队。

这并非不务正业。

尽管当时的人工智能已经在“听、说、看”等方面取得了一定突破,而且基于强化学习的Alpha Go也刚刚击败了人类围棋世界冠军。

但在OpenAI团队看来,这些突破依旧没有跳出“弱人工智能”的范畴,并不具备理解问题的和解决问题的能力。

OpenAI团队认为,要想让人工智能具备这种能力,就必须将其置于更为广泛和复杂的环境中进行训练,这样才能让人工智能发展出可以有效迁移复用的知识和解决问题的策略,而电子游戏就是这个“训练环境”的绝佳选择。

而以规则复杂、要素众多、环境多变,同时也是全球拥有超高人气的电子游戏DOTA 2,顺理成章地成为了OpenAI的首选。

正如OpenAI团队所言:“相比标准的开发环境,DOTA 2显得更加有趣,也更加困难。但是,如果一个AI能在像DOTA这样复杂的游戏里超越人类,那这个AI本身就是一个里程碑。”

相较于AI之前在国际象棋和围棋里取得的成就,像DOTA 2这类复杂的游戏能更好地捕捉现实世界中的混乱和连续性,使其训练出的AI能够拥有更好的通用性,从而更有可能应用于游戏之外的人类社会。

最终,OpenAI在DOTA 2上的尝试,为AI强化学习效率提升提供了方向,这些都成为了ChatGPT的养分。

可以说,正是OpenAI团队顺着有趣的方向探索,才获得了ChatGPT这样创新的产品。

许多参与ChatGPT 创立的人并没有想到它会成为一个世界性的产品,引起如此大规模的反应。相反,他们只是觉得聊天很有趣,因为聊天是一种很自然的与智能进行交互的方式。所以这不是计划好的,纯粹是一个意外。

但这并不等于说“伟大的发现都来自偶然”。这种说法的谬误之处在于将偶然性看成一种意外。

如果偶然性发现纯属意外事件,那就意味着没有任何特殊的教育背景或智力水平的人,也能够得出同样的发现。

我们或许会假设,凌乱无序或疯狂甚至是开启伟大发现之旅的最佳方式。但在现实世界中,情况似乎并非如此。

大多数重大的偶然性发现,都不是外行人的疯狂想法推动的。事实上,这些伟大的发现,大多数都出自智力超群、受过良好教育,且在各自行业内颇有建树的人之手。

在任何偶然性发现的背后,几乎总有一位心态开放的思想家,他们对怎样会产生最有趣的结果往往有着强烈的直觉。

归根结底,我们必须获得某种知识,才能继续创造新奇事物,这就意味着新奇性探索是一种信息收集器,用于不断积累关于世界的知识。

探索的时间越长,最终积累的信息越多,就越容易创新。

成为一个寻宝者

创新并非少数人的专利。对许多人来说,创新是可能的,因为我们都有不同领域的经验,在任何你有经验的领域,你都可以创新。例如,你会找到一种创新的方式来装饰你的家。

然而,不是每个人都需要或者应该创新。人们应该做他们想做的事情。如果你喜欢安全的适度的目标,过着没有风险的生活,那也可以是一种美好的生活。

如果你更喜欢探险冒险和不确定的目标,那也是一条合理的道路,只要你接受它可能走不通的风险。简而言之,就个人而言,每个人应该有选择自己喜欢的道路的自由。

对于后者而言,我们需要从目标的“一招鲜,吃遍天”的虚妄幻想中解放出来,继而拥抱现实,让自己成为一名拥有“即便没有目标,也能发现意外之喜”这种强大能力的“寻宝者”。

在漫无目标的新奇性探索中,你不一定能找到心中想要的宝藏,反而可能发现许多意料之外的宝藏,这将使整个过程充满惊喜。

本质上,寻宝者又可以说是秉持机会主义的探险家,他们致力于寻找任何有价值的东西,而不在乎这些东西具体是什么。

要想成为一名合格的寻宝者,我们就必须尽可能多地积累踏脚石,因为我们永远不知道哪块踏脚石可能通往有价值的地方。

也就是说,我们需要保持多样化的思维。因为一心一意地追求某个特定目标太有欺骗性,所以我们应该尽可能保留不同选择的可能性,以防一开始看起来最靠谱的路径,到后来反而行不通。

这种看法听起来或许很悲哀,因为人类没有关于未来的确切指南针。我们为创造确定性和有目标的努力所做的一切,都可能是徒劳无功的。

但我们完全不必失望,也许探索和发现本身就不应该专注于具体的目标,而是应着眼于一些更伟大的东西。

很反常识的一点是,达成共识并不是寻宝者的工作方式。有时候通往创造性想法的最佳路径,就是遵循个人喜好,而无需任何共识和目标。

事实上,没人能对2022年ChatGPT的爆发胸有成竹。过去5年,30多名中高层离开OpenAI,各自开辟AI创业项目。

他们的创业项目清单里,囊括了语言理解、计算机视觉、视觉搜索引擎、计算机任务自动化、太空技术、人工智能安全等AI各个领域,既包括AI大模型的底层技术,也有中间层和具体的应用层。

这无疑都是推动AI发展的有益探索。

OpenAI创始人萨姆·阿尔特曼曾笃定地表示,在公司内部,即使是管理层,也不一定有工程师了解这个300多人的团队。

OpenAI作为平台给这些工程师提供充分的自由和自信,包括他们在离开公司后独立创业,也得益于OpenAI长期形成的公司文化。

OpenAI内部研究小组之间的“不团结”,有时候反而可以推动进步。这样一来,“不团结”的力量,可以帮助更好地组织科学探索和其他创造性的工作。

总结

当探索的目的地变得未知,我们必须放下对最终目的地的执念。

这就是“踏脚石原则”,即一个好的想法会带来另一个好的想法;一处宝藏会指向更多的宝藏,在可能发现的无限的踏脚石上,形成源源不断的连锁和分支。因此,你需要做的,就是成为一个熟练的寻宝者。

如果你想成为一名行事无须设置特定目标的寻宝者,那么就要遵循一种特殊的线索,即当某些东西让你感觉有趣时,寻宝的旅程就可以开启。

“踏脚石原则”反映在工作中,就是让我们更有信心跟随自己的直觉,仅仅是因为它们看起来很有趣,即使不确定回报会是什么。

实际上,目标驱动的公司往往因为在几年内没有推出创新的产品而萎靡不振。在人工智能的商业化领域,充斥着不少雄心勃勃的公司,它们最后不得不降低自己的期望值。还有很多公司陷入到了争分夺秒的军备竞赛中,数据积累和技术耐心成为难以避免的牺牲品。

成功的人往往会问的是,我们能够从这里走到哪里,而不是我们如何能够抵达遥远的那里。他们并没有将精力浪费在遥远而宏伟的愿景上,而是专注于当前可能发生的前沿事件。

根据当前所处的位置,决定应该去哪里,往往比根据想要去哪里,来决定前进的方向要更明智。