Hopfield网络:催生AI的涌现物理学

【来源:虎嗅网】

本文来自微信公众号:集智俱乐部 (ID:swarma_org),作者:Elise Cutts,译者:赵思怡,审校:周莉

人工智能正以前所未有的速度改变世界,但其背后的核心机制,远不止于复杂的算法和算力堆叠。本文从神经科学先驱约翰·霍普菲尔德(John Hopfield)的研究出发,追溯深度学习的发展脉络,揭示一个令人意想不到的事实:许多现代AI模型的理论基础,源自上世纪物理学家研究磁性材料时提出的“自旋玻璃”模型。这些源于统计物理的概念,不仅解释了神经网络如何“记忆”,也预示了它们在面对海量数据时如何“创造”。当AI表现出超出设计预期的行为,我们或许正在见证“涌现”现象的发生。理解这一切,或许正是通向可解释AI的重要一步。

关键词:Hopfield网络、扩散模型、自旋玻璃、能量景观、涌现、统计物理、深度学习、AI

文章题目:The Strange Physics That Gave Birth to AI

文章地址:https://www.quantamagazine.org/the-strange-physics-that-gave-birth-to-ai-20250430/

来源:Quantamagazine

自旋玻璃或许是史上最有用的“无用之物”。这种材料虽然叫“玻璃”,其实多为金属材质。在20世纪中叶,因其令人费解的行为吸引了一小群物理学家的关注。自旋玻璃作为材料,本身并没有任何实际应用。但为了解释其奇异性而发展出的理论,最终引发了当今的人工智能革命。

1982年,凝聚态物理学家约翰·霍普菲尔德(John Hopfield)借鉴自旋玻璃的物理原理,构建出可以学习和记忆的简单网络。这项工作也重新唤起了人们对神经网络的研究兴趣——这些网状的“人工神经元”在当时几乎已被人工智能研究者放弃——并把物理学引入了一个新领域:对心智的研究,无论是生物的,还是机械的。

霍普菲尔德将“记忆”看作统计力学中经典的集体物理学问题:一个由多个部分组成的系统如何演化?对于任何简单的物理系统,包括自旋玻璃,热力学告诉我们的答案都是:“趋向于更低的能量状态”。霍普菲尔德利用这一集体现象的简单属性,找到了利用“人工神经元“网络来储存和记忆数据的方法。简单来说,他找到了一个将记忆“安置”在能量谷底的方法。因此得名的Hopfield网络,无需查找信息,只需“顺坡而下”即可完成记忆。

“Hopfield网络是一个‘概念性的突破’”,意大利米兰博科尼大学的理论物理学家马克·梅扎尔(Marc Mézard)说。借助自旋玻璃的物理学,后来从事人工智能的研究者可以“使用为这些古老物理系统发展出来的一整套工具”。

图1 Marc Mézard,意大利米兰博科尼大学的理论物理学家,无序系统统计物理领域专家。他最初为描述无序磁性系统——自旋玻璃的行为而发展出的工作,构建了一个概念框架和一系列方法(包括空腔法)。这些方法能够帮助我们描述和理解经济学、生物学、信息论和脑科学中的涌现现象。

2024年,霍普菲尔德和人工智能先锋杰弗里·辛顿(Geoffrey Hinton)因他们在神经网络统计物理方面的工作获得了诺贝尔物理学奖。这一奖项令许多人感到惊讶,也有人抱怨这更像是人工智能研究的胜利,而不是物理学的荣誉。但当自旋玻璃的物理学被用来建模记忆、构建能思考的机器时,它并未因此失去其物理学本质。如今,一些研究者相信,霍普菲尔德当初用来让机器“记住”的同一套物理原理,也可以用来帮助机器“想象”,并设计出我们真正能够理解的神经网络。

涌现的记忆

图2:约翰·霍普菲尔德(John Hopfield),美国物理学家。他开发了一种神经网络模型,为现代人工智能奠定了基础。(拍摄于1988年,加州理工学院档案与特藏馆)

霍普菲尔德在1960年代开始他的职业生涯,研究半导体的物理学。但到了60年代末期,他写道:

“在凝聚态物理中,我已找不到适合我特长的问题。”(引自他2018年的一篇随笔[1])

于是他开始寻找新的方向。一次短暂涉足生物化学的经历让他提出了一个关于生物体如何“校对”生化反应的理论[2],随后他将目光投向了神经科学。

“我在寻找一个problem(大问题),而不是一个普通的‘问题’,”他在随笔中回忆道,特别强调了找到真正重要议题的必要性。“对我而言,‘心智如何从大脑中涌现’是我们人类提出的最深刻的问题。这无疑是一个problem。”

霍普菲尔德意识到,联想记忆是这个大问题的一部分——而他从凝聚态物理中积累的工具正可以用来解决它。

在普通计算机中,数据是静态存储的,通过地址访问。这个地址与存储的信息本身无关,它只是一个访问代码。因此,一旦地址出错哪怕一点点,你就会读到错误的数据。但人类记忆似乎并不是这样的。我们常常通过联想来记住事情。一个线索、一段模糊的记忆就可能唤起整个记忆。比如你闻到紫丁香的香气,突然回想起爷爷花园里童年的一幕;又或是听到一首歌的前几句,突然发现自己能唱出整首你以为早已忘记的情歌。霍普菲尔德花费数年时间研究联想记忆,并将其转化为神经网络模型。他尝试了各种随机连接的神经网络和其他可能的记忆模型。一开始并不顺利,直到最终,他发现了解决这个problem的一个出人意料的关键。

自旋玻璃

20世纪50年代,科学家在研究某些稀释合金(如金中的铁)时发现了这些材料表现出一些奇怪的现象。在某个温度以上,这些合金(如铝)的行为类似于普通材料。它们本身不带磁性,但会对外部磁场有微弱响应。比如,使用非常强的磁铁可以移动一个铝罐,但铝本身并不能当作磁铁使用。通常,像铝这样的材料在外部磁场撤去后立即失去磁性。但当温度低于某一临界值时,自旋玻璃的行为就不同了——它们的瞬时磁化状态会在一定程度上保留下来(尽管值较低)。这只是自旋玻璃的怪异行为之一,它们的热学性质也同样令人困惑。

大约在1970年前后,凝聚态物理学家开始通过调整物理学中研究集体磁性行为的经典模型——伊辛模型(Ising model)——来建立对这些材料的理论理解。伊辛模型看起来就像一个由箭头组成的简单网格,每个箭头可以指向上或下。每个箭头代表一个原子的内在磁矩,或称“自旋”。这是一种对真实原子系统的简化描述,但通过调整邻近自旋之间相互影响的规则,这个模型却能产生出令人惊讶的复杂行为。

图4:在伊辛模型中,热量会使箭头(自旋)随机翻转,而磁性吸引力则使相邻的箭头趋于对齐。这种“竞争”描述了大量真实世界系统的特性(引用自《The Cartoon Picture of Magnets That Has Transformed Science》)。

一般来说,相邻箭头朝同一方向时能量较低,而方向相反则能量较高。如果自旋可以翻转,伊辛模型中的系统状态就会向能量更低的对齐状态演化,就像小球往低处滚一样。磁性材料如铁,最终会定格在一个简单的状态中,即所有自旋全部朝上或全部朝下。

1975年,物理学家大卫·舍林顿(David Sherrington)与斯科特·柯克帕特里克(Scott Kirkpatrick)通过修改自旋之间的交互规则,构建了一个可以捕捉自旋玻璃复杂行为的模型。他们让自旋对之间的交互强度随机变化,并允许每个自旋与系统中所有其他自旋发生作用,而不仅仅是与最近邻发生作用。这一变化导致了一个“崎岖”的能量状态景观,存在着多个能量高低起伏的“山峰”与“山谷”;取决于自旋玻璃最初处在哪个位置,它最终会“冻结”在某个独特的能量谷底(即平衡态)。这与铁磁体系统(如铁)大不相同,铁磁体最终会冻结在仅有的两种有序状态中(全上或全下),而非铁磁体系统的自旋则始终随机波动,不会稳定下来。在自旋玻璃中,随机性被冻结了

伊辛模型本质上是一个“玩具模型”,用它来预测真实材料的行为有点像用火柴人图来规划一场手术。但神奇的是,它往往确实奏效。如今,伊辛模型已成为统计力学中的主力工具。它的各种变体几乎出现在所有复杂集体现象研究的角落——包括因霍普菲尔德的工作而延伸出的记忆研究。

自旋记忆

从简单角度看,神经元之间的相互作用与伊辛模型中的磁自旋之间的行为有许多相似之处。首先,神经元常被建模为二元的开-关开关:要么发放信号,要么不发放。而自旋也有两个状态:向上或向下。此外,一个神经元的发放可以促使或抑制邻居神经元的发放。神经元之间这些可变的相互影响,就像自旋玻璃中可变的自旋间相互作用。瑞士洛桑联邦理工学院的物理学家兼计算机科学家Lenka Zdeborová说道:

“在数学上,人们可以把原本代表自旋或原子的那些东西替换掉,其他系统也可以用这套工具箱来描述。”

为了构建网络,霍普菲尔德从一个由人工神经元构成的网络开始,这些神经元可以是“开”(发放)或“关”(静息)状态。每个神经元都影响其他所有神经元的状态,并且这种影响是可以调节的。某一时刻,网络的状态由哪些神经元处于发放状态、哪些处于静息状态来定义。你可以用二进制方式来编码这种状态:发放的神经元用1表示,静息的神经元用0表示。把整个网络当前的状态写出来,就是一串比特。这种网络并不是在“存储”信息,它本身就是信息。

为了“教会”网络一个特定的模式,霍普菲尔德通过调整神经元之间的相互作用强度来“雕刻”其能量景观,从而让目标模式处于一个低能量的稳态中。在这种稳态下,网络停止演化,稳定地表现为一个模式。他找到了一个受神经科学经典法则“同步发放的神经元更容易建立连接”启发的规则:如果两个神经元在目标模式中都是发放状态(或都静息),就增强它们之间的连接;而如果状态不一致,则减弱连接。经过这样的训练,网络便能再次“回忆”起这个模式,只需在其能量景观中“顺坡滑行”到能量谷底即可;它会自然演化至这个模式所对应的平衡态。

正如理论物理学家Mézard所说:

“霍普菲尔德建立了这个联系,他说:‘看,如果我们能像调节自旋玻璃那样调节这些神经元之间的连接强度,也许我们就能把平衡点变成记忆。’”

Hopfield网络可以记住多个模式,每一个模式对应一个能量谷。网络会落入哪个谷,取决于它从哪一点开始演化。例如,在一个同时记有“猫”和“飞船”图像的网络中,如果初始状态大致像一只猫,那么它更可能滑入“猫谷”;反之,如果初始状态含有飞船的几何特征,网络会倾向于走向“飞船谷”。这使得Hopfield网络成为联想记忆的一种模型:给出一个不完整或被干扰的记忆,它会动态地恢复出完整模式。

旧模型,新思路

1983至1985年间,杰弗里·辛顿和同事在霍普菲尔德网络的基础上做了进一步拓展。他们引入了随机性,构建出一种新型神经网络——玻尔兹曼机(Boltzmann machine)。这种网络不再是“记住”具体模式,而是学习训练数据中的统计规律,并能生成符合这些规律的新数据——这是一种早期的生成式人工智能模型。到了21世纪初,辛顿使用简化版玻尔兹曼机解决了困扰深度神经网络训练的难题,从而推动了深度学习的发展。

到2012年,辛顿和其他先驱开发的深度神经网络开始在各领域取得突破性成果,令人无法忽视。“当时大家都意识到:这真的效果惊人,正在彻底改变整个科技行业,”Zdeborová说。如今,我们每天使用的生成式人工智能模型——如大型语言模型ChatGPT和图像生成模型Midjourney——本质上都基于深度神经网络,它们的成功可以追溯到1970年代那些不甘心让“自旋玻璃的怪异行为”被忽略的物理学家。

然而,Hopfield网络并不仅仅是AI发展的“旧桥梁”。随着新的想法出现,这种老模型正在获得新生。

2016年,霍普菲尔德与IBM研究院的德米特里·克罗托夫(Dmitry Krotov)发现,Hopfield网络不是一个模型,而是一大类模型的统称,它们具有不同的记忆存储能力[3]。2020年,胡贝特·拉姆绍尔(Hubert Ramsauer)的研究团队进一步指出,大多数现代AI模型采用的Transformer架构中的一个关键部分[4],实际上就是这个Hopfield网络家族的一员。

基于这一发现,克罗托夫和团队近期提出了一种新型深度学习架构,称为能量转换(Energy Transformer)[5]。传统AI架构通常依赖大量试错才能设计出来,而克罗托夫认为,能量转换可以通过对其能量景观进行有目的的设计,从而更系统性地构建AI模型,就像在建构一个更复杂的霍普菲尔德网络。

虽然Hopfield网络最初是为“记忆”而设计,但如今研究者正在探索其“创造”的潜力。比如,图像生成器Midjourney背后的扩散模型(diffusion model)灵感就来源于物理中的扩散过程。在训练时,研究人员会向图像数据(比如猫的图片)中添加噪声,再训练模型把噪声去除。这和Hopfield网络的功能非常相似——不同的是,扩散模型不是回到同一张猫图,而是从一个带噪的随机初始状态中消除“非猫”特征,从而生成一只新猫。

Krotov及其同事(包括Benjamin Hoover、Yuchen Liang和Bao Pham)指出,扩散模型实际上可以被理解为一种特殊类型的现代Hopfield网络[6]。这种理解方式还能用于预测这类网络的某些行为特征。他们的研究表明,向一个现代霍普菲尔德网络输入越来越多的数据,并不仅仅是让其记忆能力达到饱和。相反,模型的能量景观会变得极其崎岖,最终更可能“记住”一个虚构的记忆,而不是一个真实的记忆——此时,它就“变成”了一个扩散模型[7]。

对于物理学家来说,这种由数量的简单变化(例如训练数据的增加)引发质变的现象并不稀奇。正如凝聚态物理学家菲利普·安德森在1972年所说的那样:“多者异也(more is different)。”[8]在集体系统中,仅仅是扩大组成部分之间的网络规模,也可能带来出人意料的新行为。“神经网络之所以能运作,本身就是一种涌现特性。”Mézard说道。

无论是深度学习架构,还是人脑本身,其‘涌现性’既令人着迷,也充满谜团——我们尚未拥有普适的涌现理论。也许,正是统计物理学——这一最早用于理解集体现象的工具——不仅能帮助我们使用这些复杂的人工智能系统,也将是我们理解它们本质的关键。

参考文献:

[1]Hopfield,John.Now What?2018.

[2]Hopfield JJ.Kinetic proofreading:a new mechanism for reducing errors in biosynthetic processes requiring high specificity.Proc Natl Acad Sci U S A.1974 Oct;71(10):4135-9.doi:10.1073/pnas.71.10.4135.PMID:4530290;PMCID:PMC434344.

[3]Krotov,Dmitry,and John J.Hopfield.“Dense Associative Memory for Pattern Recognition.”ArXiv:1606.01164[Cond-Mat,Q-Bio,Stat],27 Sept.2016,arxiv.org/abs/1606.01164.

[4]Ramsauer,Hubert,et al.“Hopfield Networks Is All You Need.”ArXiv:2008.02217[Cs,Stat],28 Apr.2021,arxiv.org/abs/2008.02217.

[5]Hoover,Benjamin,et al.“Energy Transformer.”ArXiv.org,2023,arxiv.org/abs/2302.07253.

[6]Hoover,Benjamin,et al.“Memory in Plain Sight:Surveying the Uncanny Resemblances of Associative Memories and Diffusion Models.”ArXiv.org,2023,arxiv.org/abs/2309.16750.Accessed 20 May 2025.

[7]Pham,Bao,et al.“Memorization to Generalization:The Emergence of Diffusion Models from Associative Memory.”OpenReview,2024,openreview.net/forum?id=zVMMaVy2BY.Accessed 20 May 2025.

[8]Anderson,P.W.“More Is Different.”Science,vol.177,no.4047,4 Aug.1972,pp.393–396,