近两天大致研究了 Rich Sutton 在强化学习领域的哲学思考和近期的研究成果,发现了Sutton教授在 DAI 2024上的演讲, 从演讲题目来看,颇有Web3的风格: Decentralized Neural Networks1.

这篇介绍分两个部分,第一部分转述一下Sutton在这个Keynote中想要表达的思想,第二部分尝试将这个方向和区块链进行一些结合.

Sutton 眼中的"Decentralized Neural Networks" Link to heading

总体思想:从“大脑比喻”走向“神经元自治” Link to heading

1. 对当前大模型的系统性批评

Sutton 开篇就明确提出:当前的深度学习和人工神经网络存在致命问题,包括:

  • 灾难性遗忘(Catastrophic forgetting)
  • 丧失可塑性(Plasticity collapse)
  • 在持续任务中性能退化(e.g. continual RL)

这与他一贯的观点一致:现代深度学习过于集中式、静态化、不适应现实世界的变化,而这正是他呼吁“持续学习”“互动学习”的背景。

2. 核心主张:神经元也是代理体,每个都有目标

他在演讲中首次系统性提出了“去中心化神经网络(Decentralized Neural Networks, DNNs)”的定义:

神经元不仅仅是被动计算单元,而是具有目标的主动体,它们的目标可以是:

  • 使其他神经元“愿意听我说话”
  • 至少有 10% 的时间是活跃的

这从根本上挑战了目前神经网络中“被动单元+集中优化目标”的主流范式,将微观自治引入神经网络的每一个组成部分。

这也延续了 Sutton 之前关于“智能是由一组目标驱动的学习系统组成的”观点(参考他和 Silver 等人的《Reward is Enough》2论文),但进一步细化到网络内部结构的每个神经元。


技术细节与实验分析 Link to heading

1. 问题证据:深度网络在长期学习中“僵化”

  • 在 Continual ImageNet 实验中,Backpropagation 在任务持续进行时,准确率显著下降(从89% → 低于线性模型);
  • 在 MuJoCo Ant Locomotion with Friction 中,PPO 和其他强化学习算法也表现出类似退化(reward下降、表示秩下降、失活神经元增加);

这些实验 直接验证了 Sutton 对“深度模型缺乏自我更新能力”的担忧。

尤其重要的是,这些问题不仅出现在监督学习中,也出现在强化学习中,验证了“当前的预训练+微调机制在持续交互任务下失效”。

2. 解决思路:通过“去中心化目标”增强网络生命力

Sutton 提出四层级别的去中心化适应机制:

层级对应操作
1. 连接结构神经元主动选择连接谁
2. 权重更新有效连接增强
3. 步长调整学习率个性化调节,防止灾难性遗忘
4. 神经元生死循环“fringe”神经元不断尝试发声、获得主网络认可

特别值得注意的是“骨干-边缘结构”概念:

  • Backbone(骨干):当前已经有效的子网络,应保护。
  • Fringe(边缘):新进神经元,应探索、求关注,努力被主网采纳。

这一设想某种程度上模拟了生物神经系统的生长机制(e.g.神经突触可塑性,微观神经连接重塑)。

Sutton指出:“大多数神经元在训练中被永远丢弃了。如果它们有自我意识(去中心化目标),它们就不会允许自己永远沉默。”


与大模型范式的关系与差异 Link to heading

维度当前主流大模型(LLMSutton 的去中心化神经网络
架构设计统一大参数空间,全局优化局部目标导向,神经元自治进化
学习方式预训练 + 微调(离线)持续学习 + 试错(在线)
表现机制参数冻结、少量适配动态结构生长、替换
单元角色神经元是被动映射单元神经元是“个体代理”
模型更新Batch 更新,依赖ReplayStreaming在线学习(参见 Elsayed et al.)

也就是说, Sutton 正在构建一个根本不同于当前 Transformer + RLHF 范式的智能体架构。相比依赖固定的超大模型,他更关注模型在时间维度上的演化能力和结构可塑性。


🔗 个人猜测 Link to heading

  1. 与阿尔伯塔计划的理念呼应

Sutton 在阿尔伯塔计划提出的“构建具备世界模型与目标系统的代理体”在此得到了架构化表达:去中心化神经网络的“每个神经元都有目标”就是最底层的代理机制。

  1. 与Keen Technologies的产品方向一致

作为 Keen Technologies 的研究科学家,Sutton 此演讲很可能代表他们未来的技术方向。小型灵活、动态成长的去中心化架构,可能是其差异化突破OpenAI/DeepMind路线的核心战略。


🧠 全新范式(下一代AI网络), G-DNNs: Governable Decentralized Neural Networks Link to heading

基于此,结合 Sutton 的《Decentralized Neural Networks》和 InitialS-AI 的去中心化 AI 治理框架, 我们提出一个全新范式,称为:

G-DNNs: Governable Decentralized Neural Networks 一个“可审计的、自我演化的、自治 AI 网络” Link to heading

这个系统结合了 Sutton 的 DNNs + InitialS 的链上 AI 审查机制,核心构想如下:

Sutton 的 DNNsInitialS-AI 模型审查系统融合创新
神经元是"有目标"的自主体AI 模型需"审计评分、增强修复"每个神经元都有 评分机制+治理接口
网络由骨干和边缘组成,动态生长模型版本、权重需要审计和报告边缘神经元必须通过链上 KYA 审查才能晋升骨干
神经元通过被"听见"来争取存活节点通过"高质量输出"获得奖励每个神经元的"存活权"由链上"验证者"或"投票"决定
没有一个固定全局目标InitialS 引入多维质量标准(安全、偏见、鲁棒性)神经元需在多维"AI治理坐标系"中适应存活
学习是持续的、在线的模型审查也是持续的、任务驱动的审查结果

1. 与区块链的映射关系:去中心化神经元 ↔ 去中心化节点 Link to heading

DNNs 概念区块链映射
神经元(agent)链上计算节点 / AI agent
神经元目标智能体策略 / 任务收益函数
神经元之间的连接agent之间的消息传递/调用
骨干神经元核心共识节点 / 模型主干
边缘神经元可替换worker节点 / 模型外设

2.融入 InitialS 的审查流程(KYA)到神经元生命周期中 Link to heading

新神经元生成流程(与“fringe”概念对应):

  1. 用户/agent 向系统注册一个新的神经元(模型碎片)

  2. 系统分配测试任务(图像分类、语言生成等)

  3. 其输出被多个审查节点评估(参考 InitialS 的 Audit Layer)

  4. 审查结果生成: * 安全等级(Toxicity、Privacy) * 质量等级(Accuracy、Novelty、Bias) * 表现评分(Reward-to-Stake)

合格的神经元可被纳入“Backbone”,或获得任务调用资格。


3.治理机制设计建议 Link to heading

模块设计思路
KYA(Know Your AI)审查每个神经元上传时触发审查任务,参考 InitialS 框架中 domain-specific task 分发和众包节点评分
骨干-边缘动态结构骨干神经元需维持一定活跃度 + 审查分数,高分边缘神经元可申请替换骨干神经元,触发投票/质押决议
“被听见即生存"激励机制被调用/激活越多 → 贡献值越高 → 得分越高 → 奖励越多
惩罚机制审查分数连续下降的神经元将逐步退化为"沉默神经元”,可被淘汰或替换
多维审查标准安全(toxic output)、公平性(bias)、鲁棒性(OOD)、幻觉率(hallucination)等指标由不同节点负责评分
链上存证+透明演化路径每个神经元的训练历史、审查记录、调用次数、权重变化都可链上追溯,保障模型进化路径可解释、可信、可问责

4.可落地开发建议(MVP) Link to heading

技术组件可用:

目标功能技术建议
去中心化神经元部署每个模块为一个 agent,可用 Agentic LLM (如 LangChain, ReAct) 实现
审查任务分发机制初期用链下协调 + 链上结果提交,后期可拓展为链上任务合约
模型评分与结构演化可用图数据库表示神经网络结构,结合 Graph NFT 概念
KYA + 奖励分配使用 InitialS 的 KYA 节点网络 + 质押 & slashing + listen-to-earn

✨ 最后总结一句话: Link to heading

把 Sutton 的神经元想象力 + InitialS 的审查体系结合起来,就诞生了一个“可审计的、自我演化的、自治 AI 网络”—— 个人认为这是比 GPT 更长远的 AI 基础设施方向。

参考文献 Link to heading