近两天大致研究了 Rich Sutton 在强化学习领域的哲学思考和近期的研究成果,发现了Sutton教授在 DAI 2024上的演讲, 从演讲题目来看,颇有Web3的风格: Decentralized Neural Networks1.
这篇介绍分两个部分,第一部分转述一下Sutton在这个Keynote中想要表达的思想,第二部分尝试将这个方向和区块链进行一些结合.
Sutton 眼中的"Decentralized Neural Networks" Link to heading
总体思想:从“大脑比喻”走向“神经元自治” Link to heading
1. 对当前大模型的系统性批评
Sutton 开篇就明确提出:当前的深度学习和人工神经网络存在致命问题,包括:
- 灾难性遗忘(Catastrophic forgetting)
- 丧失可塑性(Plasticity collapse)
- 在持续任务中性能退化(e.g. continual RL)
这与他一贯的观点一致:现代深度学习过于集中式、静态化、不适应现实世界的变化,而这正是他呼吁“持续学习”“互动学习”的背景。
2. 核心主张:神经元也是代理体,每个都有目标
他在演讲中首次系统性提出了“去中心化神经网络(Decentralized Neural Networks, DNNs)”的定义:
神经元不仅仅是被动计算单元,而是具有目标的主动体,它们的目标可以是:
- 使其他神经元“愿意听我说话”
- 至少有 10% 的时间是活跃的
这从根本上挑战了目前神经网络中“被动单元+集中优化目标”的主流范式,将微观自治引入神经网络的每一个组成部分。
这也延续了 Sutton 之前关于“智能是由一组目标驱动的学习系统组成的”观点(参考他和 Silver 等人的《Reward is Enough》2论文),但进一步细化到网络内部结构的每个神经元。
技术细节与实验分析 Link to heading
1. 问题证据:深度网络在长期学习中“僵化”
- 在 Continual ImageNet 实验中,Backpropagation 在任务持续进行时,准确率显著下降(从89% → 低于线性模型);
- 在 MuJoCo Ant Locomotion with Friction 中,PPO 和其他强化学习算法也表现出类似退化(reward下降、表示秩下降、失活神经元增加);
这些实验 直接验证了 Sutton 对“深度模型缺乏自我更新能力”的担忧。
尤其重要的是,这些问题不仅出现在监督学习中,也出现在强化学习中,验证了“当前的预训练+微调机制在持续交互任务下失效”。
2. 解决思路:通过“去中心化目标”增强网络生命力
Sutton 提出四层级别的去中心化适应机制:
层级 | 对应操作 |
---|---|
1. 连接结构 | 神经元主动选择连接谁 |
2. 权重更新 | 有效连接增强 |
3. 步长调整 | 学习率个性化调节,防止灾难性遗忘 |
4. 神经元生死循环 | “fringe”神经元不断尝试发声、获得主网络认可 |
特别值得注意的是“骨干-边缘结构”概念:
- Backbone(骨干):当前已经有效的子网络,应保护。
- Fringe(边缘):新进神经元,应探索、求关注,努力被主网采纳。
这一设想某种程度上模拟了生物神经系统的生长机制(e.g.神经突触可塑性,微观神经连接重塑)。
Sutton指出:“大多数神经元在训练中被永远丢弃了。如果它们有自我意识(去中心化目标),它们就不会允许自己永远沉默。”
与大模型范式的关系与差异 Link to heading
维度 | 当前主流大模型(LLM | Sutton 的去中心化神经网络 |
---|---|---|
架构设计 | 统一大参数空间,全局优化 | 局部目标导向,神经元自治进化 |
学习方式 | 预训练 + 微调(离线) | 持续学习 + 试错(在线) |
表现机制 | 参数冻结、少量适配 | 动态结构生长、替换 |
单元角色 | 神经元是被动映射单元 | 神经元是“个体代理” |
模型更新 | Batch 更新,依赖Replay | Streaming在线学习(参见 Elsayed et al.) |
也就是说, Sutton 正在构建一个根本不同于当前 Transformer + RLHF 范式的智能体架构。相比依赖固定的超大模型,他更关注模型在时间维度上的演化能力和结构可塑性。
🔗 个人猜测 Link to heading
- 与阿尔伯塔计划的理念呼应
Sutton 在阿尔伯塔计划提出的“构建具备世界模型与目标系统的代理体”在此得到了架构化表达:去中心化神经网络的“每个神经元都有目标”就是最底层的代理机制。
- 与Keen Technologies的产品方向一致
作为 Keen Technologies 的研究科学家,Sutton 此演讲很可能代表他们未来的技术方向。小型灵活、动态成长的去中心化架构,可能是其差异化突破OpenAI/DeepMind路线的核心战略。
🧠 全新范式(下一代AI网络), G-DNNs: Governable Decentralized Neural Networks Link to heading
基于此,结合 Sutton 的《Decentralized Neural Networks》和 InitialS-AI 的去中心化 AI 治理框架, 我们提出一个全新范式,称为:
G-DNNs: Governable Decentralized Neural Networks 一个“可审计的、自我演化的、自治 AI 网络” Link to heading
这个系统结合了 Sutton 的 DNNs + InitialS 的链上 AI 审查机制,核心构想如下:
Sutton 的 DNNs | InitialS-AI 模型审查系统 | 融合创新 |
---|---|---|
神经元是"有目标"的自主体 | AI 模型需"审计评分、增强修复" | 每个神经元都有 评分机制+治理接口 |
网络由骨干和边缘组成,动态生长 | 模型版本、权重需要审计和报告 | 边缘神经元必须通过链上 KYA 审查才能晋升骨干 |
神经元通过被"听见"来争取存活 | 节点通过"高质量输出"获得奖励 | 每个神经元的"存活权"由链上"验证者"或"投票"决定 |
没有一个固定全局目标 | InitialS 引入多维质量标准(安全、偏见、鲁棒性) | 神经元需在多维"AI治理坐标系"中适应存活 |
学习是持续的、在线的 | 模型审查也是持续的、任务驱动的 | 审查结果 |
1. 与区块链的映射关系:去中心化神经元 ↔ 去中心化节点 Link to heading
DNNs 概念 | 区块链映射 |
---|---|
神经元(agent) | 链上计算节点 / AI agent |
神经元目标 | 智能体策略 / 任务收益函数 |
神经元之间的连接 | agent之间的消息传递/调用 |
骨干神经元 | 核心共识节点 / 模型主干 |
边缘神经元 | 可替换worker节点 / 模型外设 |
2.融入 InitialS 的审查流程(KYA)到神经元生命周期中 Link to heading
新神经元生成流程(与“fringe”概念对应):
用户/agent 向系统注册一个新的神经元(模型碎片)
系统分配测试任务(图像分类、语言生成等)
其输出被多个审查节点评估(参考 InitialS 的 Audit Layer)
审查结果生成: * 安全等级(Toxicity、Privacy) * 质量等级(Accuracy、Novelty、Bias) * 表现评分(Reward-to-Stake)
合格的神经元可被纳入“Backbone”,或获得任务调用资格。
3.治理机制设计建议 Link to heading
模块 | 设计思路 |
---|---|
KYA(Know Your AI)审查 | 每个神经元上传时触发审查任务,参考 InitialS 框架中 domain-specific task 分发和众包节点评分 |
骨干-边缘动态结构 | 骨干神经元需维持一定活跃度 + 审查分数,高分边缘神经元可申请替换骨干神经元,触发投票/质押决议 |
“被听见即生存"激励机制 | 被调用/激活越多 → 贡献值越高 → 得分越高 → 奖励越多 |
惩罚机制 | 审查分数连续下降的神经元将逐步退化为"沉默神经元”,可被淘汰或替换 |
多维审查标准 | 安全(toxic output)、公平性(bias)、鲁棒性(OOD)、幻觉率(hallucination)等指标由不同节点负责评分 |
链上存证+透明演化路径 | 每个神经元的训练历史、审查记录、调用次数、权重变化都可链上追溯,保障模型进化路径可解释、可信、可问责 |
4.可落地开发建议(MVP) Link to heading
技术组件可用:
目标功能 | 技术建议 |
---|---|
去中心化神经元部署 | 每个模块为一个 agent,可用 Agentic LLM (如 LangChain, ReAct) 实现 |
审查任务分发机制 | 初期用链下协调 + 链上结果提交,后期可拓展为链上任务合约 |
模型评分与结构演化 | 可用图数据库表示神经网络结构,结合 Graph NFT 概念 |
KYA + 奖励分配 | 使用 InitialS 的 KYA 节点网络 + 质押 & slashing + listen-to-earn |
✨ 最后总结一句话: Link to heading
把 Sutton 的神经元想象力 + InitialS 的审查体系结合起来,就诞生了一个“可审计的、自我演化的、自治 AI 网络”—— 个人认为这是比 GPT 更长远的 AI 基础设施方向。