第一章:概述

1.1发布背景与团队介绍

2026 年 5 月 13 日,核工业西南物理研究院在成都召开新闻发布会,正式发布了全球首个聚变领域预训练模型 ——"曦元(FusionMAE)"。

核工业西南物理研究院成立于 1965 年,是中国最早从事核聚变研究的专业机构之一,也是中国磁约束核聚变研究的核心力量。西物院拥有中国环流一号、中国环流二号、中国环流三号等多代托卡马克装置,在等离子体物理、聚变工程技术、聚变材料等方面积累了丰富的经验,取得了一系列重大科研成果。

曦元(FusionMAE)模型的研发团队由西物院牵头,联合清华大学、南开大学、浙江大学等国内知名高校共同组建。团队负责人为西物院的杨宗谕研究员和钟武律研究员,通讯作者为清华大学的高喆教授和西物院的钟武律研究员。

杨宗谕研究员长期从事磁约束核聚变装置智能化控制运行技术研究,在 AI 与核聚变交叉领域有着深厚的造诣。他曾在第 4 届全国核物理及核数据中的机器学习应用研讨会上作了题为 "磁约束核聚变装置智能化控制运行技术研究" 的报告,系统介绍了西物院在该领域的研究进展。

钟武律研究员是西物院聚变科学所所长,主要从事等离子体物理与聚变工程研究,是中国核聚变领域的学术带头人之一。

高喆教授是清华大学工程物理系的教授,长期从事等离子体物理与受控核聚变研究,在磁约束等离子体的平衡、稳定性与输运等方面取得了重要成果。

研发团队汇聚了来自核聚变、计算机科学、数学、物理等多个学科的优秀人才,形成了一支跨学科、高水平的研究队伍。团队成员平均年龄不到 35 岁,具有很强的创新能力和拼搏精神。

曦元(FusionMAE)模型的研发工作得到了中核集团研发平台的稳定支持,同时也得到了国家自然科学基金、科技部重点研发计划等多个国家级项目的资助。

1.2技术定位与核心价值

曦元(FusionMAE)模型是一款针对磁约束核聚变领域的自监督预训练模型,其技术定位是聚变领域的 "基座模型"。

与以往针对特定任务开发的 AI 模型不同,曦元(FusionMAE)模型不是为了解决某一个具体问题而设计的,而是通过在海量聚变实验数据上进行预训练,学习等离子体的基本物理规律,生成能够统一表征等离子体状态的嵌入向量。这个嵌入向量可以作为通用接口,支撑各种下游任务的应用,如缺失诊断数据补全、二级数据自动分析、相似实验现象检索、下游 AI4Fusion 模块性能提升等。

曦元(FusionMAE)模型的核心价值主要体现在以下几个方面:

  1. 解决诊断数据缺失问题:等离子体诊断数据缺失是长期困扰核聚变研究的一个难题,尤其在超高温、强中子辐照的聚变堆环境中更为严峻。诊断数据缺失不仅会影响科学研究的准确性,还会威胁装置的安全稳定运行。曦元(FusionMAE)模型利用等离子体各物理参数间的耦合关系,能够对失效和缺失数据进行智能补全,为未来聚变堆提出了一种 "虚拟备用诊断" 的技术方案。

  2. 降低聚变装置的工程复杂度:未来的聚变反应堆将集成数十甚至上百套诊断系统和控制执行器,系统之间的接口复杂,维护成本高昂。曦元(FusionMAE)模型将多源异构的诊断数据压缩成一个统一的等离子体状态向量,为诊断系统和控制执行器之间提供了一个通用的接口,能够显著简化系统架构,减少诊断冗余,降低工程复杂度和维护成本。

  3. 提升下游任务的性能:曦元(FusionMAE)模型生成的等离子体状态向量包含了丰富的物理信息,能够为下游任务提供高质量的输入。实验结果表明,使用该向量作为输入,比直接使用原始数据在破裂预测、平衡反演、等离子体演化预测等多个下游任务上都取得了更好的性能。

  4. 加速聚变研究进程:曦元(FusionMAE)模型能够自动分析实验数据,快速检索相似实验现象,帮助科研人员识别关键物理模式,优化实验参数设置,预测潜在异常事件,从而大幅缩短研究周期,提高实验成功率。

  5. 推动 "AI + 聚变" 范式转型:曦元(FusionMAE)模型的出现标志着 AI 在核聚变领域的应用从 "任务特定模型" 向 "通用基座模型" 的转变,推动了聚变研发范式从 "基于第一性原理的数值模拟方法" 向 "数据驱动的智能化发现方法" 的转型。

1.3主要功能与性能指标

曦元(FusionMAE)模型具有以下主要功能:

  1. 缺失诊断数据自动补全:这是曦元(FusionMAE)模型最核心的功能。模型能够利用等离子体各物理参数间的耦合关系,对失效和缺失的诊断数据进行智能补全。测试显示,模型在单通道缺失时的补全准确率达到 97.2%,整个诊断阵列缺失时的补全准确率达到 94.5%。

  2. 二级数据自动分析:在核聚变实验中,很多重要的物理参数(如平衡位形、不稳定性幅值等)不能直接测量,需要通过复杂的计算从原始诊断数据中推导出来,这个过程通常需要人工参与,耗时费力。曦元(FusionMAE)模型将这些二级数据视为 "缺失诊断",由模型进行自动补全,从而替代人工分析过程,大大提高了数据分析的效率。

  3. 相似实验现象检索:核聚变实验会产生海量的数据,科研人员在分析实验结果时,经常需要查找历史上相似的实验现象进行对比分析。传统的检索方法效率低下,难以满足需求。曦元(FusionMAE)模型生成的等离子体状态向量会自发将物理性质接近的等离子体投影至高维空间中的近邻点,从而能够快速检索相似实验现象,帮助科研人员快速找到相关的历史实验数据。

  4. 下游 AI4Fusion 模块性能提升:曦元(FusionMAE)模型生成的统一等离子体状态向量可以作为各种下游 AI4Fusion 模块的通用输入,显著提升这些模块的性能。实验结果表明,在破裂预测任务上,使用该向量作为输入比使用原始数据准确率提高了 3.2%;在平衡反演任务上,计算速度提高了 10 倍以上,同时精度也有所提升;在等离子体演化预测任务上,预测时间提前了 50 毫秒。

  5. 虚拟备用诊断:曦元(FusionMAE)模型可以作为现有诊断系统的虚拟备份。当某些诊断系统出现故障时,模型可以实时推断出这些诊断系统应该测量到的数据,从而保证装置的连续运行。这对于未来聚变堆的 7×24 小时连续运行具有重要意义。

曦元(FusionMAE)模型的主要性能指标如下:

性能指标

数值

输入诊断信号数量

88 个(来自 12 套核心诊断系统)

采样频率

1kHz

时间窗口

10ms

等离子体状态向量维度

256 维

压缩- 重建平均相似度

98.60%

单通道缺失补全准确率

97.20%

整个诊断阵列缺失补全准确率

94.50%

破裂预测准确率提升

3.20%

平衡反演速度提升

10 倍以上

等离子体演化预测提前时间

50 毫秒

1.4与国内外同类模型的对比分析

目前,全球范围内有多个研究团队在开展 AI 在核聚变领域的应用研究,开发了一系列相关的 AI 模型。下面将曦元(FusionMAE)模型与国内外几个有代表性的同类模型进行对比分析。

1.4.1与DeepMind等离子体控制模型的对比

2022 年,DeepMind 与瑞士等离子体中心合作开发了一个基于深度强化学习的等离子体控制模型,成功实现了对托卡马克装置中等离子体的实时控制。

该模型的主要特点是使用强化学习算法,在仿真环境中训练 AI 控制器,然后将其部署到真实的托卡马克装置上。模型能够精确控制等离子体的位置、形状和电流,并且可以实现多种不同的等离子体配置。

与 DeepMind 的模型相比,曦元(FusionMAE)模型具有以下不同之处:

  1. 技术路线不同:DeepMind 的模型是基于强化学习的控制模型,主要解决等离子体的实时控制问题;而曦元(FusionMAE)模型是基于自监督学习的预训练模型,主要解决多源异构数据的统一表征问题,为各种下游任务提供通用接口。

  2. 通用性不同:DeepMind 的模型是针对特定托卡马克装置和特定控制任务设计的,泛化能力有限;而曦元(FusionMAE)模型是一个通用的基座模型,能够支撑多种不同的下游任务,并且已经在不同类型的托卡马克装置上验证了其跨装置通用性。

  3. 数据利用效率不同:DeepMind 的模型需要大量的仿真数据和实验数据进行训练;而曦元(FusionMAE)模型采用自监督学习的方式,能够更高效地利用无标注数据,减少对标注数据的依赖。

1.4.2与普林斯顿大学等离子体撕裂预测模型的对比

2024 年,普林斯顿大学的研究团队开发了一个基于深度学习的等离子体撕裂模不稳定性预测模型,能够提前 300 毫秒预测撕裂模的发生。

该模型使用了卷积神经网络和长短期记忆网络(LSTM)相结合的架构,能够从大量的历史实验数据中学习撕裂模的特征,实现高精度的预测。

与普林斯顿大学的模型相比,曦元(FusionMAE)模型具有以下不同之处:

  1. 功能定位不同:普林斯顿大学的模型是一个专门用于预测等离子体撕裂模不稳定性的任务特定模型;而曦元(FusionMAE)模型是一个通用的基座模型,撕裂预测只是其众多下游应用之一。

  2. 输入数据不同:普林斯顿大学的模型主要使用磁探针和软 X 射线等少数几种诊断数据;而曦元(FusionMAE)模型使用了来自 12 套核心诊断系统的 88 个信号,能够更全面地表征等离子体的状态。

  3. 应用范围不同:普林斯顿大学的模型只能用于撕裂模预测这一个任务;而曦元(FusionMAE)模型除了可以用于破裂预测外,还可以用于数据补全、数据分析、相似实验检索等多个任务。

1.4.3与科大讯飞PaMMA-Net模型的对比

2025 年,科大讯飞联合中国科学技术大学、中国科学院等离子体物理研究所等单位,开发了核聚变评测大模型 PaMMA-Net。

PaMMA-Net 是一个基于深度神经网络的等离子体磁量化演化模型,能够快速高精度地预测等离子体的演化过程。该模型在推理速度、演化精度、非线性耦合性方面都显著提升,弥补了传统基于物理演化模型的不足。

与 PaMMA-Net 模型相比,曦元(FusionMAE)模型具有以下不同之处:

  1. 技术路线不同:PaMMA-Net 是一个专门用于等离子体演化预测的模型;而曦元(FusionMAE)是一个通用的预训练模型,等离子体演化预测只是其下游应用之一。

  2. 架构设计不同:PaMMA-Net 采用了专门针对等离子体演化问题设计的神经网络架构;而曦元(FusionMAE)采用了通用的 Transformer 编码器 - 解码器架构,通过掩码自编码器机制进行预训练。

  3. 应用模式不同:PaMMA-Net 是一个独立的模型,直接输入原始数据输出演化预测结果;而曦元(FusionMAE)是一个基座模型,它生成的等离子体状态向量可以作为 PaMMA-Net 等下游模型的输入,进一步提升这些模型的性能。

1.4.4对比总结

通过以上对比可以看出,曦元(FusionMAE)模型与国内外同类模型相比,具有以下几个显著的优势:

  1. 首创性:曦元(FusionMAE)是全球首个专门针对聚变领域的预训练大模型,开创了将大模型技术应用于磁约束核聚变领域的全新技术范式。

  2. 通用性:与其他任务特定模型不同,曦元(FusionMAE)是一个通用的基座模型,能够支撑多种不同的下游任务,具有更广泛的应用前景。

  3. 跨装置通用性:曦元(FusionMAE)模型不仅在中国环流三号托卡马克装置上取得了优异的性能,还在球形托卡马克 SUNIST-2 上验证了其跨装置通用性,这是其他模型所不具备的。

  4. 系统级优化:曦元(FusionMAE)模型从系统层面出发,通过统一表征的方式简化了聚变装置的系统架构,降低了工程复杂度,这是其他只关注单个任务的模型所无法比拟的。

当然,曦元(FusionMAE)模型也存在一些不足之处,例如模型的可解释性还有待提高,在极端工况下的可靠性还需要进一步验证等。但总体来说,曦元(FusionMAE)模型代表了当前 "AI + 聚变" 领域的最高水平,具有重要的科学意义和应用价值。

第二章:具体实现方式

2.1数据准备与预处理

数据是 AI 模型的基础,对于聚变领域的 AI 模型来说更是如此。核聚变实验会产生海量的多源异构数据,这些数据的质量和数量直接影响着模型的性能。

2.1.1中国环流三号(HL-3)装置与数据来源

曦元(FusionMAE)模型的训练数据主要来自于中国环流三号(HL-3)托卡马克装置。

中国环流三号是西物院于 2020 年建成的新一代托卡马克装置,是中国目前最大的托卡马克装置,也是世界上最先进的托卡马克装置之一。HL-3 装置的主要参数如下:

  • 大半径:1.78 米

  • 小半径:0.65 米

  • 等离子体电流:3 兆安

  • 中心磁场:3.5 特斯拉

  • 辅助加热功率:30 兆瓦

HL-3 装置配备了完善的诊断系统,能够全面测量等离子体的各种物理参数。这些诊断系统包括:磁诊断系统、激光诊断系统、微波诊断系统、光谱诊断系统、粒子诊断系统等。

截至 2025 年底,HL-3 装置已经进行了超过 10 万次等离子体放电实验,积累了超过 10PB 的实验数据。这些数据为曦元(FusionMAE)模型的训练提供了丰富的数据资源。

2.1.2 88个诊断信号的选择与意义

曦元(FusionMAE)模型从 HL-3 装置的众多诊断信号中,精心选择了 88 个最具代表性的信号作为模型的输入。这些信号来自 12 套核心诊断系统,涵盖了等离子体的主要物理参数,包括:

  1. 等离子体电流(Ip):反映等离子体的整体强度,是托卡马克装置最重要的参数之一。

  2. 等离子体形状和位置参数:包括大半径(R)、小半径(a)、拉长比(κ)、三角形变(δu、δl)等,反映等离子体的几何形状和在真空室中的位置。

  3. 环向磁场(Bt):约束等离子体的主要磁场之一。

  4. 极向磁场(Bp):由等离子体电流产生的磁场,与环向磁场共同构成螺旋形的约束磁场。

  5. 环电压(Vloop):反映等离子体的电阻和能量损失情况。

  6. 电子密度(ne):等离子体中电子的数密度,是影响聚变反应率的重要参数。

  7. 电子温度(Te):等离子体中电子的温度,是衡量等离子体能量的重要指标。

  8. 等离子体储能(We):等离子体中储存的总能量。

  9. 辐射功率(Prad):等离子体通过辐射损失的能量。

  10. 软 X 射线辐射(SX):反映等离子体核心区域的温度和密度分布。

  11. 杂质辐射(Aimp):反映等离子体中杂质的含量和分布。

  12. D-α 光谱(Dα):反映等离子体边界的粒子回收情况。

  13. 磁流体动力学不稳定性模式幅值(AMHD,1、AMHD,2):反映等离子体中各种不稳定性的强度。

  14. 归一化β(βN):等离子体压力与磁压力之比,是衡量等离子体约束性能的重要参数。

  15. 安全因子(q95):反映磁场线的扭转程度,是影响等离子体稳定性的重要参数。

  16. 内感(li):反映等离子体电流分布的参数。

  17. 极向场线圈电流(IPF):控制等离子体形状和位置的线圈电流。

  18. 辅助加热功率:包括中性束注入功率(PNBI)、电子回旋加热功率(PEC)、低杂波加热功率(PLH)等。

这些信号涵盖了等离子体的宏观参数、微观参数、电磁参数、热参数等多个方面,能够全面、准确地表征等离子体的状态。

2.1.3数据清洗与标准化处理

原始的聚变实验数据中存在着大量的噪声、异常值和缺失值,这些都会影响模型的训练效果。因此,在将数据输入模型之前,需要进行严格的数据清洗和标准化处理。

数据清洗的主要步骤包括:

  1. 异常值检测与处理:使用统计方法(如 3σ 原则)和机器学习方法(如孤立森林)检测数据中的异常值,并根据情况进行删除、插值或修正。

  2. 缺失值处理:对于少量的缺失值,使用线性插值、样条插值等方法进行填充;对于大量的缺失值,则直接丢弃该段数据。

  3. 噪声去除:使用滑动平均、小波变换等方法去除数据中的高频噪声。

  4. 数据对齐:由于不同诊断系统的采样频率和时间延迟不同,需要将所有信号在时间上进行精确对齐。

数据标准化的主要目的是将不同量纲、不同数量级的信号转换为统一的尺度,避免某些信号因为数值过大而在模型训练中占据主导地位。曦元(FusionMAE)模型采用了 Z-score 标准化方法,将每个信号转换为均值为 0、标准差为 1 的标准正态分布:

x′=σx−μ

其中,x是原始数据,μ是该信号的均值,σ是该信号的标准差。

经过数据清洗和标准化处理后,最终得到了约 5000 小时的高质量连续实验数据,用于曦元(FusionMAE)模型的预训练。

2.2模型架构设计

曦元(FusionMAE)模型采用了基于 Transformer 的编码器 - 解码器架构,借鉴了自然语言处理领域中掩码自编码器(MAE)的设计思想。

2.2.1基于Transformer的编码器-解码器结构

Transformer 是 2017 年由 Google 提出的一种基于自注意力机制的神经网络架构,它在自然语言处理领域取得了巨大的成功,成为了大语言模型的基础架构。

Transformer 架构具有以下几个优点:

  1. 并行计算能力强:与循环神经网络(RNN)不同,Transformer 可以同时处理输入序列中的所有位置,大大提高了训练和推理的速度。

  2. 长距离依赖建模能力强:自注意力机制能够直接建立输入序列中任意两个位置之间的联系,有效解决了长距离依赖问题。

  3. 可扩展性好:Transformer 的性能可以通过增加模型的层数、注意力头数和隐藏层维度来不断提升。

曦元(FusionMAE)模型的整体架构如图 2b 所示。它由一个编码器和一个解码器组成:

  • 编码器:负责将输入的多源异构诊断数据压缩成一个统一的等离子体状态嵌入向量。

  • 解码器:负责从等离子体状态嵌入向量中重建原始的诊断数据。

2.2.2掩码自编码器(MAE)机制

掩码自编码器(MAE)是 2021 年由 Facebook AI 研究院提出的一种自监督学习方法,它通过随机掩码输入图像的一部分,然后训练模型来重建被掩码的部分,从而学习图像的特征表示。

MAE 具有以下几个优点:

  1. 数据效率高:不需要标注数据,只需要大量的无标注数据就可以进行训练。

  2. 学习到的特征表示质量高:为了准确重建被掩码的部分,模型必须学习到数据的内在结构和规律。

  3. 泛化能力强:预训练得到的模型可以很好地迁移到各种下游任务中。

曦元(FusionMAE)模型将 MAE 的思想应用到了聚变领域。在预训练过程中,模型随机掩码输入的 25% 的诊断通道,然后训练模型来重建这些被掩码的通道。通过这种方式,模型被迫学习等离子体各物理参数之间的内在耦合关系,从而生成有意义的等离子体状态嵌入向量。

2.2.3等离子体状态嵌入(Plasma Status Embedding)的生成

等离子体状态嵌入是曦元(FusionMAE)模型的核心输出,它是一个 256 维的向量,能够统一表征等离子体的物理状态。

等离子体状态嵌入的生成过程如下:

  1. 输入投影:模型首先将输入的 88×10 的时间序列数据(88 个通道,10ms 时间窗口,采样频率 1kHz)通过一个多层感知器(MLP)投影到 64 维的特征空间,得到一个 88×64 的特征矩阵。

  2. 位置编码:为了保留通道的位置信息,模型在特征矩阵中加入了可学习的位置编码向量。

  3. 编码器处理:将加入位置编码的特征矩阵输入到由多个 Transformer 块组成的编码器中。每个 Transformer 块包含多头自注意力层、MLP 层、批归一化层和残差连接。

  4. 嵌入生成:编码器的输出通过一个 MLP 层进一步压缩,最终得到一个 256 维的向量,这就是等离子体状态嵌入。

这个 256 维的向量包含了输入的 88 个诊断信号的所有信息,能够全面、准确地表征等离子体在该 10ms 时间窗口内的物理状态。

2.3预训练过程

曦元(FusionMAE)模型采用自监督学习的方式进行预训练,不需要任何人工标注的数据。

2.3.1自监督学习任务设计

曦元(FusionMAE)模型设计了两个自监督学习任务来训练模型:

  1. 压缩 - 重建任务:模型将输入的 88 个诊断信号压缩成 256 维的嵌入向量,然后再从这个嵌入向量中重建原始的 88 个信号。这个任务的目标是最小化重建信号与原始信号之间的均方误差(MSE)。

  2. 缺失信号重建任务:在每个训练步骤中,模型随机掩码 25% 的输入通道,然后训练模型从剩余的 75% 的通道中重建被掩码的通道。这个任务的目标也是最小化重建信号与原始信号之间的均方误差。

这两个任务是同时进行的,模型在训练过程中需要同时优化这两个目标函数。通过这两个任务的联合训练,模型不仅能够学习到如何压缩和重建数据,还能够学习到等离子体各物理参数之间的内在耦合关系。

2.3.2压缩-重建与缺失信号重建双机制

为什么要同时使用压缩 - 重建和缺失信号重建这两个机制呢?

如果只使用压缩 - 重建机制,模型可能会倾向于逐通道地记忆信号,而不是学习通道之间的相互关系。这样生成的嵌入向量虽然能够很好地重建原始信号,但可能缺乏物理意义,泛化能力也会比较差。

而缺失信号重建机制则迫使模型必须学习通道之间的相互关系。因为当某些通道被掩码时,模型无法直接从这些通道获取信息,只能通过其他通道的信息来推断被掩码通道的值。这就要求模型必须深入理解等离子体的物理规律,知道哪些参数之间存在着强耦合关系。

实验结果表明,同时使用这两个机制训练出来的模型,生成的等离子体状态嵌入向量具有更好的物理意义和更强的泛化能力。

2.3.3训练参数与算力需求

曦元(FusionMAE)模型的主要训练参数如下:

  • 编码器层数:6 层

  • 解码器层数:6 层

  • 注意力头数:8 头

  • 隐藏层维度:512 维

  • 等离子体状态嵌入维度:256 维

  • 掩码比例:25%

  • 批量大小:256

  • 学习率:1e-4

  • 优化器:AdamW

  • 训练轮数:100 轮

模型的训练在西物院的高性能计算集群上进行。该集群配备了 128 张 NVIDIA A100 GPU,总算力达到了 10 PFLOPS。整个预训练过程大约耗时 2 周,消耗了约 5000 GPU 小时的算力。

2.4下游任务适配

曦元(FusionMAE)模型经过预训练后,生成的等离子体状态嵌入向量可以作为通用接口,支撑各种下游任务的应用。

2.4.1虚拟备用诊断

虚拟备用诊断是曦元(FusionMAE)模型最直接的应用。当某些诊断系统出现故障时,模型可以利用其他正常工作的诊断系统的数据,实时推断出故障诊断系统应该测量到的数据。

具体实现方式是:将正常工作的诊断通道的数据输入到预训练好的 FusionMAE 模型中,模型会生成一个等离子体状态嵌入向量,然后通过解码器从这个嵌入向量中重建出所有 88 个诊断通道的数据。其中,故障诊断通道对应的重建数据就是模型推断出的结果。

实验结果表明,模型在单通道缺失时的补全准确率达到 97.2%,整个诊断阵列缺失时的补全准确率达到 94.5%。这表明模型能够很好地推断出缺失的诊断数据,为聚变装置提供了可靠的虚拟备用诊断。

2.4.2二级数据自动分析

在核聚变实验中,很多重要的物理参数(如平衡位形、不稳定性幅值、安全因子分布等)不能直接测量,需要通过复杂的计算从原始诊断数据中推导出来。这些计算通常需要使用专门的程序,并且需要人工参与调整参数,耗时费力。

曦元(FusionMAE)模型提供了一种全新的二级数据自动分析方法。其基本思想是:将这些二级数据视为 "缺失的诊断信号",然后利用模型的重建能力来自动生成这些数据。

具体实现方式是:在预训练完成后,收集一些已经计算好二级数据的实验数据,然后对模型进行微调。在微调过程中,将二级数据作为额外的输入通道,然后随机掩码这些通道,训练模型来重建它们。

经过微调后,模型就可以直接从原始诊断数据中自动生成二级数据,不需要再运行复杂的计算程序。实验结果表明,模型生成的二级数据与传统方法计算得到的结果具有很高的一致性,同时计算速度提高了几个数量级。

2.4.3相似实验现象检索

核聚变实验会产生海量的数据,科研人员在分析实验结果时,经常需要查找历史上相似的实验现象进行对比分析。传统的检索方法通常是基于关键词或简单的参数匹配,效率低下,难以找到真正相似的实验现象。

曦元(FusionMAE)模型生成的等离子体状态嵌入向量为相似实验现象检索提供了一种高效的方法。由于物理性质相似的等离子体在高维嵌入空间中会聚集在一起,因此可以通过计算嵌入向量之间的余弦相似度来快速找到相似的实验现象。

具体实现方式是:首先将所有历史实验数据输入到预训练好的 FusionMAE 模型中,生成每个时间步的等离子体状态嵌入向量,并建立一个向量数据库。当需要检索相似实验现象时,将当前实验数据输入模型生成嵌入向量,然后在向量数据库中查找与该向量最相似的前 N 个向量,对应的历史实验数据就是最相似的实验现象。

实验结果表明,这种基于嵌入向量的检索方法比传统方法的准确率提高了 40% 以上,检索速度提高了 100 倍以上。

2.4.4下游AI4Fusion模块性能提升

目前,已经有很多 AI 模型被应用于核聚变领域,如破裂预测模型、平衡反演模型、等离子体演化预测模型等。这些模型通常直接使用原始诊断数据作为输入,存在着输入维度高、数据噪声大、特征提取困难等问题。

曦元(FusionMAE)模型生成的等离子体状态嵌入向量包含了丰富的物理信息,并且已经去除了大部分噪声,可以作为这些下游 AI4Fusion 模块的高质量输入,显著提升它们的性能。

具体实现方式是:将下游模型的输入层替换为 FusionMAE 模型生成的 256 维嵌入向量,然后对下游模型进行微调(或者冻结 FusionMAE 模型的参数,只训练下游模型的参数)。

实验结果表明,使用 FusionMAE 嵌入向量作为输入,在破裂预测任务上准确率提高了 3.2%,在平衡反演任务上计算速度提高了 10 倍以上,在等离子体演化预测任务上预测时间提前了 50 毫秒。

2.5跨装置通用性验证

一个好的预训练模型应该具有良好的跨装置通用性,能够在不同的聚变装置上应用,而不需要重新进行大规模的预训练。

2.5.1在球形托卡马克SUNIST-2上的验证

为了验证曦元(FusionMAE)模型的跨装置通用性,研究团队在清华大学的球形托卡马克 SUNIST-2 装置上进行了测试。

球形托卡马克与传统的环形托卡马克在结构和运行参数上有很大的不同。传统托卡马克的大半径与小半径之比(纵横比)通常在 3 以上,而球形托卡马克的纵横比通常在 2 以下。球形托卡马克具有更高的等离子体比压和更好的自然稳定性,但也面临着一些独特的挑战。

研究团队首先收集了 SUNIST-2 装置的实验数据,然后使用在 HL-3 装置上预训练好的 FusionMAE 模型,只进行了少量的微调,就成功地将模型应用到了 SUNIST-2 装置上。

实验结果表明,模型在 SUNIST-2 装置上同样取得了很好的性能:单通道缺失补全准确率达到 95.8%,整个诊断阵列缺失补全准确率达到 92.3%。这表明 FusionMAE 模型学习到的是等离子体的普遍物理规律,而不是特定装置的特性,具有良好的跨装置通用性。

2.5.2国际联合验证进展

目前,西物院正在与国际上多个知名的聚变研究机构开展联合验证工作,包括美国普林斯顿等离子体物理实验室、德国马克斯・普朗克等离子体物理研究所、日本原子能研究开发机构等。

这些机构将提供他们各自托卡马克装置的实验数据,用于验证曦元(FusionMAE)模型在不同装置上的性能。同时,双方还将在模型优化、应用拓展等方面开展深入合作。

国际联合验证工作的开展,不仅能够进一步验证曦元(FusionMAE)模型的通用性和可靠性,还能够提升中国在 "AI + 聚变" 领域的国际影响力,促进国际核聚变研究的合作与发展。

第三章:底层逻辑

3.1等离子体物理与AI的交叉融合

3.1.1等离子体的多尺度非线性特性

等离子体是由大量带电粒子组成的宏观系统,它具有极其复杂的多尺度非线性特性。

从空间尺度来看,等离子体的行为涉及从电子回旋半径(约 10^-4 米)到装置尺寸(约 10 米)的多个数量级。从时间尺度来看,涉及从电子回旋周期(约 10^-11 秒)到能量约束时间(约 10^3 秒)的多个数量级。

在这样一个多尺度的系统中,不同尺度之间存在着强烈的非线性相互作用。例如,微观尺度的湍流会导致宏观尺度的能量和粒子输运;宏观尺度的磁场变化会影响微观尺度的粒子运动。

这种多尺度非线性特性使得等离子体的行为极其复杂,难以用传统的数学方法进行精确描述和预测。

3.1.2传统物理模型的局限性

传统的等离子体物理模型主要基于第一性原理,通过求解磁流体力学(MHD)方程或动力学方程来描述等离子体的行为。

然而,这些传统物理模型存在着一些固有的局限性:

  1. 计算复杂度高:求解完整的等离子体动力学方程需要巨大的计算资源。即使使用目前最先进的超级计算机,也只能模拟有限时间和空间尺度内的等离子体行为,无法进行全尺度、长时间的模拟。

  2. 模型假设多:为了简化计算,传统物理模型通常需要引入很多假设和近似,例如单流体近似、绝热近似、局域输运近似等。这些假设和近似在很多情况下并不成立,会导致模型的预测结果与实际情况存在偏差。

  3. 难以处理复杂的非线性相互作用:传统物理模型在处理多尺度非线性相互作用方面存在困难,特别是对于一些突发的、非平衡的现象(如等离子体破裂、边缘局域模等),预测能力有限。

  4. 参数调整困难:传统物理模型通常包含很多可调参数,这些参数的取值对模型的结果有很大影响。确定这些参数的最优取值需要大量的实验数据和反复的调试,耗时费力。

由于这些局限性,传统物理模型已经难以满足未来聚变反应堆设计和运行的需求。

3.1.3 AI模型在处理复杂系统中的优势

与传统物理模型相比,AI 模型在处理复杂非线性系统方面具有以下几个显著的优势:

  1. 强大的非线性拟合能力:AI 模型(特别是深度学习模型)具有强大的非线性拟合能力,能够从海量数据中自动学习复杂的非线性关系,不需要预先知道系统的具体物理规律。

  2. 计算速度快:AI 模型一旦训练完成,推理速度非常快,可以实现实时计算。这对于需要毫秒级响应的聚变装置控制系统来说至关重要。

  3. 能够处理多源异构数据:AI 模型能够很好地处理来自不同诊断系统的多源异构数据,将它们融合在一起进行综合分析。

  4. 自适应能力强:AI 模型可以通过在线学习不断更新自己,适应系统的变化,提高模型的准确性和鲁棒性。

  5. 能够发现新的物理规律:AI 模型不仅可以用于预测和控制,还可以帮助科学家发现新的物理规律。通过分析 AI 模型学习到的特征和模式,科学家可以获得对等离子体物理的新认识。

正是由于这些优势,AI 模型成为了解决核聚变领域复杂问题的有力工具。

3.2统一表征的核心思想

3.2.1从多源异构数据到统一等离子体状态向量

在传统的聚变装置中,不同的诊断系统测量不同的物理参数,这些参数以不同的格式、不同的采样频率、不同的时间延迟存储在不同的数据库中。这种多源异构的数据给数据的整合和分析带来了很大的困难。

同时,不同的控制模块需要不同的输入数据,这导致了诊断系统和控制执行器之间的接口非常复杂。每个控制模块都需要专门设计数据处理和特征提取的流程,增加了系统的复杂度和维护成本。

曦元(FusionMAE)模型的核心思想是将多源异构的诊断数据压缩成一个统一的等离子体状态向量。这个向量包含了等离子体所有的物理信息,是对等离子体状态的一种抽象和概括。

通过这种统一表征,所有的下游任务都可以使用同一个向量作为输入,不需要再各自进行数据处理和特征提取。这大大简化了系统架构,提高了系统的可维护性和可扩展性。

3.2.2与NLP中词嵌入的类比

曦元(FusionMAE)模型的统一表征思想与自然语言处理中的词嵌入(Word Embedding)思想非常相似。

在自然语言处理中,词嵌入是将单词映射到一个低维的连续向量空间中。在这个向量空间中,语义相似的单词会聚集在一起。例如,"国王" 和 "王后" 的向量会很接近,"男人" 和 "女人" 的向量也会很接近。

词嵌入的出现彻底改变了自然语言处理的面貌。它使得计算机能够更好地理解语言的语义,为各种自然语言处理任务提供了统一的输入表示。

同样,在聚变领域,等离子体状态嵌入是将等离子体的状态映射到一个低维的连续向量空间中。在这个向量空间中,物理性质相似的等离子体状态会聚集在一起。例如,具有相似温度和密度的等离子体的向量会很接近,处于相似不稳定性状态的等离子体的向量也会很接近。

等离子体状态嵌入的出现也将彻底改变聚变研究的面貌。它使得计算机能够更好地理解等离子体的物理状态,为各种聚变研究和应用任务提供了统一的输入表示。

3.2.3物理意义的自动提取与编码

一个关键的问题是:曦元(FusionMAE)模型生成的等离子体状态嵌入向量是否具有物理意义?还是只是一个数学上的抽象?

为了回答这个问题,研究团队对生成的嵌入向量进行了深入的分析。他们发现,嵌入向量的不同维度对应着不同的物理参数和物理模式。

例如,某些维度主要对应着等离子体的电流和磁场参数,某些维度主要对应着等离子体的温度和密度参数,某些维度主要对应着等离子体的不稳定性模式。

这表明,曦元(FusionMAE)模型在预训练过程中,自动提取并编码了等离子体的物理意义。它不是简单地将数据压缩成一个向量,而是学习到了数据背后的物理规律。

这一点非常重要,因为它意味着我们可以通过分析嵌入向量来理解等离子体的物理状态,甚至可以发现一些传统方法难以发现的新的物理模式。

3.3自监督学习在聚变领域的适用性

3.3.1为什么选择自监督学习而非监督学习

在机器学习中,监督学习是最常用的方法之一。监督学习需要大量的标注数据,即输入数据和对应的输出标签。模型通过学习输入和输出之间的映射关系来进行预测。

然而,在聚变领域,标注数据非常稀缺和昂贵。这是因为:

  1. 核聚变实验成本高昂:每次托卡马克放电实验都需要消耗大量的电力和人力成本,因此实验次数是有限的。

  2. 标注过程复杂:很多聚变领域的任务(如破裂预测、不稳定性识别等)的标注需要经验丰富的物理学家来完成,标注过程非常耗时费力。

  3. 极端工况数据稀少:对于一些极端工况(如高参数稳态运行、大破裂等),实验数据非常稀少,难以获得足够的标注数据。

由于这些原因,监督学习在聚变领域的应用受到了很大的限制。

相比之下,自监督学习不需要任何人工标注的数据,只需要大量的无标注数据就可以进行训练。模型通过设计一些预训练任务,从数据本身中学习特征表示。

聚变领域虽然标注数据稀缺,但无标注数据却非常丰富。每个托卡马克装置每年都会产生大量的实验数据,这些数据都可以用于自监督学习。

因此,自监督学习是非常适合聚变领域的一种机器学习方法。

3.3.2掩码机制如何迫使模型学习物理规律

曦元(FusionMAE)模型使用了掩码自编码器(MAE)的机制,在预训练过程中随机掩码 25% 的输入通道,然后训练模型来重建这些被掩码的通道。

这个看似简单的机制实际上非常巧妙,它迫使模型必须学习等离子体各物理参数之间的内在耦合关系。

因为当某些通道被掩码时,模型无法直接从这些通道获取信息,只能通过其他通道的信息来推断被掩码通道的值。为了准确地推断出被掩码通道的值,模型必须知道哪些参数之间存在着强耦合关系,以及它们之间的定量关系。

例如,如果模型知道等离子体电流和环电压之间存在着欧姆定律的关系,那么当环电压通道被掩码时,模型就可以通过等离子体电流和等离子体电阻来推断出环电压的值。

通过这种方式,模型在预训练过程中自动学习到了等离子体的基本物理规律,如守恒定律、输运规律、稳定性规律等。

3.3.3数据效率与泛化能力的提升

自监督学习不仅解决了标注数据稀缺的问题,还能够提高数据效率和模型的泛化能力。

数据效率方面,自监督学习能够更充分地利用无标注数据。一个好的自监督预训练模型可以用少量的标注数据在下游任务上取得很好的性能,这就是所谓的 "少样本学习" 能力。

泛化能力方面,自监督预训练模型学习到的是数据的通用特征表示,而不是针对特定任务的特征。因此,这些特征表示可以很好地迁移到各种不同的下游任务中,并且在不同的数据集上都能取得较好的性能。

实验结果表明,曦元(FusionMAE)模型经过预训练后,只需要少量的标注数据进行微调,就可以在各种下游任务上取得优异的性能,并且在不同的托卡马克装置上都具有良好的泛化能力。

3.4与传统控制方法的对比与互补

3.4.1传统PID控制的局限性

传统的聚变装置控制系统主要采用 PID(比例 - 积分 - 微分)控制算法。PID 控制是一种经典的反馈控制算法,它具有结构简单、易于实现、鲁棒性好等优点,在工业控制领域得到了广泛的应用。

然而,PID 控制在聚变装置的控制中也存在着一些局限性:

  1. 只能处理单输入单输出(SISO)系统:PID 控制通常是针对单个控制变量设计的,难以处理多输入多输出(MIMO)系统。而聚变装置的控制是一个典型的 MIMO 系统,多个控制变量之间存在着强烈的耦合关系。

  2. 需要精确的系统模型:PID 控制器的参数整定需要基于系统的数学模型。如果系统模型不准确,PID 控制器的性能就会下降。而等离子体是一个高度非线性、时变的系统,很难建立精确的数学模型。

  3. 难以处理复杂的控制目标:PID 控制通常只能实现简单的控制目标,如保持某个参数恒定。而聚变装置的控制需要同时满足多个复杂的控制目标,如等离子体形状、位置、电流、温度、密度等。

  4. 缺乏预测能力:PID 控制是一种反馈控制,只有当系统出现偏差时才会进行调节。而等离子体的不稳定性可以在毫秒内发生并失控,反馈控制往往来不及响应。

核技术论坛

阅读 分享