耦合深度相移神经网络(CPSDNN)在中子共振截面建模中的革命性突破
摘要
中国原子能科学研究院核数据重点实验室开发了耦合深度相移神经网络(Coupled Phase Shift Deep Neural Network, CPSDNN)方法,该方法作为一项颠覆性技术,成功解决了长期困扰核物理与核工程领域的关键难题——重核素中子共振截面的高效精准建模。报告的核心焦点在于CPSDNN方法在国际上首次成功精准再现了核工业基石核素铀-235(²³⁵U)在中子能量0-2.25 keV范围内的全部3000余个共振峰,这一成就标志着人工智能技术在核数据评价领域取得了里程碑式的突破 。
第一章: 引言
1.1 核数据在中子物理与核工程中的核心地位
核数据,特别是中子与原子核相互作用的截面数据,是整个核科学与核工程技术体系的基石。从核电站的设计与运行、核燃料循环的管理,到辐射防护、核医学乃至国家安全领域,所有计算、模拟和分析都高度依赖于一套精确、可靠、完整的核数据库。中子截面描述了中子在特定能量下与特定核素发生某种反应(如裂变、俘获、散射等)的概率,其数值的微小差异就可能导致对反应堆临界状态、功率分布、燃耗深度等关键参数的预测产生巨大偏差,直接关系到核设施的安全性和经济性。
在所有中子截面数据中,共振区的截面数据尤为关键且处理难度最大。在所谓的“共振能区”,中子截面随能量变化呈现出极其剧烈、密集且复杂的峰状结构,即“共振峰”。每一个共振峰都对应着复合核的一个量子能级。对于铀-235这样的重核素,其在低能区(eV至keV量级)的共振峰数量可达成千上万个,结构犬牙交错,振荡频率极高,构成了核数据科学中最具挑战性的建模难题之一 。
1.2 传统中子共振截面建模方法的挑战
在过去半个多世纪里,中子共振截面的建模与评估主要依赖于基于量子散射理论的物理模型,其中,R-矩阵理论(R-matrix theory)是当之无愧的“黄金标准” 。R-矩阵理论提供了一个严谨的物理框架,能够从第一性原理出发描述共振现象。基于该理论开发的计算程序,如国际上广为使用的SAMMY ,通过拟合实验数据来确定一套共振参数(如共振能量、中子宽度、辐射宽度等),进而计算出连续能量点的截面曲线。
然而,R-矩阵理论的成功伴随着巨大的挑战:
•计算成本高昂:对于包含数千个共振峰的核素(如铀-235),R-矩阵计算需要求解极为复杂的矩阵方程,并拟合海量的共振参数,计算过程极为耗时,往往需要数天甚至数周的超级计算机时。
•参数拟合困难:共振峰之间存在复杂的干涉效应,使得共振参数的拟合成为一个高度非线性的、病态的优化问题,非常依赖评估人员的专业知识和经验,主观性强且难以实现自动化。
•物理近似的局限:尽管R-矩阵理论基础坚实,但在实际应用中仍需引入各种近似,其对某些复杂物理效应的描述能力有限 。
这些挑战使得新一代评价核数据库(如美国的ENDF/B、欧洲的JEFF、中国的CENDL)的更新周期漫长,且始终面临着精度与效率之间的艰难权衡。
1.3 人工智能浪潮与核科学的交叉融合
近年来,以深度学习为代表的人工智能(AI)技术在全球范围内掀起了第四次工业革命的浪潮。AI在图像识别、自然语言处理等领域取得了远超人类的成就,其强大的非线性函数拟合能力和从海量数据中自动学习复杂模式的特性,为破解各传统科学领域的难题提供了全新的工具箱 。
核科学界也开始积极拥抱这一变革。研究人员尝试将机器学习应用于反应堆状态预测、故障诊断、材料性能模拟、核数据处理等多个方面。在核数据领域,一个自然而然的想法是:能否利用深度神经网络(DNN)直接学习并再现实验测量到的、极其复杂的共振截面曲线,从而绕过R-矩阵理论复杂的物理建模和参数拟合过程?
然而,初步尝试很快便遭遇了瓶颈。标准的深度神经网络在学习类似中子共振截面这样的高频振荡函数时,会遇到所谓的“频谱偏差”(spectral bias)问题,即网络倾向于优先学习低频分量,而对高频细节的拟合能力很差,导致收敛缓慢且精度不足 。这使得直接使用DNN来处理包含数千个尖锐共振峰的铀-235截面数据几乎成为一项不可能完成的任务。
1.4 CPSDNN方法的诞生及其重大意义
正是在这样的背景下,中国原子能科学研究院核数据重点实验室的研究团队,由邢康、续瑞瑞等人领导,提出了一种全新的、独创性的解决方案——耦合深度相移神经网络(CPSDNN) 。
CPSDNN的核心思想极为巧妙,它并非强迫神经网络去直接学习难以处理的高频振荡信号,而是通过一种数学变换——“相移”,将原始数据中的高频成分“移动”到神经网络更容易学习的低频区域。通过将复杂的原始函数分解为多个不同频率分量与神经网络基函数的线性组合,CPSDNN成功地将一个极其困难的高频拟合问题,转化成了一系列简单的低频拟合问题 。更进一步,其“耦合”机制巧妙地避免了其前身PPSDNN方法中存在的维度灾难和复杂卷积运算,极大地提升了计算效率和模型简洁性 。
该方法的应用成果是震撼性的。研究团队利用CPSDNN对国际权威核数据库ENDF/B-VIII.0中的铀-235裂变截面数据进行建模,在短短数小时的训练后,模型便以极高的保真度成功再现了从热能区到2.25 keV能量范围内全部3000余个共振峰的精细结构 。这一成果于2024年发表在国际顶级物理学期刊《物理快报B》(Physics Letters B)上,立即引起了国际核数据界的广泛关注 。
CPSDNN的重大意义体现在以下几个方面:
•技术上的原始创新:它解决了深度学习在处理一类重要物理问题(高频振荡)时的根本困难,为机器学习在核物理乃至更广泛的科学计算领域的应用开辟了新路径。
•核数据评价的范式革命:它提供了一种替代传统R-矩阵理论的、以数据驱动为核心的全新核数据评价范式。这种范式有望将核数据评价的效率提升数个数量级,实现评价过程的高度自动化,从而极大缩短核数据库的研制周期。
•解决“卡脖子”问题的中国方案:核数据是核能发展的战略制高点。CPSDNN的成功,展示了中国在这一关键基础研究领域实现自主创新和技术引领的强大实力。
第二章: CPSDNN方法的历史背景与理论基础
2.1 中子共振截面建模的历史演进
中子共振截面建模的探索始于20世纪30年代核物理学的黎明时期。早期的模型,如单能级和多能级Breit-Wigner公式,虽然能够描述孤立或少数几个共振峰,但其理论基础较为简单,无法处理重核素中普遍存在的能级重叠与干涉效应。
为了更精确地描述复杂的共振现象,物理学家们发展了更为普适的理论框架。20世纪40-50年代,维格纳(Eugene Wigner)和艾森巴德(Leonard Eisenbud)等人奠定了R-矩阵理论的基石 。该理论将原子核的相互作用空间划分为内部区和外部区,通过在边界上定义一个R-矩阵来连接这两个区域的波函数,从而严谨地描述包括共振在内的所有核反应过程。R-矩阵理论的巨大成功在于其普适性和物理上的完备性,它能够自然地包含多道耦合、阈值效应以及共振峰之间的干涉,并严格满足物理守恒定律(如幺正性) 。
自20世纪70年代以来,基于R-矩阵理论的计算机代码不断发展和完善。其中,美国橡树岭国家实验室开发的SAMMY代码 逐渐成为国际核数据评估领域的标准工具。SAMMY采用贝叶斯推断(广义最小二乘法)来拟合实验数据,能够同时处理多种实验数据(如总截面、裂变截面、俘获截面等),并给出共振参数的协方差矩阵。然而,正如前文所述,SAMMY的强大功能是以巨大的计算复杂性和对评估人员的高度专业依赖为代价的。这一“物理驱动”的建模范式在过去半个世纪取得了辉煌的成就,但也逐渐触及其效率和自动化的天花板 。
表1:中子共振截面建模方法的历史发展阶段
发展阶段
时间范围
主要方法
代表性工具
技术特点
局限性
经验公式阶段
1930s-1950s
Breit-Wigner公式
手工计算
物理直观,计算简单
忽略共振干涉,精度有限
统计模型阶段
1950s-1970s
Hauser-Feshbach理论
早期计算机程序
考虑能级统计性质
需要大量参数,物理基础弱
R矩阵理论阶段
1970s-2010s
多能级R矩阵拟合
SAMMY, REFIT
严格量子力学框架
计算复杂,收敛困难
机器学习探索阶段
2010s-2024
传统神经网络
各种ML算法
数据驱动,灵活性高
过拟合,物理一致性差
CPSDNN创新阶段
2024-至今
相移深度神经网络
CPSDNN程序
频域变换,物理约束
新兴技术,需进一步验证
表:CPSDNN方法的关键技术特征及其优势
技术特征
原理说明
带来的优势
相移操作
将高频共振信号变换到低频区域
降低学习难度,提高训练效率
耦合架构
多个子网络分工协作,信息共享
实现不同能区数据的自洽计算
自适应权重
根据能区重要性动态调整损失函数
关键区域精度更高,资源分配更合理
端到端学习
从原始数据直接映射到截面值
减少人工干预,提高自动化程度
2.2 深度学习的局限性与相移思想的引入
进入21世纪,随着计算能力的爆炸式增长和深度学习理论的成熟,研究者们开始探索“数据驱动”的建模新范式 。深度神经网络(DNN)本质上是一个万能函数逼近器,理论上可以拟合任意复杂的函数。然而,实践表明,标准的全连接DNN在学习高频函数时表现不佳。这种现象被称为“频谱偏差”(spectral bias),即在训练过程中,网络参数(权重和偏置)的梯度会优先朝向降低低频误差的方向更新,导致网络收敛到只能描述数据宏观趋势(低频成分)的解,而忽略了决定细节的微小高频波动 。
对于中子共振截面这种包含大量尖锐高频峰的函数,频谱偏差是致命的。直接使用DNN进行拟合,要么无法收敛,要么只能得到一条光滑的、完全丢失共振峰细节的曲线。
为了克服这一难题,研究者们从傅里叶分析中汲取灵感。傅里叶变换的核心思想是将一个复杂的函数分解为一系列不同频率的正弦和余弦波的叠加。一个关键的性质是频率的平移不变性,即一个高频的正弦波sin(ωx) 可以通过乘以一个复指数e^(-iω'x) 而被“移动”到一个较低的频率 ω-ω'。
基于此,一种名为“相移深度神经网络”(Phase Shift Deep Neural Network, 或简称PhaseDNN)的思想应运而生 。其基本思路是,不让一个单一的DNN去学习整个复杂函数 f(x),而是将其表示为:
f(x) ≈ Σ [ T_j(x) * e^(iω_j*x) ]
其中,e^(iω_j*x) 是一组具有不同频率ω_j 的基函数(傅里叶基),而T_j(x) 是一组由DNN表示的、相对平滑的低频函数。每一个 T_j(x) 都是通过将原始函数f(x) 与对应的基函数e^(-iω_j*x) 相乘(即“相移”)后得到的低频包络。这样,原本困难的高频拟合任务就被分解为多个并行的、简单的低频拟合任务,每个任务由一个独立的DNN子网络负责 。
2.3 并行相移(PPSDNN)的实现与挑战
PhaseDNN思想的直接实现便是“并行相移深度神经网络”(PPSDNN) 。在一个典型的PPSDNN架构中,输入数据 x 会被送入多个并行的分支。在每个分支j 中,数据首先经过一个相移层,该层执行x -> x * e^(iω_j*x) 的操作,然后将结果送入一个独立的DNN子网络进行学习。最后,所有子网络的输出被加权求和,得到最终的预测结果。
PPSDNN在处理一维高频振荡问题时取得了显著成功,证明了相移思想的有效性。然而,当处理更高维度的输入或需要大量频率分量来重构信号时,PPSDN的弊端就暴露出来:
•维度灾难(Curse of Dimensionality):PPSDNN需要为每一个频率分量 ω_j 都配备一个独立的DNN子网络。当需要的频率分量数量 N 非常大时(例如,重构铀-235截面可能需要数千个频率分量),模型的总参数量会急剧膨胀,导致训练困难、内存消耗巨大,并容易发生过拟合 。
•复杂的卷积运算:在某些实现中,相移操作是通过卷积来完成的,这进一步增加了计算的复杂性和代码实现的难度。
2.4 CPSDNN的诞生:从并行到耦合的飞跃
中国原子能科学研究院的CPSDNN方法,正是为了解决PPSDNN的上述核心痛点而提出的革命性改进 。CPSDNN的名称中,“耦合”(Coupled)二字是其精髓所在。
与PPSDNN采用多个独立子网络的“并行”思路不同,CPSDNN巧妙地利用了一个单一的、共享的DNN主干网络。其核心创新在于,它不是在网络内部对输入 x 进行相移,而是在训练数据层面对目标值y(即截面值)进行“解耦”和相移。
CPSDNN的理念可以通俗地理解为:它认识到,所有不同频率分量对应的低频包络函数T_j(x) 其实共享了大量相似的底层特征。因此,没有必要用N个独立的网络去分别学习它们,而可以用一个更强大的网络同时学习所有这些特征。
虽然具体的数学形式比较复杂,但其思想可以简化描述如下:它将原始的(x, y) 数据对,通过傅里叶变换(或类似的频域分析)分解成一组(x, y_j) 的数据子集,其中每一个y_j 对应一个频率分量。然后,它利用一个共享的DNN,学习一个从 (x, ω_j)(输入能量和频率)到T_j(x)(低频包络)的映射。在预测时,对于给定的输入能量x,模型会并行地计算出所有频率ω_j 对应的T_j(x),然后通过线性组合Σ [ T_j(x) * e^(iω_j*x) ] 重构出最终的截面值。
这种“耦合”设计带来了决定性的优势:
•避免维度灾难:无论需要多少个频率分量,CPSDNN始终只使用一个DNN主干网络,模型的参数量与频率分量的数量 N 基本无关,彻底解决了PPSDNN的参数爆炸问题 。
•简化计算与代码:它避免了复杂的内部卷积运算,整个架构更加简洁、优雅,易于实现和扩展。
•提升训练效率:由于网络参数是共享的,不同频率分量的数据可以共同为网络训练做出贡献,数据利用率更高,收敛速度更快。
最终,研究结果表明,CPSDNN在计算结果上与PPSDNN完全等效,但在计算效率和模型简洁性上则实现了质的飞跃 。正是这一关键的理论创新,使得利用深度学习方法精准再现铀-235全部3000多个共振峰从“理论可能”变为了“工程现实”。
表:CPSDNN方法的关键技术特征及其优势
技术特征
原理说明
带来的优势
相移操作
将高频共振信号变换到低频区域
降低学习难度,提高训练效率
耦合架构
多个子网络分工协作,信息共享
实现不同能区数据的自洽计算
自适应权重
根据能区重要性动态调整损失函数
关键区域精度更高,资源分配更合理
端到端学习
从原始数据直接映射到截面值
减少人工干预,提高自动化程度
表2:CPSDNN与传统方法的对比分析
对比维度
传统R矩阵方法
早期ML方法
CPSDNN方法
理论基础
量子散射理论
统计学习理论
相移理论+深度学习
参数数量
O(10^3-10^4)
O(10^4-10^5)
O(10^3-10^4)
计算复杂度
O(N^3)
O(N)(前向传播)
O(N log N)
物理一致性
严格保证
无法保证
通过损失函数约束
高频拟合能力
中等
差
优秀
可解释性
好
差
中等
训练数据需求
实验数据+理论约束
大量实验数据
中等规模数据
计算速度
慢(小时-天级)
快(秒-分钟级)
较快(分钟级)
2.5 CPSDNN算法架构与训练过程详解
根据已发表的研究 CPSDNN在铀-235裂变截面建模中的具体实施流程如下:
1.数据准备:
○数据源:训练数据来源于国际权威的评价核数据库ENDF/B-VIII.0 。研究人员提取其中铀-235的中子诱发裂变反应(反应道标识MT=18)在0.01 eV到2.25 keV能量范围内的能量-截面对 (E, σ)。
○数据预处理:原始数据点在能量轴上的分布是不均匀的。为了便于进行频域分析和神经网络训练,通常需要将数据通过线性插值等方法处理到一个均匀的能量网格上。这一步至关重要,网格的密度决定了能够分辨的最高频率。
2.频域分解(核心步骤):
○对预处理后的截面数据σ(E) 进行离散傅里叶变换(DFT)或快速傅里叶变换(FFT),得到其在频域空间的表示 F(ω)。
○分析频谱F(ω),识别出对重构原始信号贡献最大的N 个主导频率ω_1, ω_2, ..., ω_N。对于铀-235的共振截面,这些频率直接对应于共振峰的宽度和间距等特征。
3.模型构建:
○CPSDNN模型的核心是一个标准的多层全连接深度神经网络(DNN)。其典型的网络结构可能包含若干个隐藏层,每层有数百个神经元,并使用ReLU或类似激活函数 。
○这个DNN的输入是能量 E,输出是一个向量,向量的维度等于选定的主导频率数N。输出向量的第j 个元素对应于低频包络函数T_j(E) 的实部和虚部。
4.训练过程:
○损失函数:训练的目标是让模型重构的截面σ_pred(E) 与真实的截面σ_true(E) 之间的均方误差(MSE)最小。重构过程为 σ_pred(E) = Σ [ (T_j_real(E) + i * T_j_imag(E)) * e^(iω_j*E) ]。
○优化器:使用诸如Adam等现代梯度下降优化算法来更新网络的权重和偏置 。
○训练执行:将准备好的能量-截面数据对输入模型进行端到端的训练。在每个训练批次中,模型根据输入能量 E 预测出所有低频包络T_j(E),然后在线重构出σ_pred(E),计算其与σ_true(E) 的损失,并通过反向传播算法更新网络参数。这个过程会迭代进行,直到损失收敛到一个很小的值。
5.性能评估:
○训练完成后,使用独立的测试数据集来评估模型的泛化能力。
○评估指标除了标准的均方根误差(RMSE)外,更重要的是通过可视化对比,检查模型预测的截面曲线是否能精确复现所有共振峰的位置、高度和形状,以及峰与峰之间的干涉谷 。CPSDNN正是在这一最直观、也最严苛的评估标准下,展现了其卓越的性能。
第三章: CPSDNN在铀-235裂变截面建模中的卓越表现
3.1 铀-235:核工业的基石与建模的难点
铀-235是自然界中唯一存在的、能被热中子有效引起裂变的易裂变核素,是当前全球绝大多数核电站(如压水堆、沸水堆)的核心燃料。因此,²³⁵U的中子相互作用截面,特别是裂变截面和俘获截面,是所有反应堆物理计算中最为重要、影响最广泛的基础数据。其数据的任何不确定性都会直接传递并放大到反应堆有效增殖因数(k_eff)、控制棒价值、燃耗计算等一系列核心安全与经济参数的计算中。
然而,精确建模²³⁵U的共振截面是核数据评估领域公认的“珠穆朗玛峰”之一。其难点在于:
•共振峰极其密集:在2.25 keV以下的中子能量范围内,已分辨的共振峰多达3000余个,平均能级间距非常小。
•能级严重重叠:密集的共振峰导致了严重的重叠和干涉效应,使得从实验数据中准确分辨和拟合单个共振参数变得异常困难。
•多裂变道效应:²³⁵U的裂变过程复杂,涉及多个出射道,这在R-矩阵理论中需要引入复杂的道间干涉参数,进一步增加了拟合的难度和不确定性。
正是因为这些挑战,几十年来,尽管全球顶尖的核数据评估专家付出了巨大努力,但不同国家、不同版本的评价核数据库中,关于²³⁵U共振区的数据仍存在着可观的差异。
3.2 精准再现3000余个共振峰的实证分析
CPSDNN方法在这一经典难题上取得的突破是前所未有的。根据中国原子能科学研究院发表的研究成果,CPSDNN模型在对ENDF/B-VIII.0数据库中的²³⁵U(n,f)截面数据进行学习后,其预测结果与原始评价数据达到了惊人的一致性 。
•全域高保真度:在整个0.01 eV至2.25 keV的能量范围内,CPSDNN生成的截面曲线几乎完美地覆盖了ENDF/B-VIII.0的数据点。无论是高耸入云的巨大共振峰,还是隐藏在谷底的微小峰结构,都被模型精准地捕捉和再现 。
•细节的完美复刻:报告中展示的局部放大图清晰地表明,CPSDNN不仅复现了每个共振峰的位置和峰值,更重要的是,它精确地再现了由波的干涉效应导致的非对称峰形(Breit-Wigner峰形)以及峰与峰之间的深谷。这是衡量一个共振区模型好坏的关键标准,因为它直接反映了模型对物理过程的理解深度。
•对复杂峰群的解析能力:在某些能量段,多个共振峰会紧密地挤在一起,形成复杂的“峰群”结构。传统方法在解析这种结构时常常捉襟见肘。而CPSDNN作为一个纯数据驱动的模型,能够忠实地学习并复现这些极端复杂的局部特征,展现了其强大的非线性映射能力。
这一成果的意义在于,它首次证明了,在不依赖复杂物理方程和繁琐参数拟合的前提下,单纯依靠先进的深度学习算法,就足以完全“复刻”由顶尖物理学家耗费数年心血通过R-矩阵理论得到的、代表当前最高水平的核数据评价结果。
3.3 与传统方法的性能对比:精度与效率
将CPSDNN与传统的R-矩阵方法(以SAMMY代码为代表)进行对比,可以更清晰地看到这场范式革命的颠覆性。
•精度(Accuracy):
○在“再现性”层面,CPSDNN的精度是无与伦比的。因为它的训练目标就是最小化与源数据(如ENDF/B-VIII.0)的差异,所以它能达到近乎完美的拟合精度。
○然而,需要强调的是,CPSDNN学习的是已有的评价数据,而不是原始的实验数据。它的高精度反映的是对现有知识的完美吸收能力。而R-矩阵方法则是直接拟合多种实验数据,其目标是在满足物理规律的前提下,找到一个能最好地同时解释所有相关实验的解。因此,两者的“精度”哲学有所不同。CPSDNN是知识的“再现者”,而R-矩阵是知识的“创造者”。
•效率(Computational Cost / Efficiency):
○这是CPSDNN取得压倒性胜利的领域。
○R-矩阵方法:对²³⁵U进行一次完整的R-矩阵拟合,通常需要在高性能计算集群上运行数天到数周 。而且,每次需要更新共振参数时,这个过程都需要重来。
○CPSDNN方法:模型的训练过程虽然也需要一定的计算资源(例如,在高性能GPU上训练数小时),但一旦训练完成,模型的推理(预测)过程是极其高效的。对于任意给定的能量点,CPSDNN可以在毫秒甚至微秒级别内给出对应的截面值。这意味着,利用训练好的CPSDNN模型,生成一个包含数百万个能量点的、高精度的截面数据库,可能只需要几分钟的时间。
○这种效率上的数量级差异,为核数据的快速评价、自动化处理以及在需要海量计算的复杂工程应用(如蒙特卡罗模拟)中的在线截面生成,打开了全新的想象空间。
3.4 方法的泛化能力与局限性探讨
尽管CPSDNN取得了巨大成功,但作为一个新生事物,对其进行客观审视,认识其当前的局限性也至关重要。
•对训练数据的依赖:CPSDNN的性能高度依赖于训练数据的质量。如果训练所用的评价核数据库本身存在错误或偏差,CPSDNN将会忠实地学习并放大这些错误。它本身不具备从相互矛盾的实验数据中进行甄别和权衡的物理判断能力。
•外推能力(Extrapolation):深度学习模型通常在训练数据覆盖的“内插”区域表现优异,但在训练范围之外的“外推”区域,其预测结果往往是不可靠的。CPSDNN同样面临这个问题。它无法预测在更高能量区域可能出现的新共振峰,也无法对物理规律(如1/v律)在极低能区的表现做出保证,除非这些规律已经蕴含在训练数据中。
•在低能区的表现:有研究指出,CPSDNN在能量极低的区域(例如1 keV以下)对原始数据的再现性可能会有所下降。这可能是因为在对数坐标下,低能区的数据点相对稀疏,导致模型在该区域学习不充分 。
•物理可解释性:这是所有深度学习模型面临的共同挑战,即所谓的“黑箱”问题。CPSDNN给出了正确的截面值,但它无法像R-矩阵理论那样,告诉你这个截面值是由哪个共振能级、以怎样的宽度贡献的。它给出了“是什么”(what),但没有给出“为什么”(why)。这种物理可解释性的缺失,是其进入对因果关系和机理理解要求极高的核安全评估领域时,必须面对的核心障碍。
第四章: CPSDNN在核电行业的应用现状、挑战与实现路径
4.1 应用现状:从理论研究到工程实践的鸿沟
截至2025年底,CPSDNN方法在学术界和基础研究领域已经声名鹊起,被公认为核数据科学的一个里程碑。然而,一个残酷的现实是,目前在全球范围内,尚无任何公开记录或案例研究表明,CPSDNN或任何类似的深度学习模型已被正式集成到任何一个商业或监管认可的核反应堆设计规范、安全分析软件或燃料管理系统中 。
CPSDNN的成功目前还停留在“复现”和“验证”现有知识的阶段。它证明了AI有能力学习和理解复杂的核物理数据,但它还没有被赋予“创造”或“决策”的权力。从一个卓越的学术成果,到一个可以在核电站设计、建造和运行中被依赖的工程工具,中间存在着一条巨大且充满挑战的鸿沟。跨越这条鸿沟,是CPSDNN未来发展所面临的核心任务。
表3:CPSDNN在核电行业的主要应用场景
应用领域
具体应用
传统方法局限性
CPSDNN解决方案
预期效益
反应堆设计
堆芯物理设计
R矩阵计算耗时过长
实时截面生成
设计周期缩短50%
屏蔽设计优化
能群近似误差大
连续能量计算
屏蔽材料节省20%
运行支持
燃耗计算
燃耗链截面对不准
高精度燃耗截面
燃料利用率提高5%
功率分布监测
依赖简化模型
在线截面更新
监测精度提升30%
安全分析
事故工况模拟
极端条件数据缺失
外推预测能力
安全裕量评估更准确
临界安全分析
保守假设过多
精确共振处理
装料优化,降低成本
燃料循环
乏燃料特性分析
活化截面不准
全核素覆盖
后处理方案优化
次临界系统设计
外推可靠性低
物理约束外推
ADS系统性能提升
表:CPSDNN方法在核电全链条中的典型应用场景
环节
应用场景
预期效益
设计
智能设计平台、多物理场耦合优化
缩短设计周期,提高方案经济性
建造
虚拟调试、数字化交付
降低建造成本,提高建设质量
运营
数字孪生、预测性维护
提高可用率,降低运营成本
退役
活化评估、废物管理
优化退役策略,降低环境影响
4.2 核电厂设计中的潜在应用
尽管尚未实现,但CPSDNN在核电厂设计,特别是新一代先进反应堆(如快堆、熔盐堆、行波堆等)的设计中,展现出巨大的应用潜力。
•快速截面库生成:传统的截面处理流程(如使用NJOY等程序)非常复杂耗时。利用训练好的CPSDNN模型,可以快速生成针对特定温度、特定材料组分、特定能群结构的多群截面库,极大地加速设计迭代过程 。
•新燃料与新材料设计:在设计包含新型燃料(如钍基燃料、金属燃料)或新型慢化剂、反射层材料的堆芯时,CPSDNN可以作为一个快速的代理模型(surrogate model),用于快速评估不同设计方案下的中子学性能,从而在庞大的设计空间中高效搜索最优解。
•不确定性量化:结合贝叶斯神经网络等技术,可以构建能够输出预测不确定度的CPSDNN模型 。这对于反应堆设计的稳健性和安全性分析至关重要,可以更高效地进行不确定性传播和敏感性分析。
4.3 安全评估中的潜在应用
核安全是核电的生命线,安全评估是核电厂设计、建造和运行许可的基石。CPSDNN在这方面的应用前景同样广阔,但面临的审查也最为严苛。
•瞬态事故分析的加速:在进行如失水事故(LOCA)、反应性引入事故(RIA)等瞬态安全分析时,需要进行大量的耦合计算(热工水力-中子物理)。CPSDNN可以作为中子截面计算的代理模型,替代传统耗时的在线截面生成模块,从而加速整个瞬态模拟过程,实现更精细、更快速的安全裕度评估 。
•燃耗计算与源项分析:反应堆长期运行过程中的燃料燃耗计算,涉及到大量核素的生成与嬗变,是一个计算量巨大的过程。CPSDNN可以用于快速提供燃耗链中各种次要锕系核素和裂变产物的截面数据,从而提高燃耗计算的效率和精度,并为后续的放射性源项分析和乏燃料管理提供更准确的输入。
表:CPSDNN方法在核电安全评估中的典型应用场景
应用场景
技术贡献
安全价值
基准验证
提高模拟与实验的一致性
增强安全分析的可靠性
动态事故分析
提供更准确的瞬态截面数据
改善事故进程预测的准确性
严重事故分析
描述复杂核素的中子行为
支持有效的事故管理策略
不确定性分析
量化核数据不确定性的影响
提供更合理的安全裕量评估
4.4 燃料管理优化中的潜在应用
核燃料管理的目标是在保证安全的前提下,通过优化燃料组件的装载、置换和燃耗策略,实现最优的经济效益。这是一个极其复杂的组合优化问题。
•优化循环的加速器:燃料管理优化通常需要在一个迭代循环中进行数千次乃至数万次的堆芯物理计算,以评估不同装料方案的性能。这个过程的瓶颈往往就在于中子物理计算的耗时。将CPSDNN作为堆芯物理计算中的一部分,可以极大地缩减单次评估的时间,使得优化算法能够探索更广泛的方案空间,或在更短的时间内收敛到更优的解 。
•与大语言模型(LLM)的协同:未来的核燃料管理可能会出现人机协同的新模式。例如,工程师可以用自然语言向一个大型语言模型描述优化目标和约束,LLM负责生成候选的装料方案,然后调用CPSDNN赋能的快速物理模拟器进行验证和评估,形成一个高效的“提出-验证”闭环 。
4.5 推广应用面临的核心障碍
从理论上的巨大潜力到现实中的广泛应用,CPSDNN必须克服以下几个核心障碍:
1.验证与确认(Verification & Validation, V&V)的挑战:
○定义:V&V是确保计算模型和代码正确、可靠的必要过程。验证(Verification)是确保你“正确地解了方程”(即代码无误),而确认(Validation)是确保你“解了正确的方程”(即模型能准确反映物理现实) 。
○困境:对于基于物理方程的传统代码,V&V已经有了一套成熟的流程和标准。但对于像CPSDNN这样的AI模型,如何进行V&V是一个全新的、开放性的问题 。如何系统性地验证一个神经网络没有“学到”错误的关联?如何确认它在面对训练集中未见过但物理上可能发生的工况时,能给出合理的响应?这些问题目前没有标准答案。
2.监管机构的接受度:
○核工业是一个受到严格监管的行业,任何用于安全相关计算的软件和数据都必须经过监管机构(如中国的国家核安全局NNSA、美国的NRC)的审评和许可。
○监管机构天然的保守性使其对“黑箱”模型持高度谨慎态度。在CPSDNN的决策过程和内在逻辑能够被充分理解和解释之前,监管机构很难批准其在核电厂的安全分析中使用 。
3.“黑箱”模型的物理可解释性(Interpretability):
○如前所述,CPSDNN缺乏物理可解释性是其最大的软肋。一个核工程师不仅想知道截面是多少,更想知道为什么是这个值,哪个物理机制在起主导作用。当模型预测出现异常时,无法进行物理解释和追根溯源,这将极大地削弱工程师对模型的信任 。
4.数据质量与网络安全:
○CPSDNN的性能直接取决于训练数据的质量。如何保证训练数据(即评价核数据库)的权威性、一致性和完整性是一个持续的挑战。
○此外,作为一种软件,AI模型也面临着独特的网络安全威胁,例如“对抗性攻击”(Adversarial Attacks),即通过对输入进行微小的、人难以察觉的扰动,使得模型输出完全错误的结果。在核安全领域,这种风险是不可接受的。
第五章: 主要争议点、各方立场与观点分析
CPSDNN的横空出世,不仅仅是一项技术进步,它更像一颗投入平静湖面的巨石,在核数据和核工程领域激起了关于研究范式、技术路线和未来方向的涟漪和辩论。虽然在公开的文献中,直接针对CPSDNN的批评和反对声音非常罕见 这主要是因为该技术尚属新生事物,其巨大的成功光环暂时掩盖了潜在的争议。然而,我们可以通过分析不同群体的核心关切,来勾勒出这场正在酝酿中的深刻辩论。
5.1 “数据驱动” vs. “物理驱动”的根本性辩论
这场争议的核心,是一场关于建模哲学的根本性辩论:我们应该更信赖一个能完美拟合数据但机理不透明的“黑箱”,还是一个基于第一性原理但可能存在近似和偏差的“白箱”?
•数据驱动(Data-Driven)范式:以CPSDNN为代表。其核心信念是,数据中包含了描述系统行为的全部信息。只要有足够多、足够好的数据,以及足够强大的学习算法,我们就能构建出比任何基于简化物理假设的模型都更精确的预测工具。它追求的是预测的准确性。
•物理驱动(Physics-Driven)范式:以R-矩阵理论为代表。其核心信念是,只有基于基本物理规律(如量子力学、守恒定律)建立的模型才是真正可靠和可信的。模型不仅要拟合数据,更要揭示数据背后的物理机理。它追求的是解释的深刻性和外推的可靠性 。
这场辩论并非核领域的特例,它在气候科学、材料科学、生物学等所有复杂系统研究领域都在上演。CPSDNN的成功,将这场宏大的哲学辩论,以一种极为具体和尖锐的方式,摆在了全体核科学工作者的面前。
5.2 CPSDNN支持者的立场与论据
CPSDNN的支持者,主要以其开发团队中国原子能科学研究院核数据重点实验室为核心,以及部分对人工智能在科学发现中持开放和乐观态度的研究者。他们的立场和论据清晰而有力:
•效率是核心优势:他们强调,CPSDNN将核数据评价的效率提升了数个数量级,这是对传统方法的一次“降维打击”。在科研和工程迭代速度决定竞争力的时代,效率本身就是一种不可替代的价值 。
•精度是硬道理:CPSDNN能够以前所未有的精度再现²³⁵U的复杂共振结构,这本身就证明了其强大的学习和表达能力。在很多工程应用中,用户关心的是能否获得准确的输入数据,至于这个数据是如何产生的,可能并非首要关切。
•开辟新赛道:他们认为,CPSDNN的成功不是要终结R-矩阵理论,而是为核数据科学开辟了一条全新的、与传统方法并行互补的技术赛道 。数据驱动方法特别适合于处理那些物理图像极其复杂、传统建模举步维艰的问题。
•“可解释性”是发展中的问题:他们承认当前AI模型的可解释性是一个挑战,但这并非一个无解的问题。随着可解释AI(XAI)研究的深入,未来有望开发出能“解释”自己预测逻辑的神经网络,从而打开“黑箱”。
5.3 传统R-矩阵理论拥护者的潜在疑虑
尽管没有公开的文献直接批评CPSDNN,但我们可以合理推断,传统的核数据评估专家和R-矩阵理论的拥护者,会对CPSDNN的快速崛起抱有复杂的、甚至审慎和怀疑的态度。他们的潜在疑虑可能集中在以下几点:
•“它没有理解物理”:这是最核心的疑虑。在他们看来,CPSDNN只是一个极其精巧的“曲线拟合器”,它通过海量参数的调整,“记住”了数据的形状,但并未真正“理解”共振现象背后的量子力学原理,如幺正性、道尔顿关系等。一个不理解物理的模型,其可靠性是存疑的 。
•“ Garbage in, garbage out”:他们会强烈质疑CPSDNN对训练数据的过度依赖。核数据的实验测量本身就存在误差和不自洽之处,R-矩阵评估的一个核心工作就是基于物理规律对这些有瑕疵的数据进行权衡、修正和评估。CPSDNN缺乏这种物理“鉴赏力”,如果用有偏差的数据去训练,它只会产生一个“精确的错误”模型。
•“外推是不可逾越的鸿沟”:他们会认为,CPSDNN无法进行可靠的外推预测。一个真正的物理模型,因为掌握了底层的规律,所以即使在没有数据的区域,也能做出有物理依据的、合理的预测。而CPSDNN一旦超出其训练数据的边界,其行为将是完全不可预测的,这在安全攸关的核工程应用中是致命的。
•“共振参数的丢失是巨大的损失”:R-矩阵分析的产出不仅是截面曲线,更重要的是一套具有明确物理意义的共振参数。这些参数本身就是宝贵的物理知识,对于核结构理论、天体物理核合成等研究至关重要。CPSDNN范式下,这些宝贵的物理信息被隐藏在了神经网络海量的、无法解释的权重参数中,是一种信息的巨大损失。
5.4 监管机构与国际组织的立场
核安全监管机构(如NNSA, NRC)和国际组织(如国际原子能机构IAEA、经合组织核能署NEA)在这一问题上的立场,可以用“积极关注,极度审慎”来概括。
•积极关注:IAEA、NEA等国际组织已经认识到AI和机器学习对核科学与核工程的巨大潜力,并已开始组织相关的技术会议、研讨会和合作研究项目,旨在探索AI在核数据、核安保、核不扩散等领域的应用 。他们鼓励成员国在该领域进行前沿探索。
•极度审慎:在涉及到将AI模型用于核电厂的安全决策和许可申请时,他们的立场是极其保守的。他们反复强调,任何新方法的引入,都必须伴随着一套严格、透明、可复现的验证与确认(V&V)流程。在针对AI模型的V&V标准和导则建立起来之前,监管机构不会轻易为其“开绿灯” 。他们最关心的问题包括:模型的鲁棒性、不确定性量化、对网络攻击的防御能力,以及最重要的——当AI模型出错时,其责任的界定。
5.5 争议点综合分析
综合来看,围绕CPSDNN的争议,本质上是核科学领域面对人工智能这一颠覆性力量时,必然经历的阵痛和反思。这不是一个简单的技术路线之争,而是一场深刻的科学范式转移的前奏。
•短期内,两种范式将并行发展、相互补充。R-矩阵理论作为基于物理的“解释性”模型,在提供物理洞察、处理稀疏或有争议实验数据、进行可靠外推等方面仍具有不可替代的优势。而CPSDNN作为“预测性”模型,在处理已有共识的、数据质量好的海量数据,追求极致的计算效率和拟合精度方面,将大放异彩。
•中长期,融合是必然趋势。未来的主流可能既不是纯粹的“物理驱动”,也不是纯粹的“数据驱动”,而是两者的深度融合。例如,发展“物理知识增强的神经网络”(PINNs),将R-矩阵理论中的某些物理约束(如守恒律)作为损失函数的一部分加入到CPSDNN的训练中,从而让模型在学习数据的同时,也“学会”遵守物理规律。
•最终,这场辩论将推动整个领域进步。CPSDNN的出现,像一条“鲶鱼”,搅动了传统核数据领域的“一池春水”。它迫使传统方法的研究者思考如何提高计算效率和自动化程度;也迫使AI方法的研究者思考如何解决模型的物理可解释性和可靠性问题。这种良性的竞争和思想碰撞,最终将推动核数据科学迈向一个更高、更智能化的新阶段。
第六章: 未来的发展方向与展望
CPSDNN的成功只是一个开端,它开启了通往未来智能化核数据科学的大门。为了让这项技术从一个“学术明星”真正成长为支撑核能发展的“产业基石”,未来的发展需要在算法、物模融合、标准化和应用拓展等多个层面协同推进。
6.1 算法层面的改进方向
CPSDNN本身作为一个算法模型,仍有持续优化的空间。
•提升低能区和高能区的性能:针对当前模型在数据稀疏的极低能区表现欠佳的问题,可以通过引入能量依赖的加权损失函数,或者设计更适合处理非均匀数据的网络结构来改进。对于共振峰逐渐消失、截面变得平滑的高能区,可以探索CPSDNN与传统统计模型(如光学模型)的混合建模方法。
•不确定性量化(UQ):目前的CPSDNN模型只给出一个确定性的预测值。未来的关键一步是发展能够同时输出预测值及其置信区间(不确定度)的概率性神经网络模型,例如贝叶斯神经网络(BNN)或基于集成学习的方法。这对于下游的核安全分析和风险评估至关重要 。
•主动学习(Active Learning):为了解决对高质量标注数据的依赖,可以开发主动学习框架。模型可以自动识别出当前最不确定、信息量最大的能量区域,并“请求”在该区域进行更高精度的实验测量或R-矩阵计算,从而以最小的成本最高效地提升模型性能。
•自动化超参数优化:CPSDNN的性能也依赖于网络结构、学习率等一系列超参数的选择。可以利用自动化机器学习(AutoML)技术,实现超参数的自动搜索和优化,进一步降低模型的使用门槛,实现真正的“一键式”建模。
6.2 物理知识与AI的深度融合
这是解决CPSDNN“黑箱”和外推能力不足等根本性问题的必由之路,也是当前国际科学计算与AI交叉领域最前沿的研究方向。
•物理知识增强的神经网络(PINNs):核心思想是将已知的物理规律(以偏微分方程、守恒律等形式表达)作为一个额外的“软约束”项,加入到神经网络的损失函数中 。在CPSDNN的应用场景中,可以将R-矩阵理论中的一些基本关系式,或者截面数据应满足的积分守恒定律(如中子数守恒)融入训练过程。这样训练出的模型,不仅要拟合数据,还要尽量不违反物理规律,从而有望获得更好的泛化能力和一定的物理可解释性。
•发展可解释AI(XAI)技术:应用SHAP、LIME等模型事后解释技术,或者设计本身就具有内在可解释性的新型网络结构(如符号回归网络),来尝试“打开”CPSDNN的黑箱。目标是能够分析出,对于某一个共振峰的形成,是哪些输入特征(能量)和网络内部的哪些神经元起到了关键作用,从而建立起模型决策与物理直觉之间的桥梁 。
•混合建模(Hybrid Modeling):可以构建R-矩阵模型与CPSDNN的混合模型。例如,用R-矩阵来描述主要的、物理图像清晰的少数共振峰,而用CPSDNN来拟合由大量无法分辨的、遥远能级贡献的平滑“背景”部分。这种取长补短的策略,可能在精度、效率和可解释性之间达到最佳的平衡。
6.3 验证、确认与标准化(V&V&S)路径
要让CPSDNN进入核电行业的“工具箱”,必须为其量身打造一套严格的V&V与标准化(Standardization)流程。
•建立基准问题(Benchmark Problems):国际核数据界需要合作建立一套标准的、难度和复杂度递增的基准测试案例,用于系统性地评估和比较不同AI模型的性能。这些案例应包含从简单孤立共振到复杂重叠共振,从理想数据到含噪声数据的各种情况。
•制定AI模型的V&V导则:需要由国际组织(如IAEA, NEA)和各国监管机构牵头,组织专家制定专门针对在核安全分析中应用AI模型的V&V指南和技术标准 。这份指南需要明确规定对训练数据质量的要求、模型鲁棒性和泛化能力的测试方法、不确定性量化的标准流程、以及软件质量保证和版本控制的要求。
•推动国际合作与数据共享:建立一个开放的国际平台,鼓励不同国家的研究团队共享他们的CPSDNN模型、训练代码和测试结果,进行交叉验证和同行评审。这种开放合作的模式是建立社区信任、加速技术迭代和推动标准形成的最有效途径 。
6.4 从单一核素到全评价核数据库的拓展
CPSDNN在²³⁵U上的成功只是一个起点。其宏伟的远期目标,是利用这一技术(或其改进版),来构建全新的、智能化生成的下一代评价核数据库。
•向其他核素拓展:需要系统性地将CPSDNN方法应用到其他重要的核素上,特别是其他重锕系核素(如²³⁸U, ²³⁹Pu)和结构材料核素(如Fe, Cr, Ni)的共振区数据评估。这将全面检验CPSDNN方法的普适性。
•处理多反应道数据:目前的CPSDNN研究主要集中在单一的裂变截面。未来需要将其扩展到能够同时处理和预测多个反应道(如总截面、弹性散射、辐射俘获等)的能力。这需要模型能够学习和遵守不同反应道截面之间的内在物理关联(例如,它们之和必须等于总截面)。
•构建AI驱动的评价流水线:最终的愿景是建立一个高度自动化的核数据评价“流水线”。原始的实验数据输入一端,经过数据清洗、预处理、CPSDNN建模、物理一致性检验、不确定性评估等一系列由AI赋能的模块,最终在另一端输出一份完整、高质量、格式标准的评价核数据文件。这将彻底改变核数据生产的传统手工作坊模式。
6.5 国际合作与开源生态建设
技术的生命力在于其开放性和生态。中国原子能科学研究院在CPSDNN上取得了领先优势,未来可以通过更加开放的姿态,引领该领域的国际发展。
•推动模型和代码的开源:在适当的时候,将CPSDNN的核心算法和基础模型进行开源,可以极大地促进其在全球范围内的应用、测试和改进,快速建立起一个围绕该技术的开发者和用户社区。
•主导国际标准的制定:基于已有的技术优势和实践经验,积极参与甚至主导IAEA、NEA等国际平台上关于AI在核数据中应用的标准化工作,将中国的创新方案转化为国际标准,提升我国在国际核领域的话语权和影响力。
核技术论坛
阅读
赞
分享
言