源自 https://github.com/fxmeng/filter-grafting
一种通过使用不同超参训练多个模型,并在训练过程中相互融合模型参数以达到减少无用卷积核数的方法,原理比较玄学,原论文发表在 CVPR 2020 上
融合方法
根据每层模型参数的熵来自动调节融合权重 alpha
首先:
$$H(x)=\sum_i^np(x_i, x_{i+1})*log\frac{1}{p(x_i, x_{i+1})}$$
将参数 x 根据值大小分为 n 等分,统计在 [i, i+1)
区间的参数数量,得到概率进而计算熵 H(x)
权重则为:
$$ alpha = \frac{A}{\pi}\cdot arctan(c\cdot (E(W_i^{M2})-E(W_i^{M1})))+0.5 $$
其中 A 和 c 为超参数,得出的 alpha 范围应该在 [0.5-A/2, 0.5+A/2]
,arctan 大概是为了将输出值域限定,并用 A、c 来调节不同熵差下的输出斜率(c 越小在零点附近就越平滑,c 越大零点附近越陡峭)
实际效果
[[模型改进实验-202110221125]]
在小模型上部分时候指标会变好,效果看起来差不多,可能会产生行为有所不同的模型。总之在图生成领域不算多有效的方法,实验的模型和任务下零核数少也可能是原因,但有时候有好过没有