?
重庆时时彩国家不管吗?,北京pk10历史开奖记录,群英会实战技巧,高手网 特彩吧 论坛 凤凰彩票

学界 南京大学提出使用树型集成算法构建自编码

时间:2017-10-15 23:59来源:未知 作者:admin 点击:
原标题:学界 南京大学提出使用树型集成算法构建自编码器模型:对比DNN有更高的准确性和高效性 在本论文中南京大学周志华教授与其学生冯霁提出了 EncoderForest(eForest),即通过树

  原标题:学界 南京大学提出使用树型集成算法构建自编码器模型:对比DNN有更高的准确性和高效性

  在本论文中南京大学周志华教授与其学生冯霁提出了 EncoderForest(eForest),即通过树型集成算法执行前向编码和后向解码运算,该算法可以通过监督式和无监督式的方法进行训练。

  自编码器是一类很重要的任务,通常是使用如 CNN 那样的深度神经网络进行构建。在本论文中,我们提出了 EncoderForest(eForest),即第一种基于树型集成方法的自编码器。我们展示了一个能使森林利用树的决策路径进行后向重构的方法,并在无监督和有监督训练环境下展示了其使用方法。试验结果表明,相对于 DNN 自编码器,eForest 能获得较低的重构误差(reconstruction error)和较快的训练速度。此外,模型本身还具有容损性(damage-tolerable)和可复用性(reusable)。

  容损性(Damage-tolerable):训练的模型即使在部分损坏的情况下也能很好地工作。

  首先,我们提出了 EncoderForest 的编码过程。给定树型集成模型(T 棵已训练的树),前向编码过程接受输入数据并将其发送到集成方法中每棵树的根结点,一旦数据遍历(traverse)到所有树的叶结点,该过程将返回 T 维向量,每个元素 t 是树 t 中的叶结点的整数索引。

  实际上,森林一般可以从每棵树的根结点传播到叶结点而进行前向预测,但并不明确如何进行后向重构,即如何从叶结点中获得的信息推出原始样本。

  现在假定在编码过程中我们已经生成了图一所示的森林。那么我们仅能知道样本 x 最终分配的叶结点(图 1 红色结点),因此我们现在希望能利用叶结点的信息重构 x。

  这里,我们提出了一个非常简单的策略以在森林中执行后向重构。首先,每个叶结点实际上都对应于一条来自根结点的路径,因此我们可以基于叶结点确定地识别该路径。

  现在,我们可以总结 eForest 的后向解码过程。具体来说,给定一个已训练的森林和特定数据在 R^T 中前向编码的 x_enc,后向解码将首先通过 x_enc 中的每个元素定位独立的叶结点,然后获得对应决策路径的 T 个决策规则。随后通过计算 MCR(Maximal-Compatible Rule),我们能从 x_enc 反推回输入空间中的 x_dec,因此也就得到了重构。后向解码的伪代码如下所示:

  在本论文中,我们提出了 EncoderForest(简称 eForest),第一个基于树型集成算法的自编码器模型,通过设计一个有效的过程,我们让随机森林能够通过由树的决策路径所定义的最大相容规则(MCR)来重构原模式。实验证明了它在速度和准确率上的优势,同时,eForest 也具有容错性,模型可复用性也很高。特别地,在文本数据上,只使用 10% 的输入,该模型就可以重构出准确性很高的原始数据。eForest 的另一个优势在于,它可以直接应用于符号属性或混合属性,而不用将符号属性转换为数值属性,特别是在考虑转换过程通常会丢失信息或引入额外偏差时。

  注意,监督和无监督的 eForest 实际上是由多层 gcForest 深度森林的两个部分共同组成的。这项工作或许可为理解 gcForest(Zhou & Feng,2017)带来帮助。构建深度 eForest 模型也是一个未来的可能方向。

(责任编辑:admin)
顶一?
(0)
0%
踩一?
(0)
0%
------分隔?----------------------------
?