摄像头干扰器实际数据库不是静态的,而是随时间变化的。例如:在美国流行歌手Lady Gaga在MV上大放异彩之后,在同一时期,灰色网站上的许多文章可能还包含大量与Lady Gaga相关的关键字。一段时间后,随着新闻事件的消失,此类关键字的出现可能会相对减少。类似主题可以用作灰色网站的醒目标题。灰色网站内容随时间变化和真实事件的现象称为“监控干扰器概念漂移” [8],[20]。因此,应定期更新最初使用机器学习过滤器建立的模型,以适合现实世界的信息。
如文献所建议,概念漂移问题的解决方案可以大致分为三种类型:
1)实例选择:此方法的主要目的是找出与当前概念有关的数据实例。最常见的摄像头屏蔽器技术是基于窗口的方法[19],[21],[22]。最新概念的数据实例以有限的容量存储在窗口中。添加新概念的数据实例并填充窗口后,旧概念的数据实例将移出窗口。当前概念的数据实例将通过使用这种方法进行记录。此外,可以通过在窗口中观察概念的数据实例来预测将来概念漂移的发生。但是,通过窗口中数据实例的数量来控制概念漂移是不公平的,并且无法显示窗口中数据实例的时间权重。因此,学者们提出了一种新的算法来动态调整窗口的数量,以便有效地判断概念漂移现象[23]。
2)实例权重:此方法对数据实例赋予不同的权重。每个数据实例将根据其到达时间分配一个权重[24]。例如,每个数据实例的权重由包括寿命在内的因素决定。然后,分类器将根据它们的权重计算数据实例的分类结果。请注意,如果数据实例超过了预定时间范围,则应将其处置。
3)集成学习方法:此方法应用两个以上分类器的加权投票来确定分类器的采用。在各种情况下,使用不同的分类器来预测分类结果并分配不同的权重。它解决了概念漂移问题[25],它结合了不同的分类器并选择了最优的监控干扰器组合以获得最佳的分类结果。
本文采用简单的机器学习方式和决策树数据挖掘技术,提出了一种过滤灰色网页的有效方法,该方法具有跟踪网页中概念漂移的能力。这项研究的最终目的是提高过滤精度,并降低过滤灰色网页的成本;通过数据挖掘,该方法不仅可以过滤URL,还可以扫描内容(正文)。关于URL功能和内容功能,我们使用决策树算法来学习网页类别(灰色网页,普通网页)与这些摄像头干扰器功能属性之间的关联规则。根据得出的规则,我们将提出一种更有效的灰色网页过滤机制,该机制具有以下主要优点:
上一篇:监控系统数据采集与预处理
下一篇:密切监控经网络的体系结构