数据挖掘 - 杂项分类方法

  • 简述

    在这里,我们将讨论其他分类方法,例如遗传算法、粗糙集方法和模糊集方法。
  • 遗传算法

    遗传算法的思想来源于自然进化。在遗传算法中,首先创建初始种群。这个初始种群由随机生成的规则组成。我们可以用一串位来表示每个规则。
    例如,在给定的训练集中,样本由两个布尔属性(如 A1 和 A2)描述。这个给定的训练集包含两个类,例如 C1 和 C2。
    我们可以对规则进行编码IF A1 AND NOT A2 THEN C2变成一个位串100. 在这个位表示中,最左边的两个位分别表示属性 A1 和 A2。
    同样,规则IF NOT A1 AND NOT A2 THEN C1可以编码为001.
    Note− 如果属性有 K 个值,其中 K>2,那么我们可以使用 K 位对属性值进行编码。这些类也以相同的方式编码。
    要记住的要点 -
    • 基于适者生存的概念,形成了一个新的种群,该种群由当前种群中的最适规则和这些规则的后代值组成。
    • 规则的适用性通过其在一组训练样本上的分类准确度来评估。
    • 使用交叉和变异等遗传算子来创建后代。
    • 在交叉中,来自一对规则的子串被交换以形成一对新的规则。
    • 在变异中,规则字符串中随机选择的位被反转。
  • 粗集方法

    我们可以使用粗糙集方法来发现不精确和嘈杂数据中的结构关系。
    Note− 这种方法只能应用于离散值属性。因此,连续值属性在使用前必须进行离散化。
    粗糙集理论基于在给定训练数据中建立等价类。构成等价类的元组是不可识别的。这意味着样本在描述数据的属性方面是相同的。
    在给定的现实世界数据中有一些类,它们无法根据可用属性进行区分。我们可以使用粗糙集roughly定义这样的类。
    对于给定的 C 类,粗集定义由以下两组近似:
    • C的下近似− C 的下近似由所有基于属性知识的数据元组组成,确定属于 C 类。
    • C的上近似− C 的上近似由所有基于属性知识的元组组成,不能被描述为不属于 C。
    下图显示了 C 类的上下近似值 -
    近似
  • 模糊集方法

    模糊集合论也称为可能性论。该理论由 Lotfi Zadeh 在 1965 年提出,作为替代two-value logicprobability theory. 这个理论使我们能够在高度抽象的情况下工作。它还为我们提供了处理数据不精确测量的方法。
    模糊集理论还允许我们处理模糊或不精确的事实。例如,作为一组高收入的成员是完全正确的(例如,如果 50,000 美元很高,那么 49,000 美元和 48,000 美元又如何)。与元素属于 S 或其补集的传统 CRISP 集不同,但在模糊集理论中,元素可以属于多个模糊集。
    例如,收入值 49,000 美元既属于中模糊集也属于高模糊集,但程度不同。该收入值的模糊集符号如下 -
    
    mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96
    
    其中“m”是分别在 medium_income 和 high_income 的模糊集上运行的隶属函数。这个符号可以用图表显示如下 -
    模糊方法