数据挖掘 - 杂项分类方法

简述

在这里，我们将讨论其他分类方法，例如遗传算法、粗糙集方法和模糊集方法。

遗传算法的思想来源于自然进化。在遗传算法中，首先创建初始种群。这个初始种群由随机生成的规则组成。我们可以用一串位来表示每个规则。

例如，在给定的训练集中，样本由两个布尔属性（如 A1 和 A2）描述。这个给定的训练集包含两个类，例如 C1 和 C2。

我们可以对规则进行编码IF A1 AND NOT A2 THEN C2变成一个位串100. 在这个位表示中，最左边的两个位分别表示属性 A1 和 A2。

同样，规则IF NOT A1 AND NOT A2 THEN C1可以编码为001.

Note− 如果属性有 K 个值，其中 K>2，那么我们可以使用 K 位对属性值进行编码。这些类也以相同的方式编码。

要记住的要点 -

我们可以使用粗糙集方法来发现不精确和嘈杂数据中的结构关系。

Note− 这种方法只能应用于离散值属性。因此，连续值属性在使用前必须进行离散化。

粗糙集理论基于在给定训练数据中建立等价类。构成等价类的元组是不可识别的。这意味着样本在描述数据的属性方面是相同的。

在给定的现实世界数据中有一些类，它们无法根据可用属性进行区分。我们可以使用粗糙集roughly定义这样的类。

对于给定的 C 类，粗集定义由以下两组近似：

下图显示了 C 类的上下近似值 -

模糊集合论也称为可能性论。该理论由 Lotfi Zadeh 在 1965 年提出，作为替代two-value logic和probability theory. 这个理论使我们能够在高度抽象的情况下工作。它还为我们提供了处理数据不精确测量的方法。

模糊集理论还允许我们处理模糊或不精确的事实。例如，作为一组高收入的成员是完全正确的（例如，如果 50,000 美元很高，那么 49,000 美元和 48,000 美元又如何）。与元素属于 S 或其补集的传统 CRISP 集不同，但在模糊集理论中，元素可以属于多个模糊集。

例如，收入值 49,000 美元既属于中模糊集也属于高模糊集，但程度不同。该收入值的模糊集符号如下 -


m_{medium_income}($49k)=0.15 and m_{high_income}($49k)=0.96

其中“m”是分别在 medium_income 和 high_income 的模糊集上运行的隶属函数。这个符号可以用图表显示如下 -