top of page

資料挖掘中常用的模式評估方法



在資料挖掘中,模式評估是評估探勘模式的方法,這些模式可以用來描述數據集中的趨勢和模式。模式評估的目的是確定模式的可靠性和有用性,以便將其用於進一步的分析和預測。以下是幾種常見的模式評估方法:




1. 支持度:支援度是指在所有交易中出現某個項集的次數與總交易數的比例。支持度越高,則項集的出現次數越多,也就越有可能是一個有用的模式。

  • 在資料挖掘中,支持度是指一個項集出現在資料集中的次數除以總的資料筆數。支援度可以用來衡量一個項集在整個資料集中的普遍程度。支持度越高,代表這個項集出現的可能性越大。

  • 在模式評估中,支援度是最基本的指標之一,可以用來判斷一個項集是否具有重要性。一般來說,如果一個項集的支援度超過了事先設定的閾值,則可以將其視為一個有足夠重要性的項集,進一步進行關聯規則挖掘等工作。支援度的計算方式非常簡單,只需要將項集出現的次數除以總的資料筆數即可。

  • 當然,支援度不是唯一的模式評估指標,還有其他指標如置信度、lift等,可以綜合使用以提高模式挖掘的效果。



2. 置信度:置信度是指在包含某個項集A的交易中,也包含項集B的機率。置信度越高,則項集B在項集A的條件下出現的概率越大,也就越有可能是一個有用的模式。在資料挖掘中,置信度(Confidence)是指條件機率(Conditional Probability),即當條件發生時,結果發生的概率。在關聯規則挖掘中,置信度通常用於評估一個項目集合中的規則是否強大。置信度越高,表示該規則越可靠,即當某些項目出現時,其他項目也會出現的可能性更高。評估置信度的方法是使用支援度(Support)和條件支援度(Conditional Support)。支援度是指包含該項目集合的所有交易數量佔總交易數量的比例,條件支持度是指包含該項目集合和另一個項目的交易數量佔包含該項目集合的交易數量的比例。條件支援度可以用來計算置信度。

具體地說,置信度可以通過以下公式計算: Confidence(A→B) = Support(A∪B) / Support(A) 其中,A和B分別是兩個項目集合,A∪B表示包含A和B的所有項目,Support(A∪B)表示包含A∪B的交易數量佔總交易數量的比例,Support(A)表示包含A的交易數量佔總交易數量的比例。如果置信度高於某個閾值,則可以認為該規則是可靠的。 除了置信度,還有其他一些評估關聯規則的指標,例如支持度、提升度(Lift)和卡方值(Chi-square value),可以根據需要選擇適合的指標進行評估。




3. 支持度和置信度的關係:在實際應用中,支持度和置信度是需要一起考慮的。如果一個項集的支持度很高,但置信度很低,則該項集可能是一個無用的模式。相反,如果一個項集的置信度很高,但支持度很低,則該項集可能是一個不夠穩定的模式。

  • 支援度和置信度是關聯規則挖掘中常用的兩個度量。支持度(Support)指的是包含某個項集的交易次數與總交易次數之間的比例,即項集在資料集中出現的頻率。而置信度(Confidence)指的是當規則左邊的項集出現時,規則右邊的項集也同時出現的概率,即條件概率。

  • 支援度和置信度之間的關係可以通過以下公式表示:

  • 置信度 = 支持度(左邊項集和右邊項集同時出現的次數) / 支持度(左邊項集出現的次數)

  • 可以看出,置信度是在支持度的基礎上計算出來的。在關聯規則挖掘中,通常會設

  • 最小支持度和最小置信度的閾值,只有滿足這些閾值的規則才被認為是有意義的。




4. 提升度:提升度是指包含項集A和B的交易中,B出現的概率相對於其在所有交易中出現的概率的提升程度。如果提升度大於1,則項集B的出現與項集A的出現是相關的,也就是項集A對於項集B的出現具有影響力。


  • 提升度(lift)是資料挖掘中用來評估兩個事件之間關聯性的一個指標。提升度的值越大,表示關聯性越強,越能用來預測後件項的出現。

  • 具體來說,提升度衡量的是項目 A 出現的情況下項目 B 出現的機率,相對於項目 A 和項目 B 獨立出現的機率的比值,公式如下:

  • 提升度(lift)= P(A&B) / (P(A) * P(B))

  • 其中,P(A&B) 表示項目 A 和項目 B 同時出現的機率,P(A) 和 P(B) 分別表示項目 A 和項目 B 單獨出現的機率。

  • 提升度的值可以大於 1、等於 1、小於 1 或等於 0。當提升度等於 1 時,表示項目 A 和項目 B 獨立出現,沒有關聯性;當提升度大於 1 時,表示項目 A 和項目 B 存在正向關聯性,項目 A 出現時項目 B 的出現機率會增加;當提升度小於 1 時,表示項目 A 和項目 B 存在負向關聯性,項目 A 出現時項目 B 的出現機率會減少;當提升度等於 0 時,表示項目 A 和項目 B 無關聯。


5. 卡方檢驗:卡方檢驗是一種統計檢驗方法,用於確定觀察到的數據是否符合期望數據。在關聯規則挖掘中,卡方檢驗可用於評估項集之間的相關性,從而判斷其是否是一個有用的模式。

  • 卡方檢驗是資料挖掘中用於測試假設的統計方法之一,通常用於評估兩個類別型變數之間是否有關聯性。在資料挖掘中,卡方檢驗通常用於評估關聯規則的重要性。

  • 在關聯規則挖掘中,卡方檢驗用於評估一個項目集是否是一個強關聯規則。具體而言,卡方檢驗用於比較一個項目集的支持度和置信度與隨機事件之間的期望支持度和置信度之間的差異。

  • 通常,如果一個項目集的卡方值越高,就意味著它越不可能是隨機產生的。因此,高卡方值的項目集通常被認為是重要的強關聯規則。

  • 資料挖掘中的卡方檢驗通常使用計算機軟件進行計算,例如Excel或R等。


6. 信息增益:資訊增益是一種度量信息量的指標,它可以用於評估項集之間的相關性。信息增益越大,則項集之間的相關性越強,也就越有可能是一個有用的模式。

在資料採擷中,資訊增益是一種用於特徵選擇的度量方法,它衡量了使用某個特徵對資料進行分類所獲得的信息量的增益。資訊增益越大,表示使用該特徵進行分類可以獲得更多的資訊。以下是評估資訊增益的步驟:

  • 計算資料集的熵(entropy):熵是用於衡量資料集純度的指標。熵越高,表示資料集越混亂,即資料集中包含的不同類別的樣本數差別很小。

  • 計算公式為:$H(D)=-\sum_{i=1}^{n}p_i\log_2p_i$,其中$n$為類別的個數,$p_i$為屬於第$i$類別的樣本在資料集中的比例。

  • 計算每個特徵的資訊增益:對於每個特徵,先計算它對資料集的條件熵(conditional entropy)。條件熵是指在該特徵的條件下,資料集的熵。計算公式為:$H(D|A)=\sum_{i=1}^{m}\frac{|D_i|}{|D|}H(D_i)$,其中$m$為該特徵的取值個數,$D_i$為資料集中特徵取值為第$i$個的樣本子集,$|D_i|$為$D_i$的樣本個數。然後,用資料集的熵減去該特徵的條件熵,即可得到該特徵的資訊增益。計算公式為:$IG(D,A)=H(D)-H(D|A)$。

  • 挑選資訊增益最大的特徵:對於所有特徵,計算它們的資訊增益,選擇資訊增益最大的特徵作為劃分資料集的最優特徵。

  • 需要注意的是,資訊增益的計算可能存在過擬合的問題,因此在實際應用中,通常會採用其他特徵選擇方法,如基於懲罰項的方法或基於決策樹的方法。

bottom of page