<bdo id="2b3yk"><code id="2b3yk"></code></bdo>

  • <output id="2b3yk"><sup id="2b3yk"></sup></output>
    <output id="2b3yk"><ruby id="2b3yk"></ruby></output>
  • <code id="2b3yk"><delect id="2b3yk"></delect></code>

  • 社區檢測算法在評論中的應用

    介紹一種社群檢測算法在惡意評論發掘中的應用

    前言

    在社交網絡或者電商網站中,存在著用戶關注其他用戶或者用戶瀏覽商品的二部圖,而這些關系網絡之中經常蘊藏大量的刷單,虛假,偽造行為,社區檢測算法正是針對這些場景,進行深度行為挖掘,本文主要講述一種社區檢測算法在評論場景下的應用。

    業務場景描述

    應用商店下載評論業務人員發現有大量刷單行為,通過分析發現他們評論的內容和時間點都有明顯的聚合效應,業務風控需要協助業務方挖掘出此場景下的惡意,需要評論人員,再依據發掘的信息進行跟蹤二次處理。

    算法選型

    FRAUDAR算法來源于2016年KDD會議,該論文獲得了當年的最佳論文獎。該算法要解決的問題是找出站內最善于偽裝的虛假賬戶簇。其原理是虛假賬戶會通過增加和正常用戶的聯系來進行偽裝,而這些偽裝(邊)會形成一個很緊密的子網絡,這樣就可以通過定義一個全局的度量,再移除二部圖結構中的邊,使得剩余網絡結構對應的度量的值最大,這樣就找到了最緊密的子網絡,而這個網絡就是最可疑的。

    算法過程

    算法的核心計算過程可以簡要描述如下,具體可以參考原論文中Algorithm1的偽代碼:

    a、建立優先樹(一種用于快速移除圖結構邊的樹結構);

    b、對于二部圖中的任意節點,貪心地移除優先級最高(由優先樹得到)的節點,直至整個網絡結構為空;

    c、比較上述每一步得到的子網絡結構對應的全局的度量,取該值最大的子網絡結構,那么該子網絡結構就是最緊密的子網絡,也就是最可疑的團伙。

    其中最關鍵的地方是定義了一個全局度量,該Metric的定義是(目標度量),可以理解成子網絡結構中每個點的平均可疑程度

    g(s)=f(s)/|s|

    其中,

    f(s)=fv(s)+fe(s)

    通過這樣的定義,很容易可以得出4條性質:

    1、固定其他條件,包含更高可疑度節點的子網絡比包含較低可疑度節點的子網絡更可疑;

    2、固定其他條件,增加可疑的邊使得子網絡更可疑;

    3、如果節點和邊的可疑程度固定,那么大的子網絡比小的子網絡更可疑;

    4、總的可疑程度相同,那么包含節點數少的子網絡更可疑。

    核心過程

    該算法的核心計算過程就是貪心地移除圖中的點,使得每次變更f的變化最大,在移除一個節點的同時,只有與之相鄰的節點會發生變化,那么這樣最多產生O(|E|)次變更,如果找到合適的數據結構使得訪問節點的時間復雜度為O(log|V|),那么總的時間復雜度就是O(NlogN)。

    基于這樣的考慮建立了優先樹,這是一個二叉樹,圖中的每個節點都是樹的一個葉子節點,其父節點為子節點中優先級較高的,樹建完之后就可以按照O(log|V|)的速度獲得優先級最高的節點。

    抗虛假行為

    該算法的核心計算過程就是貪心地移除圖中的點,使得每次變更f的變化最大,在移除一個節點的同時,只有與之相鄰的節點會發生變化,那么這樣最多產生O(|E|)次變更,如果找到合適的數據結構使得訪問節點的時間復雜度為O(log|V|),那么總的時間復雜度就是O(NlogN)。

    基于這樣的考慮建立了優先樹,這是一個二叉樹,圖中的每個節點都是樹的一個葉子節點,其父節點為子節點中優先級較高的,樹建完之后就可以按照O(log|V|)的速度獲得優先級最高的節點。

    線上特征工程

    1、定時獲取線上評論數據,包括但不限于:

    用戶id、應用id、設備id、創建時間等等

    2、數據進行編碼處理(由于設備id及應用id數字過大,需要去重后重新編碼處理)

    fd1.png

    3、設備及應用關注映射構造

    4、設置最大社群10個

    5、保存分類簇結果(以設備id為分群數據提取)

    fd2.png6、設定最小閾值,選擇最可疑社區群簇里面的設備

    fd3.png

    線上效果

    我們選擇線上抽取連續一個月的數據進行分析,數據集合79927個,原始數據如下:

    fd4.png

    經過FRAUDAR檢測出8個問題群簇,效果圖如下:

    fd5.png

    總結

    上述社群8類從小到大可疑度依次遞增,系統中可以依據運營經驗設置一個可疑閾值,選擇此閾值下的所有社群。檢測之后可以針對發掘的用戶做行為跟蹤或者限制行為處理,同時還可以結合監督學習進行分析,實現系統自動挖掘及模型線上防御,盡可能的來減少人工運營流程。

    取消
    Loading...
    css.php 宁夏卫视在线直播观看