September 8, 2016
無論是在 Amazon 或 Yelp 發表假評論的,或政客疑似收買許多 Twitter 帳號來賺取膨脹的知名度,Carnegie Mellon University 發明了個演算法使得偵查假帳號更有利。
資訊相關教授 Christos Faloutsos 說道,這名為 FRAUDAR 的演算法在社群網站和詐騙帳號的貓捉老鼠遊戲中創造了另一個巔峰。他們看穿了那些假帳號(online fraudsters)欺騙社群守則慣用的伎倆。
Christos Faloutsos |
Christos Faloutsos 說道,我們不是為了在追查犯罪,而是這些詐騙行為正逐步減弱人們對網路評論和行為的信任,社群網站不斷想要遏止這些行為,或許這種演算法會很有用。
他們也把演算法的原始檔上傳。這項研究論文在 Knowledge Discovery and Data Mining (KDD2016) 的 Association for Computing Machinery's Conference 贏得最佳論文獎。
Christos Faloutsos 和他的數據分析團隊擅長使用圖探勘(graph mining),一種使用圖形來研究數據的方法。在這種情況下,社交媒體被轉換成圖形,以使用者為點,而之間的互動就是線。
這種最新偵測假帳號的方法(NetProbe, ...)是去找一種名為 bipartite core 的樣式。這種演算法是假定那些假帳號都只跟特定族群互動而不和另外些的族群互動。這些人唯一的目的就是灌水他人的人氣,藉由假互動或發布吹捧某產品的文章。
Christos Faloutsos 說道,那些詐騙帳號漸漸懂得偽裝自己了。他們將自己的帳號與有名的網站和明星連結或用剛搶來的合法帳號為己用,他們設法讓自己看起來很正常。FRAUDAR 仍然可以讓這些偽裝卸去。基本上而言,這演算法先鎖定可以被確認為合法帳號,追蹤一些人、偶爾發一些文及其他正常行為。這種精簡既重複且快,當這些正常帳號被從清單剔除,假帳號的偽裝就也浮出了,這使得 bipartite core 更容易鎖定。
為了測試此演算法,Christos Faloutsos 及其學生於 2009 年使用了大量的 Twitter 資料。FRAUDAR 找到 4000 多個高度嫌疑的帳號,雖然說在這 7 年終,他們的推文沒有被移除也沒有被踢出社群。研究學者從嫌疑犯中隨機選了 125 個追蹤者和 125 個被追蹤者,也設置了兩個沒有被演算法挑出的控制組。他們藉由含有病毒的連結或機器人般的行為,如:具有一定特徵的留言。他們發現 57% 的追蹤者和 40% 的被追蹤者是被定義為假帳號,相較於控制組的 12% 和 25%。41% 的追蹤者和 26% 的被追蹤者有使用 follower-buying services;如果忽略被刪或停權的帳號,則是 62% 及 42%。在控制組中則佔極少數。他們如此開放原始碼可以讓社群有很好的使用。
沒有留言:
張貼留言