国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【二等獎方案】大規(guī)模金融圖數(shù)據(jù)中異常風險行為模式挖掘賽題「Aries」解題思路

這篇具有很好參考價值的文章主要介紹了【二等獎方案】大規(guī)模金融圖數(shù)據(jù)中異常風險行為模式挖掘賽題「Aries」解題思路。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

第十屆CCF大數(shù)據(jù)與計算智能大賽(2022 CCF BDCI)已圓滿結(jié)束,大賽官方競賽平臺DataFountain(簡稱DF平臺)正在陸續(xù)釋出各賽題獲獎隊伍的方案思路,歡迎廣大數(shù)據(jù)科學家交流討論。

本方案為【大規(guī)模金融圖數(shù)據(jù)中異常風險行為模式挖掘】賽題的二等獎獲獎方案,賽題地址:https://www.datafountain.cn/competitions/586

【二等獎方案】大規(guī)模金融圖數(shù)據(jù)中異常風險行為模式挖掘賽題「Aries」解題思路,人工智能,數(shù)據(jù)挖掘,安全

獲獎團隊簡介

團隊名稱:Aries

團隊成員:本團隊屬校企聯(lián)合團隊,由江蘇電信和北京師范大學組成,主要研究方向包括數(shù)據(jù)挖掘,云原生,AI,應(yīng)用統(tǒng)計分析等,團隊具有一定的項目經(jīng)歷和比賽經(jīng)驗。

所獲獎項:二等獎

摘? ?要

隨著圖數(shù)據(jù)的日益普及,圖挖掘已成為圖分析的一項基本任務(wù),其中頻繁子圖及模式挖掘作為重要一環(huán)已經(jīng)被廣泛應(yīng)用在各個領(lǐng)域。在這個方向已經(jīng)有大量的文獻被發(fā)表,并取得了巨大的進步。隨著頻繁模式挖掘的深入研究,圖模型被廣泛地應(yīng)用于為各種事務(wù)建模,因此圖挖掘的研究顯得越來越重要。

針對本賽題要求,本文主要做了以下四個方面工作:1、挖掘出滿足閾值要求的的頻繁模式。2、精確計算模式頻繁的頻繁度。3、面向數(shù)據(jù)編程,盡可能優(yōu)化程序處理時間。4、使用OpenMP多線程框架,使程序在各個階段的性能都得到優(yōu)化。根據(jù)本隊伍實際執(zhí)行結(jié)果證明上述處理過程可以快速解決問題。

關(guān) 鍵 詞

頻繁子圖,模式挖掘,頻繁度

1 背景介紹

1.1 頻繁子圖挖掘介紹

頻繁子圖挖掘是數(shù)據(jù)挖掘中一個非常廣泛的應(yīng)用。頻繁子圖挖掘是指從大量的圖中挖掘出滿足給定支持度的頻繁子圖,同時算法需要保證這些頻繁圖不能重復(fù)。頻繁模式挖掘主要就是應(yīng)用兩種策略——Apriori和Growth。最早的AGM和FSG就分別實現(xiàn)了這兩重策略的基本思想。gSpan是一個非常高效的算法,它利用dfs-code序列對搜索樹進行編碼,并且制定一系列比較規(guī)則,從而保證最后只得到序列“最小”的頻繁圖集合。在頻繁模式挖掘算法中,常用方法是先計算候選模式的可能性空間,再確定頻繁度,由于查找子圖模式需要判斷子圖同構(gòu),而判斷子圖同構(gòu)是NP完全問題[1],因此計算代價非常大?;趩我淮髨D頻繁子圖挖掘、頻繁圖模式挖掘算法GRAMI[2]可以利用多種巧妙的剪枝算法提升挖掘性能。子圖生成過程中采用了GSAPN中的最右路擴展,從而保證了搜索空間是完備的。在計算圖的支持度時,理論上也是精確的。但算法也提供了支持度的近似算法,近似算法保證了挖掘的子圖一定是頻繁的,但不是所有頻繁的子圖都能獲得,如果要獲得所有頻繁子圖需要調(diào)整支持度大小。?

1.2 本題方案簡介

本賽題使用簡化的金融仿真數(shù)據(jù),數(shù)據(jù)帶有時間戳和金額的賬戶間交易、轉(zhuǎn)賬等數(shù)據(jù)?;诖藬?shù)據(jù)自動挖掘出不小于頻繁度(f >= 10000)的頻繁子圖模式集合。判定子圖同構(gòu)的方法需要屬性值匹配,包括交易金額、策略名、業(yè)務(wù)編碼及名稱。子圖只需匹配到3階(3條邊)子圖,頻繁度指標需滿足單調(diào)性要求。

本方案主要將頻繁子圖挖掘分為兩個個階段:1:剪枝階段。按題目模式匹配的要求計算出每條邊的頻繁度,根據(jù)單調(diào)性要求,將不滿足支持度的邊去掉,可以為后面挖掘二階三階子圖省去大量無效遍歷。2:精確計算頻繁度階段。利用近似的頻繁模式,根據(jù)單調(diào)性要求,精確計算出滿足閾值要求的模式頻繁度。具體流程圖見圖1.

【二等獎方案】大規(guī)模金融圖數(shù)據(jù)中異常風險行為模式挖掘賽題「Aries」解題思路,人工智能,數(shù)據(jù)挖掘,安全

圖1

2 算法設(shè)計與實現(xiàn)

我們將整體流程細分為5個步驟,分別是輸入、構(gòu)圖、剪枝、頻繁度計算和輸出。首先,需要將數(shù)據(jù)文檢讀取進內(nèi)存,用方便讀取的數(shù)據(jù)結(jié)構(gòu)存儲,因為是有向圖需要用偏移范圍作索引,可以實現(xiàn)根據(jù)邊起點的隨機遍歷。之后利用邊數(shù)據(jù)屬性值將邊編碼成一個整數(shù),用整型數(shù)組對模式計數(shù),刪除不滿足支持度要求的邊,因為基于單調(diào)性,其拓展的圖也不頻繁。這樣可以大大縮小了邊的數(shù)據(jù)規(guī)模。對候選模式求頻繁度,由于候選模式較少,可以用二維數(shù)組遍歷一次即可求出所有模式的頻繁度。在輸入、構(gòu)圖、剪枝和頻繁度四個階段都是用OpenMP并行處理,大大提高了程序運行效率。

2.1 輸入和構(gòu)圖

輸入部分主要是從點數(shù)據(jù)文件和邊數(shù)據(jù)文件讀入數(shù)據(jù),數(shù)據(jù)約748MB,因為數(shù)據(jù)量較大,讀數(shù)據(jù)需要花很多時間,因此需要提高文件讀取速度,我們團隊采用mmap系統(tǒng)調(diào)用的方法讀取文件,將數(shù)據(jù)存儲到數(shù)組中。由于本賽題不僅考察答案的準確率,相同答案的情況下程序的運行時間也作為考察依據(jù),為了加速文件讀取速度,我們采用多線程讀取,使用mmap映射后,根據(jù)文件的首地址和文件長度,按照字節(jié)長度將文件分配到多個任務(wù)中。上述為點數(shù)據(jù)的讀取。

struct Edge {

????uint32_t to;

????uint32_t amt;

????uint32_t strategy;

????uint32_t buscode;

} *edges;

uint32_t *loc;

邊數(shù)據(jù)讀取較為特殊,為了能方便后續(xù)算法根據(jù)起點可以快速遍歷,首先用多線程遍歷一次邊文件,將每個線程計算出的起點邊數(shù)和匯總在一個數(shù)組loc中,這樣若搜索定點s的邊的時候,其邊的范圍就是[loc[s],loc[s+1]]。結(jié)構(gòu)體中只存邊的屬性和目標點的信息。

2.2 剪枝

讀取的原始數(shù)據(jù)中,很多邊是不能滿足頻繁度要求的,根據(jù)單調(diào)性的約束,這些邊的拓展邊也不會滿足單調(diào)性約束,所以需要將這些無效邊刪除,這樣可以加速后續(xù)的處理。本方案使用flag數(shù)組標記邊的有效性,遍歷時遇到無效邊,就直接跳過。為了高效計數(shù),我們沒有使用dfs-code編碼,而是根據(jù)邊的屬性映射到整數(shù)上,通過一個整型數(shù)組作為計數(shù)器。例如一條邊的屬性為{from:1,to:1,aim:0,strategy:1,buscode:1},由于頂點只有3種類型(account_to_card可以用strategy區(qū)分),amt通過剪枝后有10種,strategy有6種,buscode有4種,這條邊可以描述為1*3*10*6*4+1*10*6*4+0*6*4+6*4+4,所有邊都可以通過此方法映射到對應(yīng)的整數(shù)上。這里有個提升性能的方法,在不影響正確結(jié)果的情況下,可以適當將調(diào)整閾值調(diào)大,不過這樣會導致和GRAMI[2]算法同樣的問題,如果將閾值調(diào)整過大,只能保證挖掘的子圖一定是頻繁的,但不是所有頻繁的子圖都能獲得,所以要根據(jù)圖調(diào)整。?

2.3 三階邊頻繁度計算

三階頻繁度計算就是根據(jù)單調(diào)性的約束和閾值約束,求出滿足條件的模式的頻繁度。通過上述對一階邊的剪枝,可以將剩下的邊繼續(xù)拓展到二階三階中,也利用單調(diào)性和閾值的約束計算,但由于在處理三階邊的時候數(shù)值過大,無法將編碼映射到整數(shù)中,所以在剪枝后要將邊的值重新映射到數(shù)組中。重新映射后三階邊也可以映射到數(shù)據(jù)中,映射方式和一條邊類似。這樣就可以求出滿足條件模式的頻繁度。

2.4 輸出

將計算出的結(jié)果使用fastjosn輸出到文件中,輸出時間占比較少,所以沒用多線程處理。

3 實驗結(jié)果

程序測試的物理機配置為4核 3.4Ghz服務(wù)器,操作系統(tǒng)為ubuntu20.04。我們對程序的各個階段4個線程和單線程進行了比較,結(jié)果如下圖2,多線程在各個階段都顯著提高運行速度,整個程序在4個線程下只需要執(zhí)行0.92s,當然這是本地測試環(huán)境的結(jié)果,由于硬件配置不同,與線上結(jié)果有一些差別。

【二等獎方案】大規(guī)模金融圖數(shù)據(jù)中異常風險行為模式挖掘賽題「Aries」解題思路,人工智能,數(shù)據(jù)挖掘,安全

圖2

致謝

感謝賽事的所有工作人員,他們默默無聞的努力,無微不至的付出,是支撐大賽順利運行的堅定基石。感謝隊友的努力付出,才能讓我們團隊進入最終決賽。

參考

[1] Wernicke S. Rasche F. FANMOD: A tool for fast network motif detection. Bioinformatics. 2006. 22(9) : 1152-1153

[2] GraMi:frequent subgraph and pattern mining in a single large graph [J] . Elseidy Mohammed,Abdelhamid Ehab,Skiadopoulos Spiros,Kalnis Panos. ?Proceedings of the VLDB Endowment . 2014 (7)


我是行業(yè)領(lǐng)先的大數(shù)據(jù)競賽平臺?@DataFountain?,歡迎廣大政企校軍單位合作辦賽,推動優(yōu)秀數(shù)據(jù)人才揭榜掛帥!文章來源地址http://www.zghlxwxcb.cn/news/detail-686146.html

到了這里,關(guān)于【二等獎方案】大規(guī)模金融圖數(shù)據(jù)中異常風險行為模式挖掘賽題「Aries」解題思路的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 2022(二等獎)C2464植物保護管理系統(tǒng)

    作品介紹 一、需求分析 1. 應(yīng)用背景 森林是陸地生態(tài)系統(tǒng)的主體,是人類生存與發(fā)展的物質(zhì)基礎(chǔ)。以森林為主要經(jīng)營對象的林業(yè),不僅承擔著生態(tài)建設(shè)的主要任務(wù),而且承擔著提供多種林產(chǎn)品的重大使命。進入21世紀,人類正在繼農(nóng)業(yè)文明和工業(yè)文明之后開始向生態(tài)文明邁進

    2024年02月11日
    瀏覽(34)
  • FLINK 在螞蟻大規(guī)模金融場景的平臺建設(shè)

    FLINK 在螞蟻大規(guī)模金融場景的平臺建設(shè)

    摘要:本文整理自螞蟻集團高級技術(shù)專家、螞蟻集團流計算平臺負責人李志剛,在 Flink Forward Asia 2022 平臺建設(shè)專場的分享。本篇內(nèi)容主要分為四個部分: 主要挑戰(zhàn) 架構(gòu)方案 核心技術(shù)介紹 未來規(guī)劃 點擊查看直播回放和演講 PPT 1.1 金融場景業(yè)務(wù)特點介紹 第一部分是時效性。金

    2023年04月21日
    瀏覽(20)
  • 服務(wù)器單機大規(guī)模數(shù)據(jù)存儲方案

    大規(guī)模數(shù)據(jù)存儲都需要解決三個核心問題: 1.數(shù)據(jù)存儲容量的問題,既然大數(shù)據(jù)要解決的是數(shù)據(jù) PB 計的數(shù)據(jù)計算問題,而一般的服務(wù)器磁盤容量通常 1~2TB,那么如何存儲這么大規(guī)模的數(shù)據(jù)呢? 2.數(shù)據(jù)讀寫速度的問題,一般磁盤的連續(xù)讀寫速度為幾十 MB,以這樣的速度,幾十

    2024年02月11日
    瀏覽(26)
  • Redis 分區(qū):構(gòu)建高性能、高可用的大規(guī)模數(shù)據(jù)存儲解決方案

    在 Redis 中,分區(qū)是一種將數(shù)據(jù)分布在多個實例上的技術(shù),用于處理大規(guī)模數(shù)據(jù)和提高系統(tǒng)性能。通過分區(qū),可以將數(shù)據(jù)均勻地分布在多個節(jié)點上,從而減輕單個節(jié)點的負載壓力,并實現(xiàn)水平擴展。 Redis 分區(qū)應(yīng)用場景 1. 大規(guī)模數(shù)據(jù)存儲 在 Redis 中,單個實例的內(nèi)存有限,無法

    2024年04月14日
    瀏覽(22)
  • Debezium系列之:Debezium Server在生產(chǎn)環(huán)境大規(guī)模應(yīng)用詳細的技術(shù)方案

    Prod環(huán)境大規(guī)模應(yīng)用Debezium Server,基于Debezium Server實現(xiàn)數(shù)據(jù)庫數(shù)據(jù)采集直接Sink到目標中間件,例如kafka、redis等 基于

    2024年02月10日
    瀏覽(19)
  • 日志管理中的云計算和大數(shù)據(jù)方案:支持大規(guī)模日志數(shù)據(jù)的管理和分析

    作者:禪與計算機程序設(shè)計藝術(shù) 1.1. 背景介紹 隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,各種信息系統(tǒng)與應(yīng)用程序如雨后春筍般涌現(xiàn)出來。這些系統(tǒng)與應(yīng)用程序在運營過程中產(chǎn)生了大量的日志數(shù)據(jù),然而,這些日志數(shù)據(jù)往往分散在各個系統(tǒng)之間,缺乏統(tǒng)一的管理和分析,難以為系統(tǒng)的運維

    2024年02月16日
    瀏覽(19)
  • 大規(guī)模語言模型--LLaMA 家族

    大規(guī)模語言模型--LLaMA 家族

    LLaMA 模型集合由 Meta AI 于 2023 年 2 月推出, 包括四種尺寸(7B 、13B 、30B 和 65B)。由于 LLaMA 的 開放性和有效性, 自從 LLaMA 一經(jīng)發(fā)布, 就受到了研究界和工業(yè)界的廣泛關(guān)注。LLaMA 模型在開放基準的各 種方面都取得了非常出色的表現(xiàn), 已成為迄今為止最流行的開放語言模型。大

    2024年04月25日
    瀏覽(23)
  • 基于Spark的大規(guī)模日志分析

    摘要: 本篇文章將從一個實際項目出發(fā),分享如何使用 Spark 進行大規(guī)模日志分析,并通過代碼演示加深讀者的理解。 本文分享自華為云社區(qū)《【實戰(zhàn)經(jīng)驗分享】基于Spark的大規(guī)模日志分析【上進小菜豬大數(shù)據(jù)系列】》,作者:上進小菜豬。 隨著互聯(lián)網(wǎng)的普及和應(yīng)用范圍的擴

    2024年02月09日
    瀏覽(22)
  • LLaMA(大規(guī)模機器學習和分析)

    LLaMA(大規(guī)模機器學習和分析)是一個先進的軟件平臺,是Meta 推出 AI 語言模型 LLaMA,一個有著 上百億數(shù)量級參數(shù)的大語言模型用于大規(guī)模部署和管理機器學習模型。借助LLaMA,組織可以高效地在大型數(shù)據(jù)集上訓練和部署模型,縮短投放市場的時間,并提高預(yù)測模型的準確性。

    2024年02月11日
    瀏覽(20)
  • 云計算:如何訪問和分析大規(guī)模數(shù)據(jù)

    作者:禪與計算機程序設(shè)計藝術(shù) 隨著云計算平臺的不斷發(fā)展,越來越多的企業(yè)將他們的數(shù)據(jù)、應(yīng)用和服務(wù)部署在云端,希望借助云計算的能力來提升效率、降低成本、提高競爭力。但是同時也帶來了數(shù)據(jù)安全、隱私保護、數(shù)據(jù)可靠性等方面的挑戰(zhàn)。對于企業(yè)而言,如何更好地

    2024年02月15日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包