1.大數(shù)據(jù)采集技術(shù)數(shù)據(jù)是指通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)獲得的各類結(jié)構(gòu)化、半結(jié)構(gòu)化(或弱結(jié)構(gòu)化)和非-1。一般來說,非結(jié)構(gòu)化數(shù)據(jù)庫很難擴(kuò)展到結(jié)構(gòu)化采用列設(shè)計(jì)的數(shù)據(jù)庫所能達(dá)到的程度。
1?!按髷?shù)據(jù)”時(shí)代數(shù)據(jù)挖掘的應(yīng)用與方法數(shù)據(jù)挖掘就是在沒有明確假設(shè)的情況下,挖掘信息,發(fā)現(xiàn)知識(shí)。所以它得到的信息應(yīng)該有三個(gè)特點(diǎn):未知、有效、實(shí)用。因此,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于企業(yè)營銷中。包括:數(shù)據(jù)庫營銷、客戶群劃分、背景分析、交叉銷售等市場分析行為,以及客戶流失分析、客戶信用評(píng)分、欺詐發(fā)現(xiàn)等。
數(shù)據(jù)挖掘的方法有很多種,從不同的角度挖掘數(shù)據(jù)。大部分都可以用在審計(jì)工作中。1.數(shù)據(jù)泛化。數(shù)據(jù)庫中通常存儲(chǔ)著大量的詳細(xì)數(shù)據(jù),大量與任務(wù)相關(guān)的數(shù)據(jù)集可以通過數(shù)據(jù)泛化從較低的概念層次抽象到較高的概念層次。數(shù)據(jù)概化可以應(yīng)用于審計(jì)數(shù)據(jù)分析中的描述性挖掘,審計(jì)人員可以從不同粒度、不同角度對(duì)數(shù)據(jù)集進(jìn)行描述,從而了解某一類數(shù)據(jù)的大致情況。
這兩個(gè)基本功能是:1 .數(shù)據(jù)收集;第二,數(shù)據(jù)分析和歸納。擴(kuò)展:首先,它必須容納海量數(shù)據(jù)。如果大數(shù)據(jù)分析平臺(tái)不能擴(kuò)展到存儲(chǔ)或管理海量數(shù)據(jù),單純提升速度的效果相當(dāng)有限。大數(shù)據(jù)分析平臺(tái)必須能夠容納海量數(shù)據(jù)。大規(guī)模并行處理是擴(kuò)展分析處理的理想技術(shù),因?yàn)樗瑫r(shí)使用計(jì)算機(jī)集群的存儲(chǔ)和計(jì)算能力。它不僅擴(kuò)展了性能,還提高了處理大量傳入數(shù)據(jù)流的能力。
結(jié)構(gòu)化數(shù)據(jù)庫可以更好的了解數(shù)據(jù)在數(shù)據(jù)海洋中的位置,可以準(zhǔn)確的訪問數(shù)據(jù)。一般來說,非結(jié)構(gòu)化數(shù)據(jù)庫很難擴(kuò)展到結(jié)構(gòu)化采用列設(shè)計(jì)的數(shù)據(jù)庫所能達(dá)到的程度。但是,大數(shù)據(jù)分析平臺(tái)可能會(huì)集成一些功能,可以提高非結(jié)構(gòu)化數(shù)據(jù)庫的可擴(kuò)展性和性能。第二,必須非??臁:唵蝸碚f,在數(shù)字時(shí)代,用戶在運(yùn)行查詢時(shí)不希望長時(shí)間等待結(jié)果。他們希望在不影響其他工作負(fù)載的情況下,立即獲得滿足感和結(jié)果。