這里的特征可以用不同的方式表示,比如可以表示為文章的一個屬性集(比如對于書籍,屬性集包括作者、出版社、主題和關(guān)鍵詞等。),它們也可以表示為latentfactorvector,可以通過前面提出的LatentFactorModel來學(xué)習(xí)。在本章中,我們將討論一個重要的特征表達式:標簽。
4、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)統(tǒng)計、OLAP之間的差異是什么?OLAP和統(tǒng)計學(xué)的區(qū)別在于,它的查詢需求是由數(shù)據(jù)分析師自己靈活定義的,而不是由程序員編寫的后臺程序。OLAP的核心是維度,可以說是多維分析。它允許分析師從不同角度、不同粒度查看數(shù)據(jù)倉庫中的數(shù)據(jù),所以它的本質(zhì)是查詢數(shù)據(jù),但這個查詢也是有技巧的。在了解業(yè)務(wù)之后,我們需要提出相應(yīng)的假設(shè),然后通過具體維度的數(shù)據(jù)來驗證假設(shè)是否正確。
方法是查詢數(shù)據(jù)。OLAP的模型是指多維數(shù)據(jù)模型,用哪些維度來描述分析對象,OLAP的建模是指選取哪些維度。而數(shù)據(jù)挖掘主要不是查詢,而是做更多的計算,比如分類,回歸就是擬合計算,尋找標簽等特征的規(guī)律,形成模型。數(shù)據(jù)挖掘算法會有很多迭代計算,比OLAP計算復(fù)雜得多。另外,數(shù)據(jù)挖掘做的更多的是探索性分析,分析之前沒有任何假設(shè)。所以數(shù)據(jù)挖掘往往能發(fā)現(xiàn)一些被人類經(jīng)驗所忽略的因素。
5、數(shù)據(jù)挖掘-支持向量機supportvectormachine(SVM)是一種優(yōu)秀的分類技術(shù),也可以用于回歸分析(SVR)。這項技術(shù)可以很好地應(yīng)用于高維數(shù)據(jù),避免維度災(zāi)難。SVM的一個特點是用訓(xùn)練集的子集來表示決策邊界,稱為支持向量。SVM的核心目標是找到分類中的最大邊超平面,并使其成為決策邊界。那么什么是最大邊超平面呢?
6、數(shù)據(jù)挖掘?qū)д?/strong>是指通過算法從大量數(shù)據(jù)中搜索隱藏信息的過程。其中,機器學(xué)習(xí)是支持數(shù)據(jù)挖掘的主要手段。是指機器通過一定的策略學(xué)習(xí)歷史數(shù)據(jù)后,通過建立模型做出一定的預(yù)測或識別的能力。模型中的損失是對不良預(yù)測的懲罰,損失是一個數(shù)值。如果模型預(yù)測更準確,損失會更低。訓(xùn)練模型就是通過標記樣本學(xué)習(xí)所有權(quán)重和偏差的理想值,盡可能減少損失。
能夠有意義地總結(jié)各種損失。比如MSE(均方誤差):指每個樣本的平均平方損失。使用數(shù)據(jù)集訓(xùn)練模型時,一部分用于訓(xùn)練,另一部分用于驗證。它分為訓(xùn)練集和測試集。通常情況下,70%的數(shù)據(jù)集分為訓(xùn)練集,30%為測試集。另外需要注意的是,對于有時間序列的數(shù)據(jù)集,需要按照時間來劃分。劃分數(shù)據(jù)集后,需要在訓(xùn)練集上進行調(diào)整,在測試集上可以不斷調(diào)整模型。缺點是,由于不斷使用測試集來調(diào)整模型,模型可能會過擬合。
7、數(shù)據(jù)標簽化王興說我們已經(jīng)進入了互聯(lián)網(wǎng)的下半場。前半段,互聯(lián)網(wǎng)時代初期,你永遠不知道對面坐的是誰。那時候大部分人都是QQ的早期用戶。到了下半年,互聯(lián)網(wǎng)公司已經(jīng)不新鮮了,大部分公司都已經(jīng)互聯(lián)網(wǎng)化了。他們已經(jīng)在使用互聯(lián)網(wǎng)來推廣他們的產(chǎn)品,并使用電子商務(wù)來銷售他們自己的商品。這兩年引領(lǐng)下半場發(fā)展的,是那些在講“大數(shù)據(jù)”、“賦能”的企業(yè)。他們有數(shù)據(jù)和用戶。
通過消費數(shù)據(jù)的分析,告訴企業(yè)什么時候生產(chǎn)什么產(chǎn)品,最大程度的滿足用戶的需求。告訴我們?nèi)绾瓮ㄟ^生活大數(shù)據(jù)為餐飲企業(yè)乃至房地產(chǎn)企業(yè)選址,如果互聯(lián)網(wǎng)的前半段是粗糙的運營,那么就不需要考慮細節(jié),因為有流量紅利。那么下半年,精細化運營將是一個長期的主題,有了數(shù)據(jù)和數(shù)據(jù)分析能力,用戶才能獲得更好的體驗。所以用戶是根本,是數(shù)據(jù)分析的出發(fā)點。