交通領域大數(shù)據(jù)會有相當多的分析和應用場景,有兩點需要注意,一是大數(shù)據(jù)本身的技術處理平臺,二是數(shù)據(jù)分析和挖掘算法。具體場景當時是這樣寫的:公交線路規(guī)劃設計是一個大數(shù)據(jù)潛在的應用場景,傳統(tǒng)的公交線路規(guī)劃往往需要前期投入大量的人力進行OD調查和數(shù)據(jù)收集。尤其是公交卡普及后,可以看到,對于OD交通數(shù)據(jù),完全可以從公交卡上采集到相關的交通流量和流向數(shù)據(jù),包括每天的行走路線、同卡換乘次數(shù)等詳細信息。
結合交通流向的趨勢變化數(shù)據(jù),可以幫助公共交通部門調整公交運營線路,設計換乘站。這個方法可能很久以前就想到了,但是在公交卡還沒有普及或者海量的情況下數(shù)據(jù)處理和計算能力跟不上,實際操作起來確實很難,現(xiàn)在是時候全面操作了。從單個公交流向進行動態(tài)分析數(shù)據(jù)只是一個方面,大數(shù)據(jù)往往強調相關性分析。
7、請問什么是 數(shù)據(jù) 挖掘? 數(shù)據(jù) 挖掘怎么樣?數(shù)據(jù)挖掘是從大量不完整的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱藏的、但潛在有用的信息和知識的過程。數(shù)據(jù) 挖掘過程:定義問題:明確定義業(yè)務問題,確定數(shù)據(jù) 挖掘的目的。數(shù)據(jù)準備:數(shù)據(jù)準備包括:選擇數(shù)據(jù)-提取自大數(shù)據(jù)庫和數(shù)據(jù)倉庫目標。數(shù)據(jù)預處理-執(zhí)行數(shù)據(jù)再處理,包括檢查數(shù)據(jù)的完整性和數(shù)據(jù)的一致性,去噪,填充缺失字段和刪除無效-0。
結果分析:對數(shù)據(jù) 挖掘的結果進行解釋和評價,并轉化為用戶最終能夠理解的知識。數(shù)據(jù) 挖掘的技術大致可以分為統(tǒng)計方法、機器學習方法、神經網絡方法和數(shù)據(jù)數(shù)據(jù)庫方法。統(tǒng)計方法可以細分為回歸分析(多元回歸、自回歸等。)和判別分析(貝葉斯判別、CBR、遺傳算法、貝葉斯信念網絡等。神經網絡方法可細分為:前向神經網絡(BP算法等。)和自組織神經網絡(自組織特征映射、競爭學習等。).
8、大 數(shù)據(jù)是什么large數(shù)據(jù)(bigdata)是指在可承受的時間范圍內,常規(guī)軟件工具無法捕捉、管理和處理的數(shù)據(jù)的集合。“大-0”技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于專業(yè)地處理這些有意義的數(shù)據(jù)信息。換句話說,如果把Da 數(shù)據(jù)比作一個行業(yè),那么這個行業(yè)實現(xiàn)盈利的關鍵就在于提高數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。從技術上來說,Da 數(shù)據(jù)和云計算的關系就像一枚硬幣的兩面一樣密不可分。
其特點在于分布海量數(shù)據(jù)數(shù)據(jù)挖掘,但必須依靠云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和虛擬化技術。大型數(shù)據(jù)分析往往與云計算聯(lián)系在一起,因為實時大型數(shù)據(jù) set分析需要MapReduce這樣的框架將工作分配到幾十臺、幾百臺甚至幾千臺計算機上。大數(shù)據(jù)需要特殊的技術才能在容差時間內有效處理大量的數(shù)據(jù)適用于大型數(shù)據(jù)的技術,包括大規(guī)模并行處理(MPP) 數(shù)據(jù)庫、數(shù)據(jù) 挖掘電網、分布式文件系統(tǒng)和分布式-0。
9、 數(shù)據(jù)分析和 數(shù)據(jù) 挖掘的區(qū)別–lxw的大 數(shù)據(jù)田地數(shù)據(jù)分析的目的與數(shù)據(jù) 挖掘不同。數(shù)據(jù)分析有明確的分析組,就是把各個維度的組進行拆分、劃分、組合,找出問題所在。數(shù)據(jù) Fa 挖掘的目標群體是不確定的,這就需要我們更多的從數(shù)據(jù)的內在關系去分析,從而結合業(yè)務、用戶和數(shù)據(jù)做出更多的洞察和解讀。數(shù)據(jù)分析不同于數(shù)據(jù) 挖掘。一般來說,數(shù)據(jù)分析是基于客觀的數(shù)據(jù)進行連續(xù)的驗證和假設,而數(shù)據(jù)
分析框架(假設) 客觀問題(數(shù)據(jù)分析)結論(主觀判斷)和數(shù)據(jù) 挖掘大部分都是大而全,多而精,數(shù)據(jù)模型越多越準確。數(shù)據(jù)它們之間的關系越清晰數(shù)據(jù)分析更依賴于業(yè)務知識,數(shù)據(jù) 挖掘更強調技術的實現(xiàn),對業(yè)務的要求略有降低,數(shù)據(jù) 挖掘往往需要更多的數(shù)據(jù)數(shù)量,而數(shù)據(jù)數(shù)量越大,技術要求越高,需要更強的編程能力、數(shù)學能力和機器學習能力。