variable存儲(chǔ)互聯(lián)網(wǎng)時(shí)代框架層出不窮,令人眼花繚亂,比如傳統(tǒng)的關(guān)系型數(shù)據(jù) Library: Oracle、MySQL;新興的NoSQL:HBase、Cassandra、Redis;全文檢索框架:ES,Solr等。如何選擇適合自己創(chuàng)業(yè)的存儲(chǔ)方案,相信大家都思考過這個(gè)問題。本文簡單談?wù)勎覍?duì)Mysql、HBase、ES的理解,希望能和大家一起探討進(jìn)步,有錯(cuò)誤請(qǐng)指出。
7、大 數(shù)據(jù)、高性能環(huán)境對(duì) 存儲(chǔ)的需求large 數(shù)據(jù),高性能環(huán)境對(duì)存儲(chǔ)的需求長期以來,高性能計(jì)算的主要目的是提高運(yùn)算速度以解決大規(guī)模科學(xué)計(jì)算和海量數(shù)據(jù)。高性能計(jì)算具有每秒萬億次的強(qiáng)大計(jì)算能力,使其成為石油、生物勘探、氣象預(yù)報(bào)、生命科學(xué)研究等領(lǐng)域的重要技術(shù)選擇。但隨著數(shù)據(jù)數(shù)量和數(shù)據(jù)價(jià)值的不斷增長,金融、電信、互聯(lián)網(wǎng)等領(lǐng)域?qū)Ω咝阅苡?jì)算的需求越來越大。隨著技術(shù)的發(fā)展,高性能計(jì)算系統(tǒng)的處理能力越來越強(qiáng),任務(wù)的計(jì)算時(shí)間越來越短,對(duì)商業(yè)的價(jià)值越來越大。
因?yàn)殚_始計(jì)算時(shí),存儲(chǔ) system應(yīng)該讀作數(shù)據(jù);計(jì)算結(jié)束時(shí),應(yīng)將計(jì)算結(jié)果寫入存儲(chǔ) system。如果讀寫速度不匹配,不僅會(huì)延誤高績效項(xiàng)目的完成周期,還會(huì)嚴(yán)重影響高績效創(chuàng)造價(jià)值的能力。一般高性能計(jì)算要求存儲(chǔ) system能夠滿足性能和可擴(kuò)展性的要求,保障投資回報(bào):吞吐量達(dá)到幾個(gè)甚至幾十個(gè)GB/s,容量可以擴(kuò)展到PB級(jí)別;透明訪問和數(shù)據(jù)共享;集中智能管理,性價(jià)比高;容量和性能可以按需獨(dú)立擴(kuò)展。
8、大 數(shù)據(jù)之路人類從IT時(shí)代進(jìn)入DT時(shí)代。本書介紹了阿里巴巴的大數(shù)據(jù)系統(tǒng)架構(gòu),以滿足不斷變化的業(yè)務(wù)需求,同時(shí)實(shí)現(xiàn)系統(tǒng)的高可擴(kuò)展性、靈活性和高性能。數(shù)據(jù)系統(tǒng)主要包括:數(shù)據(jù)采集、數(shù)據(jù)計(jì)算、數(shù)據(jù)服務(wù)和數(shù)據(jù)應(yīng)用。事實(shí)表包括描述特定業(yè)務(wù)的參考維度和指標(biāo)。事實(shí)表中的記錄所描述的業(yè)務(wù)的詳細(xì)程度稱為粒度。粒度可以用兩種方式表示:(1)維度屬性組合;(2)具體的商業(yè)含義。
可加性:可以在任何維度上聚合。不可加性:完全不可加性。(例如:ratio,事實(shí)表可以拆分成存儲(chǔ)分子分母)維度屬性也可以存儲(chǔ)在事實(shí)表中,稱為退化維度。事實(shí)表有三種類型:事務(wù)事實(shí)表、定期快照事實(shí)表和累積快照事實(shí)表。事務(wù)事實(shí)表描述了業(yè)務(wù)流程中的原子事務(wù),也稱為原子事實(shí)表。定期快照事實(shí)表以定期間隔記錄事實(shí)。
9、大 數(shù)據(jù)平臺(tái)為什么可以用來儲(chǔ)存巨量的 數(shù)據(jù)?因?yàn)槭菫榇鎯?chǔ) 數(shù)據(jù)而建的。我覺得是因?yàn)閎ig 數(shù)據(jù)平臺(tái)的機(jī)房里有數(shù)量巨大的存儲(chǔ)設(shè)備,也就是T個(gè)單元的硬盤組成的磁盤陣列,安全起見,機(jī)房可能至少有一份。就像蘋果iCloud的合作伙伴尚云貴大數(shù)據(jù)實(shí)業(yè)發(fā)展有限公司再比如百度云,其機(jī)房有大量磁盤陣列,您訪問的數(shù)據(jù)在他們的服務(wù)器上,服務(wù)器連接到存儲(chǔ)。