第三是時(shí)效性,基本上至少要達(dá)到億級(jí) 數(shù)據(jù)一秒查詢,做的好的可以達(dá)到幾千億級(jí) 數(shù)據(jù)一秒。10 億級(jí)還有什么數(shù)據(jù)?一般我們面對(duì)的是幾千萬(wàn)數(shù)據(jù),一開始我們可能會(huì)把數(shù)據(jù)放在MySQL的單個(gè)列表中,但是到了后期往往就這么大了數(shù)據(jù)-2/library,導(dǎo)致表的索引很大,樹的層次很高,導(dǎo)致搜索性能下降,內(nèi)存緩存中能放入的數(shù)據(jù) pages數(shù)量相對(duì)較少。
Elasticsearch在最近一年使用完成億級(jí)其他日志搜索平臺(tái)“ELK”,億級(jí)其他分布式跟蹤系統(tǒng)。在設(shè)計(jì)這些系統(tǒng)的過程中,底層使用Elasticsearch存儲(chǔ)數(shù)據(jù),-2/的量超過億級(jí)甚至達(dá)到100 億級(jí)。所以有時(shí)間的話,我會(huì)花點(diǎn)時(shí)間整理一下如何優(yōu)化Elasticsearch的性能,希望能幫助到對(duì)Elasticsearch感興趣的同學(xué)。
它提供了一個(gè)基于RESTfulweb接口的具有分布式多用戶功能的全文搜索引擎。Elasticsearch是用Java開發(fā)的,在Apache許可條款下作為開源發(fā)布。是目前比較流行的企業(yè)搜索引擎。專為云計(jì)算設(shè)計(jì),可實(shí)現(xiàn)實(shí)時(shí)搜索、穩(wěn)定、可靠、快速、安裝使用方便。作為一個(gè)開箱即用的產(chǎn)品,我們可能無(wú)法保證它在生產(chǎn)環(huán)境中上線后的性能和穩(wěn)定性。
一般面對(duì)幾千萬(wàn)數(shù)據(jù)。一開始可能會(huì)把數(shù)據(jù)放在MySQL的單個(gè)數(shù)據(jù)庫(kù)列表中,但是到了后期往往就這么大了數(shù)據(jù)-2/library。因?yàn)閿?shù)據(jù)太大,表的索引很大,樹的層次很高,導(dǎo)致搜索性能下降,內(nèi)存中可以緩存的數(shù)據(jù)頁(yè)面更少。所以建議MySQL單表數(shù)據(jù)的量不要超過1000w,最好在500w以內(nèi),如果能控制在100萬(wàn)以內(nèi),是最好的選擇。100萬(wàn)數(shù)據(jù)以內(nèi)的MySQL單表性能不會(huì)太大,前提是你構(gòu)建了索引,其實(shí)通常需要保證MySQL的高性能。
3、大 數(shù)據(jù)是干嘛的?Da 數(shù)據(jù)是在網(wǎng)絡(luò)上整理分析自己的需求數(shù)據(jù)。大數(shù)據(jù)技術(shù)與應(yīng)用。一個(gè)大規(guī)模的數(shù)據(jù)館藏在采集、存儲(chǔ)、管理和分析方面大大超過傳統(tǒng)的數(shù)據(jù)圖書館軟件工具的能力,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)發(fā)行量和品種。Da 數(shù)據(jù)的本質(zhì)是很多結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。因?yàn)閿?shù)據(jù)太大,不能用。你需要抓住有價(jià)值的內(nèi)容或者你想從中得到什么。這就是大數(shù)據(jù)應(yīng)用。