人類達(dá)成共識(shí),開始系統(tǒng)挖掘數(shù)據(jù)。這是大數(shù)據(jù)的初心。在數(shù)據(jù)積累的同時(shí),計(jì)算理論、實(shí)時(shí)數(shù)據(jù)采集和流通渠道、數(shù)據(jù)挖掘所需的軟硬件環(huán)境都在不斷成熟。概念、模型、理論很重要,但在最具實(shí)踐精神的互聯(lián)網(wǎng)領(lǐng)域,行動(dòng)才是最好的答案。國(guó)內(nèi)互聯(lián)網(wǎng)巨頭BAT坐擁數(shù)據(jù)金礦,相繼走上大數(shù)據(jù)掘金之路。BAT是大礦主,但是不同礦的數(shù)據(jù)就像有能量的煤礦。
5、AI育兒筆記(六AI育兒筆記(六):用AI大數(shù)據(jù)選擇故事作為AI時(shí)代的科技人,帥爸決定用自己的專業(yè)去篩選篩選好的故事。不管故事是從網(wǎng)上找來的,還是自己寫的,還是從繪本上找來的,都是先用在下一步的分析和篩選中。1.詞匯分析2。詞性分析3。句法分析4。情感分析4。本人從事人工智能自然語言(NLP)多年。我發(fā)現(xiàn)兒童的語言學(xué)習(xí)過程非常類似于訓(xùn)練計(jì)算機(jī),或者反過來說,科學(xué)家在觀察兒童的語言學(xué)習(xí)過程后,實(shí)際上將其轉(zhuǎn)化為人工智能算法,而計(jì)算機(jī)是從大數(shù)據(jù)收集開始,兒童是從聽故事開始。
6、大數(shù)據(jù)的概念大數(shù)據(jù)是指在一定時(shí)間內(nèi),常規(guī)軟件工具無法捕捉、管理和處理的數(shù)據(jù)集合。它是一種海量、高增長(zhǎng)、多元化的信息資產(chǎn),需要新的處理模式來擁有更強(qiáng)的決策力、洞察力和發(fā)現(xiàn)力以及流程優(yōu)化能力。簡(jiǎn)單來說,大數(shù)據(jù)就是海量數(shù)據(jù),即數(shù)據(jù)量大、來源廣、類型多(日志、視頻、音頻),最高可達(dá)PB級(jí)別。大數(shù)據(jù)的七大特征:海量、多樣、高速、多變、真實(shí)、復(fù)雜、價(jià)值。隨著大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,它逐漸從一個(gè)高端的、理論性的概念演變?yōu)橐粋€(gè)具體的、實(shí)踐性的概念。
7、制作一個(gè)大數(shù)據(jù)故事的5個(gè)步驟5步驟做一個(gè)大數(shù)據(jù)故事我從事數(shù)據(jù)工作多年,總結(jié)了一套很好的實(shí)用方法和大家分享。不是唯一的方式,但對(duì)我來說,是用數(shù)據(jù)講故事的最好方式。第一步:我不需要太強(qiáng)調(diào)數(shù)字化。這些天來,我試圖將每一個(gè)故事數(shù)字化,包括筆記、圖片、音頻、視頻和文檔。怎么會(huì)?一些實(shí)用的工具如下:軟件DocumentCloud可以讓你上傳PDF文件,實(shí)現(xiàn)光學(xué)字符識(shí)別,也叫OCR。
它并不完美,但它是一個(gè)開始。軟件DocumentCloud也有驚人的嵌入功能,允許你強(qiáng)調(diào)和注釋段落。最后,它有一個(gè)復(fù)雜但有用的時(shí)間線和一個(gè)偉大的實(shí)體識(shí)別引擎??梢允褂肐RE(美國(guó)無線電工程師協(xié)會(huì))。DocumentCloud軟件可以讓你上傳PDF文件,實(shí)現(xiàn)光學(xué)字符識(shí)別。Google Documentation具有與DocumentCloud類似的功能,能夠很好地適應(yīng)使用Google Suite的新聞編輯室,能夠自動(dòng)完成光學(xué)字符識(shí)別文檔。
8、大數(shù)據(jù)企業(yè)不能光講故事大數(shù)據(jù)公司不能只講故事。大數(shù)據(jù)最近很火,資本市場(chǎng)上與大數(shù)據(jù)概念密切相關(guān)的股票一路爆漲。目前,國(guó)內(nèi)自稱大數(shù)據(jù)的企業(yè)超過400家,獲得融資的企業(yè)超過50家,其中獲得過億元融資的企業(yè)超過17家。而80%以上的大數(shù)據(jù)公司年收入都在1億元以下,盈利的更是少之又少。大多處于“講故事”階段。此外,大量公司帶著各種“故事”涌入大數(shù)據(jù)領(lǐng)域。
但從實(shí)際情況來看,很多企業(yè)游離于大數(shù)據(jù)的商機(jī)之外,業(yè)務(wù)同質(zhì)化嚴(yán)重。他們還沒有找到利用大數(shù)據(jù)進(jìn)行創(chuàng)新創(chuàng)業(yè)的“門道”,尋找大數(shù)據(jù)技術(shù)和服務(wù)領(lǐng)域的商機(jī),目前有三類公司:第一類是提供大數(shù)據(jù)計(jì)算、存儲(chǔ)和挖掘平臺(tái)的科技公司;第二類是提供大數(shù)據(jù)分析工具的公司;第三類是收集數(shù)據(jù)、擁有數(shù)據(jù)源、使用數(shù)據(jù)的公司。第一類和第二類主要是國(guó)內(nèi)外的IT廠商,他們關(guān)注的是這個(gè)領(lǐng)域的商機(jī)。