中國人民大學(xué)重點(diǎn)實(shí)驗(yàn)室舉辦數(shù)據(jù)理工科學(xué)術(shù)報(bào)告。本報(bào)告旨在更好地了解工業(yè)界的實(shí)際需求和平臺(tái)的使用情況,加強(qiáng)同行之間的學(xué)術(shù)交流,促進(jìn)中國人民大學(xué)計(jì)算機(jī)科學(xué)的發(fā)展。邀請(qǐng)了滴滴大學(xué)數(shù)據(jù)和數(shù)據(jù)挖研院四位青年學(xué)者,蘇州大學(xué)李、、劉安副教授授課。中國人民大學(xué)信息學(xué)院設(shè)有經(jīng)濟(jì)信息管理系、計(jì)算機(jī)科學(xué)與技術(shù)系、數(shù)學(xué)系數(shù)據(jù)工程與知識(shí)工程學(xué)院、管理科學(xué)與工程學(xué)院,其中數(shù)據(jù)工程與知識(shí)工程學(xué)院為教育部重點(diǎn)實(shí)驗(yàn)室。
同時(shí)也對(duì)大數(shù)據(jù)的熱門處理平臺(tái)Hadoop和Spark以及各自的生態(tài)系統(tǒng)進(jìn)行了系統(tǒng)的介紹。此外,他還介紹了滴滴出行在大數(shù)據(jù)技術(shù)方面面臨的機(jī)遇和挑戰(zhàn)。最后,李沛博士根據(jù)自己在卑詩大學(xué)的博士經(jīng)歷,向同學(xué)們推薦了經(jīng)典教材《-1》和機(jī)器學(xué)習(xí),并對(duì)他們今后的求職提出了一些中肯的建議。
7、大 數(shù)據(jù)發(fā)展的前景怎么樣?Da 數(shù)據(jù)分析已經(jīng)成為收集商業(yè)情報(bào)的重要組成部分。很多企業(yè),尤其是線上企業(yè),認(rèn)為大數(shù)據(jù)是主流標(biāo)準(zhǔn)。這些企業(yè)都在不斷研究新的工具和模式來提高自己的大數(shù)據(jù)利用率。比如汽車行業(yè),汽車行業(yè)數(shù)據(jù),駕駛行為數(shù)據(jù),汽車感知數(shù)據(jù),外部環(huán)境數(shù)據(jù),交通數(shù)據(jù),人類社會(huì)/。
8、SAS與R優(yōu)缺點(diǎn)討論從 工業(yè)界到學(xué)界關(guān)于SAS和R的優(yōu)缺點(diǎn)的討論:From 工業(yè)界對(duì)于學(xué)術(shù)界來說,雖然在工業(yè)界中仍然以SAS為主,但是R在學(xué)術(shù)界的應(yīng)用非常廣泛,因?yàn)樗拿赓M(fèi)和開源性質(zhì)使得用戶可以編寫和共享自己的應(yīng)用。我們的目的是把這兩種差異很大的語言各自的優(yōu)勢(shì)展示出來,共同發(fā)揮優(yōu)勢(shì)。同時(shí)也要指出一些多年沒用SAS,現(xiàn)在在用R語言的人的誤解和偏見,因?yàn)樗麄兒苌訇P(guān)注SAS的發(fā)展和進(jìn)步。
現(xiàn)在我們注意到了一個(gè)不好的現(xiàn)象,就是學(xué)術(shù)界大量使用R的用戶認(rèn)為R在工業(yè)界被SAS占據(jù)的位置上有相當(dāng)大的優(yōu)勢(shì),但是熟練掌握這兩個(gè)軟件對(duì)于想在數(shù)據(jù) analysis上小有成就的年輕人來說至關(guān)重要。SAS經(jīng)常會(huì)有一些更新,非SAS程序員往往不知道,因?yàn)闆]有技術(shù)跟進(jìn)。SAS繪圖模塊是一個(gè)快速發(fā)展和增長(zhǎng)的例子。然而,許多人并沒有注意到這些升級(jí),以至于他們?nèi)匀活B固地使用R繪圖。
9、 數(shù)據(jù)科學(xué), 數(shù)據(jù)挖掘, 數(shù)據(jù)工程和大 數(shù)據(jù)之間有什么關(guān)系?它們之間的關(guān)系如下:數(shù)據(jù) Mining和數(shù)據(jù) Science基本上是一回事。數(shù)據(jù)挖是30年前說的,現(xiàn)在叫更高。以前數(shù)據(jù)挖掘主要是基于統(tǒng)計(jì)理論和算法。近年來,在理論上,逐漸引入了大量的數(shù)學(xué)物理理論和算法,如流型、熱力學(xué)熵等??偟膩碚f,這兩個(gè)是一回事。數(shù)據(jù)項(xiàng)目是用數(shù)據(jù)科學(xué)理論解決實(shí)際問題。就像理論核物理和核工程的區(qū)別一樣。在實(shí)際項(xiàng)目中,要解決數(shù)據(jù)的清洗、提取和轉(zhuǎn)換。
但大部分時(shí)候可能是數(shù)據(jù)清潔轉(zhuǎn)換這種比較低端的工作。算法都是工業(yè)界現(xiàn)成的,只是調(diào)整參數(shù)而已,數(shù)據(jù)科學(xué),這個(gè)概念應(yīng)該是最大的,所有與數(shù)據(jù)相關(guān)的都可以算作數(shù)據(jù)科學(xué)的范疇。剛開始興起的時(shí)候,也是從國外開始的,在中國,通常有一種說法是數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù),數(shù)據(jù)科學(xué)是一門學(xué)科,大數(shù)據(jù)技術(shù)是研究-1。