個人感覺數(shù)據(jù)挖掘是一個比較大的概念,可以理解為:數(shù)據(jù)挖掘商業(yè)知識、自然語言處理技術(NLP)、計算機視覺技術(CV)、機器學習/深度學習(ML/DL)(1)商業(yè)知識具體指個性化推薦、計算廣告、搜索、互聯(lián)網(wǎng)金融等。NLP和CV分別是處理文本、圖像和視頻數(shù)據(jù)的領域技術,可以理解為提取非結構化數(shù)據(jù)并轉換為結構化數(shù)據(jù);最后的ml/dl技術屬于模型學習理論。(2)公司在選擇職位的時候,沒有一套標準的職稱,做的無非是兩個大方向。一種是主要學習某一領域的技術,比如自然語言處理工程師、計算機視覺工程師、機器學習工程師等。一種是將各種領域技術應用到業(yè)務場景中,解決業(yè)務需求,比如數(shù)據(jù)挖掘工程師、推薦系統(tǒng)工程師。具體標題不重要,重要的是平時的工作內容;PS:在互聯(lián)網(wǎng)行業(yè),數(shù)據(jù)挖掘相關技術的成功應用主要是在推薦和計算廣告領域,涉及的數(shù)據(jù)主要是文本,所以NLP技術比較重要。至于CV技術,主要應用在人工智能領域(無人車、人臉識別等。),而我的理解有限,所以相關描述會比較差。
5、計算機視覺算法是做什么的3年或以上工作經(jīng)驗,計算機、數(shù)學、統(tǒng)計等相關專業(yè)。,具有較強的解決問題的能力;具有深厚的機器學習、數(shù)據(jù)挖掘、自然語言處理背景,算法能力強;有信貸/量化交易等金融行業(yè)建模經(jīng)驗者優(yōu)先;至少精通C/C或Java的任意一種編程語言,Python/perl/shell的任意一種腳本語言,熟練使用一種以上的數(shù)據(jù)分析和挖掘工具,熟悉Sparkml者優(yōu)先;
6、機器學習和計算機視覺是什么關系從國內市場情況和發(fā)展?jié)摿砜?,機器學習是更好的選擇。機器學習在人工智能領域發(fā)揮著重要的作用,可以應用于圖像識別、語音識別、自然語言處理等許多領域。隨著大數(shù)據(jù)和云計算技術的發(fā)展,機器學習的應用場景越來越廣泛,包括金融、醫(yī)療、物流等行業(yè)。機器視覺雖然應用場景廣泛,但在國內市場發(fā)展相對緩慢,受到技術、市場等諸多因素的制約。
人工智能(Artificial intelligence),英文縮寫為AI,是研究和發(fā)展模擬、延伸和擴展人類智能的理論、方法、技術和應用系統(tǒng)的一門新技術科學。人工智能是計算機科學研究的一個重要分支,也是多學科的交叉學科。它試圖理解智能的本質,并制造出一種新的智能機器,能夠以類似于人類智能的方式做出反應。該領域的研究包括語音識別、圖像識別、機器人、自然語言處理、智能搜索和專家系統(tǒng)等。人工智能可以模擬人類意識和思維的信息過程。
7、機器學習、數(shù)據(jù)挖掘、計算機視覺等的泡沫有多大?現(xiàn)在2016年6月,機器學習、數(shù)據(jù)挖掘、計算機視覺等應用都沒有泡沫,甚至遠沒有算法的潛力。以我在工作中的經(jīng)驗來看,公司幾乎每個產(chǎn)品線都有一些算法的地方。同時,很多新算法可以帶來全新的產(chǎn)品功能,提升用戶體驗,提升公司核心指標,拓展新的營收渠道。未來三到五年,將是從自動化到算法化最快的階段,很多公司將從中受益。各種核心指標都會翻,跑得快的公司會吃掉跑得慢的公司。
同時,由于現(xiàn)代技術工具和生態(tài)系統(tǒng)的發(fā)展,一個5到10人的全棧數(shù)據(jù)科學家團隊可以支持一個公司幾個核心算法的所有端到端任務,包括支持最終產(chǎn)品的研發(fā)。但是對于現(xiàn)在的創(chuàng)業(yè)趨勢,我個人認為把各種算法拿出來做第三方服務創(chuàng)業(yè)是很難成功的,最核心的原因是各種算法都需要和公司的核心產(chǎn)品線融合,算法是公司核心產(chǎn)品的一部分。