人工智能open，deepmind和openai為什么要用深度增強(qiáng)學(xué)習(xí)玩游戲

來(lái)源：整理時(shí)間：2023-06-07 14:43:10 編輯：智能門(mén)戶手機(jī)版

1，deepmind和openai為什么要用深度增強(qiáng)學(xué)習(xí)玩游戲

概率小的原因有兩個(gè)：1. 公開(kāi)資料里沒(méi)有看到deepmind有過(guò)華人員工（更新：評(píng)論區(qū)有知友說(shuō)有華人員工，叫Aja Huang），即使有，也不見(jiàn)得是知乎用戶（更新2: 比如評(píng)論區(qū) @熊辰炎提到的華人同學(xué)）2. 2. AI方向的牛人供不應(yīng)求，尤其是有Deepmind工作經(jīng)驗(yàn)的大牛，放出風(fēng)聲一定會(huì)被瘋狂挖角；比如OpenAI成立時(shí)就是先拜訪一位大牛，拿到了一份名單，再去挨個(gè)挖。所以我相信Deepmind一定有相關(guān)PR策略，抑制員工公開(kāi)暴露自己

deepmind和openai為什么要用深度增強(qiáng)學(xué)習(xí)玩游戲

2，如何理解看待 OpenAI 公布PPO算法

PPO得到的結(jié)果是TRPO(trust region policy optimization)的近似解。TRPO要求解一個(gè)constrained optimization（KL divergence要小于某個(gè)值），PPO則將constraints直接放在objective里。在TRPO里，這個(gè)optimization是用conjugate gradient近似解的，需要求KL divergence這個(gè)constraint的二次導(dǎo)，因此問(wèn)題很大的時(shí)候會(huì)很費(fèi)資源。而PPO則只需要一次導(dǎo)的信息，因此大大節(jié)約了資源，可以應(yīng)用于規(guī)模更大的問(wèn)題（當(dāng)然需要加入一些細(xì)節(jié)讓得出的結(jié)果不會(huì)和TRPO差太多）。Deepmind最近的一篇文章Emergence of Locomotion Behaviours in Rich Environments就用到了PPO來(lái)解決大規(guī)模問(wèn)題（他們加入了分布式計(jì)算的元素，管新算法叫Distributed PPO(DPPO)）.現(xiàn)在openai已經(jīng)把PPO當(dāng)成默認(rèn)算法，deepmind在最近的幾篇文章也用到了它，因此我覺(jué)得有什么深度強(qiáng)化學(xué)習(xí)的問(wèn)題，那就大膽地使用這個(gè)算法吧。

同問(wèn)。。。

如何理解看待 OpenAI 公布PPO算法

3，ChatGPT是什么

ChatGPT是人工智能中的一個(gè)大型語(yǔ)言模型，類似聊天機(jī)器人，不過(guò)它可以和用戶進(jìn)行多輪對(duì)話，這也是之前的聊天機(jī)器人所辦不到的。和所有大數(shù)據(jù)模型一樣，ChatGPT同樣也是經(jīng)過(guò)“預(yù)訓(xùn)練+微調(diào)”的過(guò)程，但是OpenAI這次在數(shù)據(jù)收集上設(shè)置上有了細(xì)微的差別。首先，OpenAI用有監(jiān)督學(xué)習(xí)訓(xùn)練出了一個(gè)初始模型。人類AI培訓(xùn)員分別作為用戶和AI，模擬人類和AI之間的對(duì)話。此外，OpenAI還創(chuàng)建了一個(gè)獎(jiǎng)勵(lì)模型，將機(jī)器生成的回復(fù)由人類培訓(xùn)員篩選，按照質(zhì)量排序，挑出質(zhì)量最優(yōu)的那一個(gè)。盡管如此，ChatGPT本質(zhì)上和傳統(tǒng)的聊天機(jī)器人并沒(méi)有分別——它并不理解自己所說(shuō)的話，并且總是試圖合理化自己的回答。OpenAI也表示，ChatGPT 有時(shí)會(huì)寫(xiě)出貌似合理但不正確或荒謬的答案，或者過(guò)度使用一些詞句和特定表達(dá)。

如何向孩子解答我是從哪來(lái)的？如何回答孩子天馬星空的問(wèn)題？如何指定幾個(gè)關(guān)鍵詞，給孩子編寫(xiě)原創(chuàng)故事？如何寫(xiě)一篇領(lǐng)導(dǎo)滿意的文案？如何解決生活中遇到的疑難問(wèn)題？還想排隊(duì)“文心一言”？還不如直接百度呢？你要真正用了以后才知道，不能天天看著別人在用，在發(fā)截圖，而自己一直沒(méi)用過(guò)。是否嘗試使用“知否AI問(wèn)答”，不用去全是莆田系的百度廣告苦苦尋覓答案，你問(wèn)知否AI解答，有疑問(wèn)繼續(xù)追問(wèn)，你的私人助力，24小時(shí)隨時(shí)在線。

ChatGPT是什么