【人工智能】OpenAI科学家Hyung Won Chung演讲精华版 | 2023年的大模型 | 涌现 | Transformer | 并行训练 | 后训练阶段 | 奖励模型

【人工智能】OpenAI科学家Hyung Won Chung演讲精华版 | 2023年的大模型 | 涌现 | Transformer | 并行训练 | 后训练阶段 | 奖励模型 | 目标函数学习

Рет қаралды 17,105

8 ай бұрын

近日，OpenAI 研究科学家 Hyung Won Chung 在首尔国立大学做了题为「Large Language Models (in 2023)」的演讲。在这次演讲中，他谈到了大型语言模型的涌现现象以及大模型的训练和学习过程，其中包括预训练和后训练阶段，最后他还展望了一下未来，认为下一次范式转变是实现可学习的损失函数。
Hyung Won Chung 是一位专攻大型语言模型的研究者，博士毕业于麻省理工学院，之后曾在谷歌大脑工作过三年多时间，于今年二月份加入 OpenAI。他曾参与过一些重要项目的研究工作，比如 5400 亿参数的大型语言模型 PaLM 和 1760 亿参数的开放式多语言语言模型 BLOOM（arXiv:2211.05100）。
原视频地址： • Large Language Models ...
#人工智能 #openai #llm

Пікірлер: 35

@janchangchou777 3 ай бұрын

Part 1): 任何一條神經網路也是一個多變數廻歸分析，也是統計學迴歸分析的一環。我在40年前攻讀數理統計就涉及這些人工智能及多變量（含時間變量）的廻歸分析（向量/ 矩陣/ 線性代數/ 機率/ 取様….）, 以便對一些事件做出精准智能的預測。所謂自我學習或機器學習也只是用後面收集或模擬出的更新的資料去修正原先迥歸分析的杈重或係數參數而已。而深度學習也只是處理巨量變數時，為了避免僅用單層機器學習進行巨量變數而需要解大矩陣導致對巨量平行計算的需求，進而變換設計成每層適量變數，建立多層次的機器學習修正。 40 年前人工智慧就是數理統計的一大課題。馬斯克說得一點都沒錯-目前的人工智慧全部建立在數理統計的基礎上。從那時開始就不斷有各行各業的數據分析專業人士來我們數理統計這參與並學習迥歸分析。他們回去後就不斷建立了屬於他們行業內的多條神經網絡（行業內的迥歸模型）。在那時從事這類研究工作的數理統計的博士生全部被限制在晚上12 時過後才能使用國家級的超級計算機，否則我們兩三𠆤人一上線全部就大當機。我們那時也發展出一套類似挖礦機的方式，利用所有大量閒置的𠆤人電腦來提供其微小的算力，進而整合這些龐大的所謂分散型算力，但受限那時網路的不發達，很難把規模擴大。近幾十年隨計算機能力不斷提升，目前市面AI 所謂大模型，主要是著力於面對”服務大衆需要”的所謂生成式/ 語言等等的智能協作服務。就是把百行百業各個領域等等數以千萬千億計資料進行迥歸模型的建立及修正（所謂自我深度學習）而形成龐大的神經網絡。因此也不用太誇大眼下的AI , 這些早在40 年以前都已建構了理論基礎，而智能恊作早在各專業領域都已發展的非常完善，只是因過去算力不足只能在各自專業領域進行中小規模（變量數較少）的神經網絡建構。例如氣象預報就是早期最明顯的利用氣象專用超高速大電腦發展為成熟預測能力（AI)的例子，股票買賣決策也是智能恊作(AI/CIC)的典型。 ”把簡單數學上使用即存的規模資料或電腦模擬資料進行所謂的㢠歸分析/模型建構並藉此模型做可行的智能預判或恊作，包裝成醫學上複雜尚未完全掌握的神經網路的機制及作用原理”，不但瓢竊了數理統計在AI 發展的絕對地位，實在也是在誤導整𠆤AI 的發展。也會造成眼下一般人的過度期待和焦慮。應將AI 改稱作” CIC:Computer Intelligent Collaboration , 電腦智能恊作，更為恰當。何謂知識？由經驗總結後（抽象具體化），就形成知識（用數字分析的表達方式就是去建構知識模型）。形成知識後就可複製/ 傳承/ 預測/ 擴展。因此目前的AI 發展，就是在循人類文明發展至為重要的其中的一𠆤過程-只是採用了數位化的方式，將經驗知識化了。目前的AI 只是以數理統計為手段及方法論，以資訊及計算機工程為工具，進行數位型的經驗知識化的過程。人類有許多其他不同型態非常複雜的知慧，這種僅止於知識數位化的智慧，其實離人類多型態的智慧還有非常巨大的距離。另外，眼下AI 服務於大衆的大模型的各種數學理論及所謂的機器學習（參數修正）及深度學習（參數及變數的多層次增加及修正）。早在40 年前相應的數學理論都已完備（但落實到實際應用上，如何解1 億 by 1 億的聯立方程組( 行列式計算），這需要極其龐大的平行計算能力，在那時期是完全不可能的）。其實AI 最重要最關鍵的是各行各業各領域的專家組，而不是這些AI 編程的公司（他們只是依需求用已完善的數學統計理論加以電腦編程後，利用巨大算力去幫忙找出合適的模型並不斷予以完善）。只有各行各業各領域的專家組才知道在茫茫大海中的資料及訊息中，那些因素才是其所涉領域的関鍵變數，那些變數資料才是可做為他們收集分析建立模型的。例如氣象學/經濟學/股票買賣智能決策/ 醫學/ 藥學/ 農業生產/ 基因工程/ 化學工程/自動駕駛/飛彈防空系統/圖像識別及處理/ 建築結構力學/小樣品模擬模型（核爆/飛機失事）………..等等。此外服務大衆的語言學也是極度複雜的一門學課，其可能的變量變因會高達幾千萬𠆤，再加上多層級過濾學習修正的模式，因此其涉及的變數算力就以億計，所以才稱做大模型。要取那些因素進行那一層分析，主要都是語言學家在主導。而這些眼下的AI 應用的公司，只是利用已發展完備的數學統計理論在不同領域專家組的指導下，去有效的進行數拈收集整理分析並進而建立一個特定領域的模型，作為該特定領域的電腦智能恊作工具。

@corgirun7892 8 ай бұрын

不错，压缩和提炼信息，是你这个频道真正的价值。原视频50分钟，真没时间去看

@bestpartners 8 ай бұрын

谢谢鼓励🙏

@gloudsdu 8 ай бұрын

我认为涌现只是人类感觉。计算机则是平滑的，正确的词概率平滑的从49%到51，造成了突然正确的感觉

@zshikingjone2166 8 ай бұрын

以人类现在对自身大脑的了解程度，人工智能的工作原理本质上可能和人脑完全不一样。

@YetEthanOnly 8 ай бұрын

李宏毅也是這麼推論

@serikk 8 ай бұрын

这应该是宇宙最基本的法则，当无数个单个个体达到某种规模时会出现我们所说的“智慧”，比如蚂蚁群，蜜蜂群的社会结构相当精密，特别”智能“。我们人类一直在模仿这些社会性生物的做法，发明高科技产品。如果拿单个个体它什么都不是。随着人工智能的完善估计出现这个涌现的阈值会降低，用最小的算力能创造比较强大的人工智能。

@xuqian 8 ай бұрын

工作原理并非完全不同，目前人工智能的部分原理是可以看作是人脑工作原理的子集。

@nelaln8079 8 ай бұрын

@@xuqian 同意，绝对是子集

@zhaixiaoba 8 ай бұрын

感谢分享

@li-pingho1441 8 ай бұрын

太有料了，感謝博主

@AI-Outlook 8 ай бұрын

谢谢博主。除了诸多益处，我开始考虑人工智能的另一面。特别是明年的趋势。

@user-xt7es8dr7e 8 ай бұрын

加油！

@user-lf4ir3mp2f 8 ай бұрын

不错！

@frank_1972 8 ай бұрын

🙋tksU，先讚後看👍🔔📝↗️，期待下個視頻❤

@bestpartners 8 ай бұрын

不好意思，更的慢了，忙完这几天应该会好点了😊

@wayway4592 8 ай бұрын

量變到質變很多時候不是真實性變化，但是能通過感受不同而指明方向，於是我們替質變鋪平了道路。

@yi-erliao468 Ай бұрын

好奇問，除了轉換者，目前研究有什麼可能更高效率、正確性的架構嗎？

@liangqunlu1553 8 ай бұрын

挺好的总结。多模态的chatGPT 是一种有效scaling 方法吗？

@rinrin-rl8ye 8 ай бұрын

量变到质变，随着数据量不断增大，在某个瞬间就会出现质上的突然飞跃。

@Chester-Lieu 4 ай бұрын

听不懂

@tessxu8367 8 ай бұрын

如果X轴和Y轴都用对数（对数坐标）这条有涌现的曲线就是一条直线，斜率几乎近于零。

@user-ds9fg5rf8y 8 ай бұрын

Is there a design problem with the reward function of large language models?

@chenbin8253 7 ай бұрын

Many problems. Such as how to design the function form, component, hyperparameters etc. Design Reward function for a specific task or general tasks ...