【重制版】【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播

【重制版】【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论

Рет қаралды 10,144

17 күн бұрын

因为原视频《万字通俗讲解大语言模型内部运行原理》制作的比较早，所以比较粗糙，也没有加太多后期素材，应很多观众的要求，重新制作了该影片，包括以下改进：
1. 优化了声音，降低了背景噪音和空旷感
2. 增加了大量的后期素材和相关知识画面，方便大家更好的理解视频内容。
由于原视频录制时间已久，如有个别内容略为过时，还请包涵。
原视频链接地址： • 【人工智能】万字通俗讲解大语言模型内部运行原...
#人工智能 #llm #transformer #attention
成为此频道的会员，即可享受提前一天，观看频道最新发布视频的福利：
/ @bestpartners

Пікірлер: 36

@留言 15 күн бұрын

## 大語言模型工作原理筆記 ### 一、詞向量：表示語言的方式 * 大語言模型使用**詞向量**來表示單詞，每個詞向量是由一串數字組成的列表，代表詞空間中的一個點。 * **詞空間**中，含義相近的詞位置更接近，例如"貓"的詞向量會靠近"狗"、"小貓"等詞向量。 * **詞向量的好處**: * 可以進行數值運算，例如"最大" - "大" + "小" = "最小"。 * 能夠捕捉詞語之間的微妙關係，例如"瑞士人"與"瑞士"的關係類似於"柬埔寨人"與"柬埔寨"的關係。 * 可以根據上下文用不同的向量來表示同一個詞，解決多義詞問題，例如"銀行"可以指金融機構或河岸。 ### 二、Transformer：大語言模型的基石 * **Transformer**是一種神經網絡結構，由多個層組成，每層都接收一系列詞向量作為輸入，並添加信息以更好地預測下一個詞。 * Transformer 的兩個核心處理過程： * **注意力機制**: 詞匯會觀察周圍，尋找具有相關背景並彼此共享信息的詞，並通過查詢和關鍵項鏈的匹配來傳遞信息。 * **潛會層**: 每個詞會思考之前注意力步驟中收集到的信息，並嘗試預測下一個詞。 * **注意力機制**: * 可以將其視為單詞之間的"撮合服務"，每個詞會製作查詢和關鍵項鏈來描述自己和尋找的詞，並通過比較找到最佳匹配的詞。 * 擁有**注意力頭**，每個注意力頭專注於不同的任務，例如匹配代詞和名詞、解析多義詞等。 * **潛會層**: * 可以訪問注意力頭提供的上下文信息，並通過模式匹配來預測下一個詞。 * 早期層傾向於匹配特定單詞，後期層則匹配更廣泛類別的短語。 * 可以通過向量運算進行推理，例如將國家轉化為首都。 * 注意力機制和潛會層的分工：注意力機制從提示中檢索信息，而潛會層讓語言模型記住未在提示中出現的信息。 ### 三、訓練：讓模型學習語言 * 大語言模型通過預測文本段落中的下一個詞來學習，不需要人工標記數據。 * 訓練過程： 1. **前向傳播**: 輸入文本，檢查模型預測的下一個詞是否正確。 2. **反向傳播**: 根據預測結果調整模型的權重參數，使模型做出更好的預測。 * 訓練需要大量的數據和計算資源，例如 GPT-3 在 5000 億個單詞的語料庫上進行訓練，需要運行數月才能完成。 ### 四、模型規模與能力：越大越好 * 研究表明，模型規模越大，在語言任務上的表現越好。 * 模型規模的增大帶來了更強的推理能力，例如 GPT-3 在心智理論任務上的表現接近人類兒童。 ### 五、結論大語言模型通過學習大量文本數據，能夠以驚人的準確度預測下一個詞，並展現出一定的推理能力。雖然其內部工作機制尚未被完全理解，但其強大的能力和潛力已不容忽視。

@kuangyushih 16 күн бұрын

謝謝大飛！這是一個很棒的內容讓我對transformer有了進一步的了解. 👏👏👏🎉🎉🎉！

@Will_Huang 15 күн бұрын

大飛這期的視頻很可惜，只能給一個讚，我想給 100 個讚啊，講的實在是太棒了，非常感謝！🙏

@bestpartners 15 күн бұрын

感谢支持🙏一个赞就够了🤣

@pascalzhou929 15 күн бұрын

整个宇宙就是个超高维度的向量，我们这个世界就是这个超高维度的投影，语言就是人类在这个投影下的现实世界的简化描述，大语言模型就是对描述的极致压缩。最后浓缩成一堆12288维度的单词向量表格。大家还对此乐此不疲，不过是窥豹一斑，降维下的浮光掠影，探索真实还远远没开始，也许永不会结束。

@yanjh222 16 күн бұрын

大飞精益求精, 鼓励赞叹

@josephzhu9043 14 күн бұрын

太感谢了我第二天又找出来来来回回再看几遍。让我能看到大语言大概。更坚定AI 前景

@zohar6006 13 күн бұрын

確實，光談到什麼叫做「理解」，就成了哲學問題

@user-bm7dx8hl5x 15 күн бұрын

淺顯易懂的說明🎉

@ecowang3323 15 күн бұрын

很捧的分享，有了更深的了解。谢谢你😊

@superlambda4144 16 күн бұрын

感谢大飞！这个科普真的很不错！非常棒！👍👍👍

@Im-rollin-rollin 16 күн бұрын

学习了，谢谢播主

@LinfengJang 16 күн бұрын

虽然我曾经学习过线性代数，但是我听第一遍的时候依然有些晕😷。但是大飞的内容质量很高，再刷几遍！

@bestpartners 16 күн бұрын

感谢支持，能有些帮助就好

@simonpeter9617 16 күн бұрын

非常棒

@scchen2011 16 күн бұрын

太棒🎉

@robinzhang8322 15 күн бұрын

辛苦了！

@meow-mi333 15 күн бұрын

这篇文章不错

@user-ul6yu2he8e 13 күн бұрын

为什么要研究呢，LLM 不是人开发出来的吗，直接问业内的不可以吗

@zerohoozhang8063 15 күн бұрын

这些“层”是人工添加的还是通过程序来完成的

@neonoply2205 7 күн бұрын

所以想想看创造人类本身是不知道高多少级别的设计

@dbdoUgaflemo 3 күн бұрын

由此看来，高质量的训练内容可以极大的提高模型质量。由专业人员训练专业模型，生成高质量专家模型，再由专家模型训练更高质量的模型。词向量的感觉就像脑神经里的突触链接，词向量的纬度描述了脑神经里特定信息所持有的链接。同样的信息不同的人感受是不一样的，可能就是每个人的该信息词向量纬度和标记都不一样。可能基于人类行为正态分布训练出来的是一个普通人，不是一个独特的特别的人。未来可能会更精更专，同样的纬度词向量，参数规模在更精确更窄的范围内训练，出来的模型可不可以得到更好的效果。就像你去医院看病，你不知道什么问题先去问服务站的护士，她根据你的情况告诉你应该挂什么科的医生，到了医生那里医生给你开出了各种专业的检查，如果达不到要求，他可能要求你转院。你在每个层级遇到的人，都是差不多参数的大模型，但是每个模型训练的内容质量不一样。在现有人类能力之下，很快就会达到物理瓶颈，不可能无限制的增加芯片节点。未来的Ai，当你与Gpt交谈，它会自动匹配模型，来满足你的深度，从而让硬件系统效率最大化。大飞的视频质量越来越高了，🎉，感觉可以就某些方面做一系列，可以短小精悍，作为对主视频的补充。

@dbdoUgaflemo 3 күн бұрын

还有一个问题就是，人类所接触的信息量远远小于Ai，也许未来Ai所展示的答案才是真实的。就像盲人摸象，你没有那么大的数据库，你理解的世界和Ai计算的世界会有出入。人类目前胜出的原因可能就是人类大脑里的模型更准确，短小精悍。不过也有可能是人类一叶障目不见泰山。