第14章一不小心站在了技術發展的最前沿

投票推薦加入書籤小說報錯

2014年，人工智慧領域正處於深度學習的快速發展時期，但在訓練深層神經網絡時，仍存在一些無法繞過的核心難題，其中「梯度消失」和「梯度爆炸」問題尤其突出。

當馬庫斯和林楓的對話逐漸轉向這些人工智慧瓶頸時，他們自然聊到了這個話題。

對於人工智慧涉及到的梯度消失和梯度爆炸這個問題，對於前世就從事人工智慧方面工作的林楓來說，他自然是不陌生。

梯度消失和梯度爆炸是神經網絡訓練中常見的問題。

了解梯度消失和梯度爆炸首先要了解神經網絡。

簡單說，神經網絡是一種模仿人腦工作原理的計算模型。

它由很多「神經元」組成，這些神經元分成多層，數據會從一層傳到另一層，最終得到一個結果。

訓練神經網絡的過程就是不斷調整這些神經元之間的「連接強度」，讓網絡的輸出越來越接近我們想要的結果。

為了調整神經網絡中的這些連接強度，我們需要用到一種叫「梯度」的東西。

簡單來說，梯度就是用來指引我們「往哪裡走」的方向，就像你爬山時要知道往哪邊是上坡、哪邊是下坡。

我們通過「梯度」來知道哪些參數需要調整，從而讓網絡的表現變得更好。

那「梯度消失」和「梯度爆炸」又是什麼呢？

假設你在玩一個滑滑梯，當你站在滑梯的最高處，往下滑時，你能很快感受到速度在增加，因為坡度很大。

但是，如果滑到快要到底部的地方，坡度變得很小，你幾乎就感覺不到滑動的速度了。

這裡的「坡度」就像是「梯度」——當坡度變小，滑動的速度也變小。

在神經網絡中，類似的事情也會發生。

如果我們給網絡很多層，它們之間的梯度會越來越小，傳到前面幾層時，梯度幾乎「消失」了。這就是「梯度消失」問題。

梯度太小，無法有效調整那些神經元的連接強度，網絡的訓練就會變得非常困難。

想像你在爬一個大山，山的坡度越來越平，最終你幾乎感受不到自己在上升了，這時你很難再判斷該怎麼繼續往上爬。

在神經網絡里，梯度消失的問題就是這種感覺，網絡不知道該如何繼續改進。

而梯度爆炸又是另外的一個極端。

假設這次你站在一座非常陡的懸崖邊，一不小心就滾下去了！

因為坡度太陡了，你的速度變得非常快，失控了。

在神經網絡中，這種情況也被稱為「梯度爆炸」

當梯度太大時，參數的調整會變得過於劇烈，網絡的學習變得不穩定，甚至會導致訓練失敗。

這就像你在陡峭的懸崖邊滑落，一下子失去了控制。

網絡的參數變化過大，導致結果變得很不穩定，甚至完全錯誤。

概括地說：

梯度消失就像在一座越來越平的山坡上，梯度變得很小，神經網絡不知道該怎麼調整，進而學習變得很慢，甚至無法進步。

梯度爆炸就像從懸崖邊滾下去，梯度變得很大，網絡的學習變得過於劇烈，結果會非常不穩定，訓練過程變得不可控。

這兩個問題經常會出現在深層神經網絡中。

而這也是馬庫斯所要傾訴的困擾。

「說起來，最近的研究還卡在了『梯度消失』的問題上。」馬庫斯苦笑著說道，靠在沙發上，「我們在訓練一些更深層次的神經網絡時，發現模型一旦超過一定的深度，反向傳播算法中的梯度會逐漸趨近於零，根本無法有效更新權重。深度越大，梯度就越容易消失，整個網絡的學習效率大幅下降。」

馬庫斯知道林楓碩士是麻省理工學院的計算機碩士，因此也就全都用專業術語表述了。

對於這些林楓當然能聽明白，非但能聽明白，而且作為一個資深的人工智慧從業人員。

林楓也清楚知道馬庫斯面臨的難題。

林楓對AI的發展也有所了解，涉及到梯度問題在2014年是深度學習研究中的一個巨大挑戰。

甚至可以說解決不了梯度問題就很難有真正的深度學習，也就不會有後來的人工智慧成果的一系列井噴。

林楓心說，自己這是一不小心站在了技術發展的最前沿了嗎？

不得不說，這種舉手投足之間就能影響時代命運的感覺是真的無比美妙。

「梯度消失的問題一直存在，尤其是深層網絡。梯度爆炸倒是相對好解決，但梯度消失會直接導致學習過程停滯不前。」林楓沉思片刻，補充道，「這不僅是你們實驗室的問題，也是整個領域的瓶頸。反向傳播的基本原理決定了，當信號在網絡中層層傳遞時，梯度的變化會以指數級縮小。」

馬庫斯腦海中泛起了大大的問號，梯度爆炸問題好解決嗎？

他怎麼覺得梯度爆炸問題也挺麻煩的？

不過聊天本來就是求同存異，既然林同樣認為梯度消失難以解決就夠了。

馬庫斯也沒糾結為什麼林說梯度爆炸容易解決，而是繼續就梯度消失發表觀點說道：「是啊，哪怕有了ReLU（修正線性單元）激活函數的引入，雖然能在一定程度上減輕梯度消失，但對深層網絡還是不夠。」

林楓想了想，說道：「你們有考慮過改進網絡結構嗎？」

溫馨提示：按回車[Enter]鍵返回書目，按 ←鍵返回上一頁，按 →鍵進入下一頁，加入書籤方便您下次繼續閱讀。

第14章 一不小心站在了技術發展的最前沿

第14章一不小心站在了技術發展的最前沿