首頁 > 歷史

ChatGPT背後人工智慧演算法

由雪球發表于歷史2023-02-05

風險提示：本文為轉載文章，所提到的觀點僅代表個人意見，所涉及標的不作推薦，據此買賣，風險自負。

作者：胡紫怡Zoey

ChatGPT背後人工智慧演算法

，

關鍵的原創技術

，

其實全部都是國外公司發明的

。

這裡做一點簡單的科普

，

人工智慧原創性研究

，

中國還有很大進步空間

，

ChatGPT也不是普通的公司能夠復刻的出來的

。

所以

，

大A的炒作

，

洗洗睡吧

。

深度殘差網路

（

ResNet

）

深度殘差網路

（

ResNet

）

由微軟

（

亞洲

）

研究院發明

。

在此之前

，

研究員們發現深度神經網路的效果要比淺層神經網路要好得多

，

這也就是所謂的深度學習

。

但是

，

一旦神經網路過於深

，

那麼網路學習

、

訓練的過程就會爆炸

，

也就是人工智慧學不出來了

，

這很奇怪

，

理論上網路越深越好

。

為了解決這個問題

，

在普通的神經網路的基礎上

，

ResNet提出了殘差連線

，

也就是把淺層部分的表徵直接加和到深層

，

防止深度網路出現退化

。

因為淺層的直接連線

，

所以保證了網路至少能夠有淺層的水平

，

後面的深層部分擺爛也不要緊

。

這篇論文的影響是深刻的

，

是頂級會議

“

計算機視覺與模式識別

”

（

CVPR

）

的最佳論文

，

之後這個殘差網路的技術滲透到了所有的神經網路結構

，

包括AlphaGo和ChatGPT

，

成為了深度學習的基礎

。

甚至可以說

，

這篇論文奠定了2015年之後深度學習的黃金髮展期

。

Transformer

（

沒有中文翻譯

，

勉強翻譯成

“

變形金剛

”

）

Transformer由谷歌提出

，

其原理是提出了自注意力機制

（

Attention

）

，

具體比較複雜

，

我就不展開了

。

這篇文章直接改變了深度學習模型的設計理念

。

在此之前

，

影象資料

，

例如人臉識別

，

一般適用卷積神經網路

（

CNN

）

，

例如上述提到的ResNet就是嵌入到CNN中做影象識別和目標檢測

。

然後文字資料

、

自然語言資料

，

一般採用迴圈神經網路

（

RNN

）

處理

。

但是

，

Transformer在影象上戰勝了CNN

，

在文字上戰勝了RNN

，

成為大一統模型

！

甚至

，

我們現在做AI+創新藥

，

也用Transformer建模藥物分子

，

其他的模型結構幾乎全部被淘汰了

！

Transformer除了大一統

，

多才多藝處理所有型別的資料之外

，

還把深度學習向著大模型方向引導

，

ChatGPT便是大模型

，

我們馬上會介紹

。

BERT

BERT還是由谷歌提出

，

預訓練深層的雙向Transformer

。

首先

，

預訓練旨在用大量的資料訓練一個模型

，

這就要求這個模型

“

腦容量

”

足夠大

，

所以需要用到深層的雙向Transformer

。

上古時期的CNN

、

RNN沒有這麼強大的學習能力

。

其次

，

預訓練是怎麼做的呢

？

其實很簡單

：

（

）

比如有一段文字

，

我隨機的去掉一些單詞

，

然後讓模型復原出來這些被去掉的單詞

。

（

）

我手裡有一段故事

，

其中有很多句子

。

我把這些句子隨機打亂

，

拿出兩句句子A和B

，

問你

：

A是不是B的下一句句子

？

也就是上下文預測

。

注意

，

這樣的預訓練不需要去標註資料

，

只需要輸入大量的語料庫即可

。

這就加速了資料的收集

。

其次

，

很重要的一點是這樣的模型預訓練完成之後

，

能夠去做其他的自然語言任務

。

只需要在下游其他任務的小資料上面進行微調即可

，

實現了一個模型打天下

。

在以前

，

不同的自然語言任務都需要不同的演算法去處理

，

但是BERT經過微調之後可以處理所有任務

。

GPT

ChatGPT的基礎便是OpenAI提出的GPT

，

他做的事情和BERT差不多

，

也就是預訓練

，

只是預訓練的方式不一樣

。

GPT全名叫做Generative Pre-trained Transformer

，

用生成式方法預訓練的Transformer

，

知道我為什麼要大篇幅介紹Transformer和預訓練了吧

？

GPT-3有1750億引數

，

45TB的訓練資料

（

1TB=1000GB

）

，

燒了1200萬美元的費用進行訓練

。

訓練所使用的裝置包括285000 個CPU和10000 個GPU

。

這個模型的護城河有兩點

：

（

）

訓練資料的收集

，

（

）

訓練和維護所產生的費用

。

拓展

：

AIGC

AIGC中的影象生成是怎麼火起來的呢

？

是一個叫做擴散模型

（

Diffusion Model

）

的生成模型

。

首先

，

生成模型已經有10多年的研究歷史了

，

比較知名的有

：

（

）

生成對抗網路

（

GAN

）

，

加拿大蒙特利爾大學研究者於2014年提出

。

（

）

變分自編碼器

（

VAE

）

，

2013年被荷蘭阿姆斯特丹大學的研究者提出

。

（

）

歸一化流

（

Normalizing Flow

）

，

谷歌於2015年提出

。

但是上述的三個模型在生成高畫質影象上效果均不理想

，

所以沒有商用化的潛力

。

但是

，

擴散模型改變了這一切

。

擴散模型可以追溯到2015年

，

被美國斯坦福大學和加州大學伯克利分校的研究者提出

：

後來在2022年被髮揚光大

。

Stable Diffusion

（

穩定擴散模型

）

的開源

，

加速了其應用

，

所謂的開源就是把程式碼公開

，

這樣所有人都能使用

。

且Stable Diffusion是海外機構

——

一個德國慕尼黑的大學Ludwig Maximilian University of Munich開源的

。

注意到

，

Diffusion是沒有商業護城河的

，

因為演算法是公開的

，

所有人都能使用

，

且訓練快速

，

稍微有幾張顯示卡就能使用

，

門檻很低

。

總結

ChatGPT模型的護城河在於訓練資料收集和燒錢的計算過程

，

因此

，

除了百度這種在人工智慧領域有一定積累的大公司

，

既有資料的積累

，

也有研究上的積累

，

其他公司洗洗睡吧

。

如何挖掘優秀的基金？歡迎

報名雪球官方團隊為你重磅打造的免費精品課！

炒股開戶享福利，入金抽188元紅包，100%中獎！

開啟App看更多精彩內容

TAG: 模型訓練 Transformer 神經網路深度

上一篇：視點|物業費被“靈魂砍價”誰說只能漲不能降

下一篇：樸廷桓九段，終於加入“1000勝俱樂部”！

猜你喜歡

最近發表

哦哇資訊網

ChatGPT背後人工智慧演算法

猜你喜歡