哦哇資訊網

ChatGPT背後人工智慧演算法

由 雪球 發表于 歷史2023-02-05

風險提示:本文為轉載文章,所提到的觀點僅代表個人意見,所涉及標的不作推薦,據此買賣,風險自負。

作者:胡紫怡Zoey

ChatGPT背後人工智慧演算法

關鍵的原創技術

其實全部都是國外公司發明的

這裡做一點簡單的科普

人工智慧原創性研究

中國還有很大進步空間

ChatGPT也不是普通的公司能夠復刻的出來的

所以

大A的炒作

洗洗睡吧

深度殘差網路

ResNet

深度殘差網路

ResNet

由微軟

亞洲

研究院發明

在此之前

研究員們發現深度神經網路的效果要比淺層神經網路要好得多

這也就是所謂的深度學習

但是

一旦神經網路過於深

那麼網路學習

訓練的過程就會爆炸

也就是人工智慧學不出來了

這很奇怪

理論上網路越深越好

為了解決這個問題

在普通的神經網路的基礎上

ResNet提出了殘差連線

也就是把淺層部分的表徵直接加和到深層

防止深度網路出現退化

因為淺層的直接連線

所以保證了網路至少能夠有淺層的水平

後面的深層部分擺爛也不要緊

這篇論文的影響是深刻的

是頂級會議

計算機視覺與模式識別

CVPR

的最佳論文

之後這個殘差網路的技術滲透到了所有的神經網路結構

包括AlphaGo和ChatGPT

成為了深度學習的基礎

甚至可以說

這篇論文奠定了2015年之後深度學習的黃金髮展期

Transformer

沒有中文翻譯

勉強翻譯成

變形金剛

Transformer由谷歌提出

其原理是提出了自注意力機制

Attention

具體比較複雜

我就不展開了

這篇文章直接改變了深度學習模型的設計理念

在此之前

影象資料

例如人臉識別

一般適用卷積神經網路

CNN

例如上述提到的ResNet就是嵌入到CNN中做影象識別和目標檢測

然後文字資料

自然語言資料

一般採用迴圈神經網路

RNN

處理

但是

Transformer在影象上戰勝了CNN

在文字上戰勝了RNN

成為大一統模型

甚至

我們現在做AI+創新藥

也用Transformer建模藥物分子

其他的模型結構幾乎全部被淘汰了

Transformer除了大一統

多才多藝處理所有型別的資料之外

還把深度學習向著大模型方向引導

ChatGPT便是大模型

我們馬上會介紹

BERT

BERT還是由谷歌提出

預訓練深層的雙向Transformer

首先

預訓練旨在用大量的資料訓練一個模型

這就要求這個模型

腦容量

足夠大

所以需要用到深層的雙向Transformer

上古時期的CNN

RNN沒有這麼強大的學習能力

其次

預訓練是怎麼做的呢

其實很簡單

1

比如有一段文字

我隨機的去掉一些單詞

然後讓模型復原出來這些被去掉的單詞

2

我手裡有一段故事

其中有很多句子

我把這些句子隨機打亂

拿出兩句句子A和B

問你

A是不是B的下一句句子

也就是上下文預測

注意

這樣的預訓練不需要去標註資料

只需要輸入大量的語料庫即可

這就加速了資料的收集

其次

很重要的一點是這樣的模型預訓練完成之後

能夠去做其他的自然語言任務

只需要在下游其他任務的小資料上面進行微調即可

實現了一個模型打天下

在以前

不同的自然語言任務都需要不同的演算法去處理

但是BERT經過微調之後可以處理所有任務

GPT

ChatGPT的基礎便是OpenAI提出的GPT

他做的事情和BERT差不多

也就是預訓練

只是預訓練的方式不一樣

GPT全名叫做Generative Pre-trained Transformer

用生成式方法預訓練的Transformer

知道我為什麼要大篇幅介紹Transformer和預訓練了吧

GPT-3有1750億引數

45TB的訓練資料

1TB=1000GB

燒了1200萬美元的費用進行訓練

訓練所使用的裝置包括285000 個CPU和10000 個GPU

這個模型的護城河有兩點

1

訓練資料的收集

2

訓練和維護所產生的費用

拓展

AIGC

AIGC中的影象生成是怎麼火起來的呢

是一個叫做擴散模型

Diffusion Model

的生成模型

首先

生成模型已經有10多年的研究歷史了

比較知名的有

1

生成對抗網路

GAN

加拿大蒙特利爾大學研究者於2014年提出

ChatGPT背後人工智慧演算法

2

變分自編碼器

VAE

2013年被荷蘭阿姆斯特丹大學的研究者提出

ChatGPT背後人工智慧演算法

3

歸一化流

Normalizing Flow

谷歌於2015年提出

ChatGPT背後人工智慧演算法

但是上述的三個模型在生成高畫質影象上效果均不理想

所以沒有商用化的潛力

但是

擴散模型改變了這一切

擴散模型可以追溯到2015年

被美國斯坦福大學和加州大學伯克利分校的研究者提出

ChatGPT背後人工智慧演算法

後來在2022年被髮揚光大

Stable Diffusion

穩定擴散模型

的開源

加速了其應用

所謂的開源就是把程式碼公開

這樣所有人都能使用

且Stable Diffusion是海外機構

——

一個德國慕尼黑的大學Ludwig Maximilian University of Munich開源的

注意到

Diffusion是沒有商業護城河的

因為演算法是公開的

所有人都能使用

且訓練快速

稍微有幾張顯示卡就能使用

門檻很低

總結

ChatGPT模型的護城河在於訓練資料收集和燒錢的計算過程

因此

除了百度這種在人工智慧領域有一定積累的大公司

既有資料的積累

也有研究上的積累

其他公司洗洗睡吧

如何挖掘優秀的基金?歡迎

報名雪球官方團隊為你重磅打造的免費精品課!

炒股開戶享福利,入金抽188元紅包,100%中獎!

開啟App看更多精彩內容

TAG: 模型訓練Transformer神經網路深度