風險提示:本文為轉載文章,所提到的觀點僅代表個人意見,所涉及標的不作推薦,據此買賣,風險自負。
作者:胡紫怡Zoey
ChatGPT背後人工智慧演算法
,
關鍵的原創技術
,
其實全部都是國外公司發明的
。
這裡做一點簡單的科普
,
人工智慧原創性研究
,
中國還有很大進步空間
,
ChatGPT也不是普通的公司能夠復刻的出來的
。
所以
,
大A的炒作
,
洗洗睡吧
。
深度殘差網路
(
ResNet
)
深度殘差網路
(
ResNet
)
由微軟
(
亞洲
)
研究院發明
。
在此之前
,
研究員們發現深度神經網路的效果要比淺層神經網路要好得多
,
這也就是所謂的深度學習
。
但是
,
一旦神經網路過於深
,
那麼網路學習
、
訓練的過程就會爆炸
,
也就是人工智慧學不出來了
,
這很奇怪
,
理論上網路越深越好
。
為了解決這個問題
,
在普通的神經網路的基礎上
,
ResNet提出了殘差連線
,
也就是把淺層部分的表徵直接加和到深層
,
防止深度網路出現退化
。
因為淺層的直接連線
,
所以保證了網路至少能夠有淺層的水平
,
後面的深層部分擺爛也不要緊
。
這篇論文的影響是深刻的
,
是頂級會議
“
計算機視覺與模式識別
”
(
CVPR
)
的最佳論文
,
之後這個殘差網路的技術滲透到了所有的神經網路結構
,
包括AlphaGo和ChatGPT
,
成為了深度學習的基礎
。
甚至可以說
,
這篇論文奠定了2015年之後深度學習的黃金髮展期
。
Transformer
(
沒有中文翻譯
,
勉強翻譯成
“
變形金剛
”
)
Transformer由谷歌提出
,
其原理是提出了自注意力機制
(
Attention
)
,
具體比較複雜
,
我就不展開了
。
這篇文章直接改變了深度學習模型的設計理念
。
在此之前
,
影象資料
,
例如人臉識別
,
一般適用卷積神經網路
(
CNN
)
,
例如上述提到的ResNet就是嵌入到CNN中做影象識別和目標檢測
。
然後文字資料
、
自然語言資料
,
一般採用迴圈神經網路
(
RNN
)
處理
。
但是
,
Transformer在影象上戰勝了CNN
,
在文字上戰勝了RNN
,
成為大一統模型
!
甚至
,
我們現在做AI+創新藥
,
也用Transformer建模藥物分子
,
其他的模型結構幾乎全部被淘汰了
!
Transformer除了大一統
,
多才多藝處理所有型別的資料之外
,
還把深度學習向著大模型方向引導
,
ChatGPT便是大模型
,
我們馬上會介紹
。
BERT
BERT還是由谷歌提出
,
預訓練深層的雙向Transformer
。
首先
,
預訓練旨在用大量的資料訓練一個模型
,
這就要求這個模型
“
腦容量
”
足夠大
,
所以需要用到深層的雙向Transformer
。
上古時期的CNN
、
RNN沒有這麼強大的學習能力
。
其次
,
預訓練是怎麼做的呢
?
其實很簡單
:
(
1
)
比如有一段文字
,
我隨機的去掉一些單詞
,
然後讓模型復原出來這些被去掉的單詞
。
(
2
)
我手裡有一段故事
,
其中有很多句子
。
我把這些句子隨機打亂
,
拿出兩句句子A和B
,
問你
:
A是不是B的下一句句子
?
也就是上下文預測
。
注意
,
這樣的預訓練不需要去標註資料
,
只需要輸入大量的語料庫即可
。
這就加速了資料的收集
。
其次
,
很重要的一點是這樣的模型預訓練完成之後
,
能夠去做其他的自然語言任務
。
只需要在下游其他任務的小資料上面進行微調即可
,
實現了一個模型打天下
。
在以前
,
不同的自然語言任務都需要不同的演算法去處理
,
但是BERT經過微調之後可以處理所有任務
。
GPT
ChatGPT的基礎便是OpenAI提出的GPT
,
他做的事情和BERT差不多
,
也就是預訓練
,
只是預訓練的方式不一樣
。
GPT全名叫做Generative Pre-trained Transformer
,
用生成式方法預訓練的Transformer
,
知道我為什麼要大篇幅介紹Transformer和預訓練了吧
?
GPT-3有1750億引數
,
45TB的訓練資料
(
1TB=1000GB
)
,
燒了1200萬美元的費用進行訓練
。
訓練所使用的裝置包括285000 個CPU和10000 個GPU
。
這個模型的護城河有兩點
:
(
1
)
訓練資料的收集
,
(
2
)
訓練和維護所產生的費用
。
拓展
:
AIGC
AIGC中的影象生成是怎麼火起來的呢
?
是一個叫做擴散模型
(
Diffusion Model
)
的生成模型
。
首先
,
生成模型已經有10多年的研究歷史了
,
比較知名的有
:
(
1
)
生成對抗網路
(
GAN
)
,
加拿大蒙特利爾大學研究者於2014年提出
。
(
2
)
變分自編碼器
(
VAE
)
,
2013年被荷蘭阿姆斯特丹大學的研究者提出
。
(
3
)
歸一化流
(
Normalizing Flow
)
,
谷歌於2015年提出
。
但是上述的三個模型在生成高畫質影象上效果均不理想
,
所以沒有商用化的潛力
。
但是
,
擴散模型改變了這一切
。
擴散模型可以追溯到2015年
,
被美國斯坦福大學和加州大學伯克利分校的研究者提出
:
後來在2022年被髮揚光大
。
Stable Diffusion
(
穩定擴散模型
)
的開源
,
加速了其應用
,
所謂的開源就是把程式碼公開
,
這樣所有人都能使用
。
且Stable Diffusion是海外機構
——
一個德國慕尼黑的大學Ludwig Maximilian University of Munich開源的
。
注意到
,
Diffusion是沒有商業護城河的
,
因為演算法是公開的
,
所有人都能使用
,
且訓練快速
,
稍微有幾張顯示卡就能使用
,
門檻很低
。
總結
ChatGPT模型的護城河在於訓練資料收集和燒錢的計算過程
,
因此
,
除了百度這種在人工智慧領域有一定積累的大公司
,
既有資料的積累
,
也有研究上的積累
,
其他公司洗洗睡吧
。
如何挖掘優秀的基金?歡迎
報名雪球官方團隊為你重磅打造的免費精品課!
炒股開戶享福利,入金抽188元紅包,100%中獎!
開啟App看更多精彩內容
猜你喜歡
- 2023-01-31哈蘭德:索爾斯克亞在莫爾德全力教我頭球,當時訓練有成效
- 2023-01-12內蒙古興安盟森林消防支隊靈活運用“五小練兵”方法開展訓練
- 2021-06-13秦始皇陵墓中真的有永動機,揭開它的動力來源之謎,很多人都愣住
- 2021-05-18韓國科學家用機器人體外操控了小鼠腦神經不到1分鐘實現通訊連線
- 2021-05-15變態的日本機械,這麼奇葩的齒輪也能轉動?感覺拆了都裝不起來