Python知識分享網 - 專業(yè)的Python學習網站 學Python,上Python222
中國人工智能系列白皮書——大模型技術(2023版)PDF 下載
匿名網友發(fā)布于:2025-05-23 10:20:48
(侵權舉報)
(假如點擊沒反應,多刷新兩次就OK!)

中國人工智能系列白皮書——大模型技術(2023版)PDF 下載 圖1

 

 

資料內容:

 

2.1 Transformer 架構
Transformer 架構[13]是目前語言大模型采用的主流架構[5],其基
于自注意力機制(Self-attention Mechanism)模型。其主要思想是通過自
注意力機制獲取輸入序列的全局信息,并將這些信息通過網絡層進行
傳遞。標準的 Transformer 如圖 2-1 所示,是一個編碼器-解碼器架構,
其編碼器和解碼器均由一個編碼層和若干相同的 Transformer 模塊層
堆疊組成,編碼器的 Transformer 模塊層包括多頭注意力層和全連接
前饋網絡層,這兩部分通過殘差連接和層歸一化操作連接起來。與編
碼器模塊相比,解碼器由于需要考慮解碼器輸出作為背景信息進行生
成,其中每個 Transformer 層多了一個交叉注意力層。相比于傳統(tǒng)循
環(huán)神經網絡(Recurrent Neural Network, RNN)和長短時記憶神經網
絡(Long Short-Term Memory Network, LSTM),Transformer 架構的
優(yōu)勢在于它的并行計算能力,即不需要按照時間步順序地進行計算。
Transformer 架構包含編碼層與 Transformer 模塊兩個核心組件,
編碼層,主要是將輸入詞序列映射到連續(xù)值向量空間進行編碼,
每個詞編碼由詞嵌入和位置編碼構成,由二者加和得到:
1)詞嵌入,在 Transformer 架構中,詞嵌入是輸入數(shù)據的第一步
處理過程,它將詞映射到高維空間中的向量,可以捕獲詞匯的語義信
息,如詞義和語法關系。每個詞都被轉化為一個固定長度的向量,然
后被送入模型進行處理。