Attention Is All You Need (part 1)

這一篇 Paper 在碩士生涯中出現的次數也不下10次了吧，畢竟它在 NLP 領域上扮演的角色實在是太重要，整理之前的論文筆記、心得與參考資料，藉著入伍前 8 個小時再來複習一次 🙆🙆 (應該沒有哪個菜兵會幹這種事吧)。

Introduction

本篇作者提出　Transformer，一種完全基於　self-attention 機制的序列模型架構。

目前被廣泛運用在閱讀理解、資料摘要等任務中。

Transformer 與傳統學習語言模型的 RNN 架構 Seq2Seq 模型不同，其透過 Self-Attention 機制計算出輸出的特徵向量表示，
相較於 RNN 類模型需要等待上一個狀態的輸出向量進行當前狀態的計算，Transformer 的運算方式透過與序列中所有單位元計算可以有效提升模型運算的效率。

Query / Key / Value

在注意力模型中，我們假設輸入模型的序列資料為 ($x_1, x_2, … , x_n$)
輸出隱藏狀態向量序列為 ($h_1, h_2, … , h_n$)
透過注意力權重(attention weight) 乘以輸入序列資料，接著取加權平均得到情境特徵向量(Context Vector)，最後即可使用 $C_t$ (t 表狀態) 計算考慮注意力權重的輸出句子 ($y_1, y_2, … , y_n$)。

如此我們也可以說是，將每一個輸入序列作為 Query、位址作為 Key，透過計算狀態 Q 與 K 的相似性得到對於元素 Value 的權重係數，接著乘上 V 進行加權求和得到 Context Vector。