Sean talks

Attitude is everything

0%

Boosting (梯度提升)

相較對於 bagging 是以多個強分類器 (Strong Classifier) 組合不同,boosting 方法是藉由多個弱分類器 (Weak Classifier) 組合成為一個強分類器。

其中弱分類器的 error rate 需要略低於 50%,透過 ensemble 來使分類準確度逐步趨近於1。

其中訓練 boosting clf. 的方法是

  • 建構第一個分類器 $f_{1}(x)$
  • 建構第二個分類器 $f_{2}(x)$ 以幫助 $f_{1}(x)$ 預測分類
    • 若 $f_{2}(x)$ 相似於 $f_{1}(x)$ 會沒有效果
  • 建構第 N 個分類器 …
  • 因此 boosting clf. 是具時序性的。

其中, boosting 的模型特性能夠有效降低 bias

AdaBoost

如何建構不同的 Classifier

如果在訓練新的的分類器時,使用與舊有分類器相同的 datasets ,錯誤分類的資料還是容易做出錯誤分類,因此 AdaBoost 的作法是透過隊訓練資料做 re-weighting ,使得新的分類器能針對學習錯誤分類的資料以得到更好的效果。

Read more »

這一篇 Paper 在碩士生涯中出現的次數也不下10次了吧,畢竟它在 NLP 領域上扮演的角色實在是太重要,整理之前的論文筆記、心得與參考資料,藉著入伍前 8 個小時再來複習一次 🙆🙆 (應該沒有哪個菜兵會幹這種事吧)。

Introduction

本篇作者提出 Transformer, 一種完全基於 self-attention 機制的序列模型架構。

目前被廣泛運用在閱讀理解、資料摘要等任務中。

Transformer 與傳統學習語言模型的 RNN 架構 Seq2Seq 模型不同,其透過 Self-Attention 機制計算出輸出的特徵向量表示,
相較於 RNN 類模型需要等待上一個狀態的輸出向量進行當前狀態的計算,Transformer 的運算方式透過與序列中所有單位元計算可以有效提升模型運算的效率。

Query / Key / Value

在注意力模型中,我們假設輸入模型的序列資料為 ($x_1, x_2, … , x_n$)
輸出隱藏狀態向量序列為 ($h_1, h_2, … , h_n$)
透過注意力權重(attention weight) 乘以輸入序列資料,接著取加權平均得到情境特徵向量(Context Vector),最後即可使用 $C_t$ (t 表狀態) 計算考慮注意力權重的輸出句子 ($y_1, y_2, … , y_n$)。

Read more »

murmur

當兵的前一個周末,也許是想到入伍後大概好一陣子不能寫code,擔心大腦效能嚴重下降
試著把 BERT 中文版的命名實體識別實作完畢 BERT-NER-CHINESE

這半個月開啟 netflix 會員,並且看完:

  • 紙牌屋 第一季
  • 紙牌屋 第二季
  • 闇 第一季
  • 闇 第二季 前五集

記錄一下一個 netflix 菜雞的心得:

紙牌屋

第一季的紙牌屋的男主角 Francis Underwood 實在很對味口,並且也藉由此劇了解一點美國的政治文化。然而劇情在第二季中段就開始有些疲弱,也許是一切劇情發展太過順遂,富豪對手屢屢被壓著打沒有劇情張力,又或許是一再看 Francis 重複一樣的戲碼的不新鮮感導致整體好看程度不級首季棄追。

闇則是還不錯的時空穿越劇,但是前期有一點節奏偏慢,若非女友陪著看可能會棄追。但後面慢慢接露線索後就會開始一集一集的接續看。

Read more »

BERT 架構與訓練可以在 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 中有更詳細的說明。
n60512/BERT-QA 提供閱讀理解模型的模型微調(fine-tune)功能,使用方法如下:

Quick Start

開始微調訓練:

1
sh tarin.sh

接著修改 interaction.sh 中 load_model_path 的路徑位置:

1
sh interaction.sh  

The experimental result of F1-measure:

1
2
Evaluation 100%|███████████████████████████████████| 495/495 \[00:05<00:00, 91.41it/s\]  
Average f1 : 0.5596300989105781

測試結果

res1

res2

Overview of HANN model

HANN

Summary

Propose two kinds of review attentions, namely, intra-review attention and inter-review attention.

  • The first one can reflect the word difference in a review
  • the latter one can explore the importance of different reviews towards a user/item.

Present a framework of hierarchical neural network named HANN to integrate the two kinds of review attention. The well-designed hierarchical attention mechanism helps the model capture user profiles and item profiles, making them more explainable and reasonable.

Read more »