OpenAI
- ์ ์ํธ๋ง์ด 2015๋ 12์ 11์ผ ์ค๋ฆฝ
- ์ธ๊ณต์ง๋ฅ์ด ์ธ๋ฅ์ ์ฌ์์ด ๋์ง ์๊ณ , ์ธ๋ฅ์๊ฒ ์ด์ต์ ์ฃผ๋ ๊ฒ์ ๋ชฉํ๋ก ํจ
- Microsoft๊ฐ ํฌ์๋ฅผ ๋ฐ๊ณ , ๋ ์ ๋ผ์ด์ ์ค ์ ๊ณต
- ๋น์๋ฆฌ ๊ธฐ์ ์ผ๋ก ์์ํ์ผ๋ ํ์ฌ๋ ํ๊ณ ์๋ฆฌ๊ธฐ์ ํํ
ChatGPT
- ์ด๊ฑฐ๋ ์ธ์ด๋ชจ๋ธ GPT-3.5 ๊ธฐ๋ฐ ๋ํํ ์ธ๊ณต์ง๋ฅ ์ฑ๋ด
- ์ฑํ ์ ํตํด ์ง๋ฌธ์ ์ ๋ ฅํ๋ฉด ์ฌ๋์ฒ๋ผ ๋ต์ ํด์ฃผ๋ ์๋น์ค
- ์์ฃผ ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง Transformer ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ์ ์์ฃผ ๋ง์ ๋ฐ์ดํฐ๋ก ํ์ต
Language Model ์ธ์ด ๋ชจ๋ธ
- ์ธ์ด ๋ชจ๋ธ์ ๋จ์ด์ ํ๋ฅ ์ ๋ถ์ฌํด์ ๋ฌธ์ฅ์ด ์ผ๋ง๋ ์์ฐ์ค๋ฌ์ด์ง๋ฅผ ํ๊ฐํ ์ ์๋ ๋ชจ๋ธ
- ์ด์ ์ ๋ฌธ๋งฅ์ ๋ฐํ์ผ๋ก ๋ค์ ๋๋ ํน์ ์์น์ ์ ํฉํ ๋จ์ด๋ฅผ ํ๋ฅ ์ ์ผ๋ก ์์ธก
- ์ธ์ด ๋ชจ๋ธ์ ํ๊ฐ ์งํ๋ ํ ์คํธ์ PPL(Perplexity)์ ์ฌ์ฉ
Ngram > RNN(1986) > LSTM(1997) > Transformer(2017)
N-gram
- ํ ์คํธ์์ n๊ฐ์ ๋จ์ด ์ํ์ค์ ํ๋ฅ ๋ง์ด ๊ณ ๋ ค๋๋ ๋งค์ฐ ๊ฐ๋จํ ์ธ์ด๋ชจ๋ธ
- ์ฝํผ์ค์ ๋์ค์ง ์์ ๋จ์ด ์ํ์ค์ ํ๋ฅ ์ ์ ํํ๊ฒ ์ถ์ ํ์ง ๋ชปํจ
- ์ด์ n-1๊ฐ์ ๋ฌธ๋งฅ๋ง ๊ณ ๋ คํ๋ฏ๋ก ๊ธด ์ํ์ค์ ์ ํฉํ์ง ์์
RNN
- Recurrent์ ๊ฐ๋ ์ ์ ์ฉํ Neural Network ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ
- RNN, LSTM, GRU ๋ฑ์ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉ
- N-gram ๋ณด๋ค ๊ธด ๋ฌธ๋งฅ์ ๊ธฐ์ตํ ์ ์๊ณ , Unseen ํ๋ฅ ๋ ๋์ฑ ์ ํ
Transformer
- Attension Is All you Need, 2017 ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ
- ๋์ Scalability ๋ก ๋ํ ์ธ์ด๋ชจ๋ธ์์๋ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅ
- ๋ฒ์ฉ์ฑ๋ ๋์์ ํ ์คํธ ์ธ์๋ ์์ฑ, ์์์์๋ ์ฌ์ฉ๋๊ณ ์์
Search
- Greedy Search : ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ๋จ์ด์ ๊ฒฝ๋ก๋ง ์์กด
- Beam Search
Sampling
- Top-K Sampling: ๋์ ํ๋ฅ ์ K๊ฐ ๋จ์ด ์ค์์ ์ํ๋ง
- Top-p Sampling: ํ๋ฅ ์ ๋์ ํฉ์ด p ์ด์ ๋๋๋ก ํ๋ ๋จ์ด ์ํ๋ง
GPTS
InstructGPT
- ๋ฑ์ฅ ๋ฐฐ๊ฒฝ : GPT3 ๊ฒฐ๊ณผ๋ ๋์์ด ์๋๊ณ , ์ฌ์ค์ด ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅ + ํด๋ก์ด ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณต
Step 1: Supervised fine-tuning (SFT)
- ํ๋กฌํํธ ์ ํ: ๋ฐ์ดํฐ์ ์์ ๋ค์ํ๊ณ ์ ํฉํ ํ๋กฌํํธ ์ ํ
- ์์ ์์ ๋ต๋ณ ์์ฑ: ์๋น์ค ์ ์ฑ ์ ๋ง๋ ์ ํฉํ ๋ต๋ณ ์์ฑ
- ๋ชจ๋ธ ํ์ต: ๊ตฌ์ถ๋ ๋ฐ์ดํฐ๋ก GPT-3๋ฅผ ๋ฏธ์ธ ์กฐ์
Step 2: Reward Model Training
- ์๋ต ๋ฐ์ดํฐ ์์ฑ: SFT ๋ชจ๋ธ์์ ํ๋กฌํํธ์ ๋ํ ์ฌ๋ฌ ๊ฐ์ ๋ต๋ณ์ ์์ฑ
- ์์ ์์ ์์ ๋ฐ ์ ์ ์์ฑ: ๊ฐ ์๋ต์ ๋ํ ์์์ ์ ์๋ฅผ ์์ฑ
- ๋ณด์ ๋ชจ๋ธ ํ์ต: ์๋ต์ ๋ณด์์ ์์ธกํ๋ ๋ชจ๋ธ ํ์ต
Step 3: Policy Training (LM Training)
- ํ์ต์ฉ ํ๋กฌํํธ ๋ฐ์ดํฐ ์ ์
- ์ธ์ด ๋ชจ๋ธ ์ ๋ฐ์ดํธ ๋ฐ ๋ต๋ณ ์์ฑ: ์์ค ํจ์์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์ ๋ฐ์ดํธ, ์๋ก์ด ๋ชจ๋ธ๋ก ๋ต๋ณ ๋ฐ์ดํฐ ์์ฑ
๋น๊ฐ๋ ์ฌ์ ํ์ต (Un-supervised Pre-training)
- Wav2Vec ๊ฐ์ ๋น๊ฐ๋ ์ฌ์ ํ์ต ๊ธฐ์ ์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์
- ์ฌ๋์ด ๋ง๋ ๋ผ๋ฒจ์ด ํ์ ์์ผ๋ฏ๋ก ์๋ฐฑ๋ง ์๊ฐ๊น์ง ๋ฐ์ดํฐ๊ฐ ์ฌ์ฉ ๊ฐ๋ฅ
- ๋น๊ฐ๋ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํ์ธ ํ๋ํด์ ํนํ ์ ์ ๋ฐ์ดํฐ์์ SOTA๋ฅผ ๋ฌ์ฑ
Motivation
๋น๊ฐ๋ ์ฌ์ ํ์ต์ ํ๊ณ
- ์์ฑ์ธ์์ ์ํด ํ์ธํ๋ ํ์
- ๋จธ์ ๋ฌ๋์ด ์ฐ์ํ์ง๋ง ๋ค๋ฅธ ๋ฐ์ดํฐ์์ ์ฑ๋ฅ ๋ฎ์
- ๋จธ์ ๋ฌ๋์ด ์ฌ๋์ด ์ธ์งํ์ง ๋ชปํ๋ ๋ฐ์ดํฐ์ ํน์ฑ์ ์ ์ฉํ๊ณ ์๊ธฐ ๋๋ฌธ
Whisper
- ์์ฑ์ธ์์ ์ต์ข ๋ชฉ์ ์ ๋ชจ๋ ๋ฐ์ดํฐ์์ ํ์ธ ํ๋์ด ์์ด ์์ ์ ์ผ๋ก ๋์ํ๋ ๊ฒ
Data Preprocessing
- ์ธํฐ๋ท์์ ์ ์ฌ๊ฐ ์๋ ์์ฑ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ๋ค. : ๋ค์ํ ํ์, ์ธ์ด, ํ๊ฒฝ์ด ํฌํจ, ์ธ์๊ธฐ๋ฅผ ๊ฐ๊ฑดํ๊ฒ ๋ง๋ค์ด ์ค
- ์ ์ฌ ์ค๋ฅ๊ฐ ๋ง์์ ์๋ ํํฐ๋ง์ ๊ฐ๋ฐ : ์ธ์๊ธฐ๊ฐ ๋ง๋ค์ด๋ธ ์ ์ฌ๋ฅผ ๊ฑธ๋ฌ์ผ ํ์
- ์ธ์ด ๊ฒ์ถ๊ธฐ ๊ฐ๋ฐ : ์์ฑ ์ธ์ด ๊ฒ์ถ๊ธฐ(VoxLingua107 ์ฌ์ฉ) ๊ฐ๋ฐ, ์ ์ฌ ํ ์คํธ๋ก CLD2์์ ๋์จ ์ธ์ด์ ๋ค๋ฅด๋ฉด ํ์ต๋ฐ์ดํฐ ์ ์ธ, ์ ์ฌ ์ธ์ด๊ฐ ์์ด๋ฉด ๋ฒ์ญ ๋ฐ์ดํฐ๋ก ์ฌ์ฉ
- ์์ฑ์ 30์ด ๋จ์๋ก ์๋ฅด๊ณ ์ ์ฌ๋ ๋ถ๋ฆฌ : ์๋๋๋ฐ ์ ์ฌ๊ฐ ์๋ ์์ฑ๋ VAD ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉ
Long-form Transcription
- 30์ด ์ธ๊ทธ๋จผํธ๋ก ์ฐ์์ ์ธ ์ ์ฌ๋ฅผ ์ํ
- ๋ชจ๋ธ๋ก ์ถ์ ๋ ์๊ฐ ์คํฌํ์ ๋ฐ๋ผ์ window shifting์ ํ๋ค.
- ์์ ์ ์ผ๋ก ๊ธด ์ค๋์ค๋ฅผ ์ ์ฌํ๊ธฐ ์ํด์ ๋น์์น์ "๋ฐ๋ณต๊ณผ ๋ชจ๋ธ ์์ธก ๋ก๊ทธ ํ๋ฅ "์ ๊ธฐ๋ฐํ temperature scheduling์ด ์ค์
Comparison with Human Performance
- ํ ์คํธ์ ์์ ๋จ์ ๊ฐ์ ๋์ ์ํด์ ์ ๋ฌธ๊ฐ์ ์ ์ฌ๋ฅ๋ ฅ๊ณผ ๋น๊ต
- Whisper๋ ์ฌ๋ํํ ์์ฃผ ๊ฐ๊น์ด ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
Limitations and Future Work
Current limitations of Whisper
- Inaccurate timestamps
- Hallucinations
- Low performance on low-resource languages
- No speaker recognition
- No real-time transcription
- Pure PyTorch inference
Whisper ์ค์น & ์ฌ์ฉ ๋ฐฉ๋ฒ
๊ฒฐ๊ณผ