Paper review

Attention Is All You Need

Vaswani et al.2017arXiv:1706.03762

Summary

Paper ini mengusulkan Transformer, arsitektur encoder-decoder yang mengandalkan attention. Evaluasi utamanya dilakukan pada machine translation dan menunjukkan kualitas tinggi dengan pelatihan yang lebih mudah diparalelkan.

Strengths

  • Ide arsitektur disampaikan dengan jelas dan modular.
  • Eksperimen translation membandingkan kualitas sekaligus biaya pelatihan.
  • Desainnya membuka jalur bagi pemrosesan sekuens yang lebih paralel.

Limitations

  • Eksperimen awal berfokus pada translation dan constituency parsing.
  • Biaya attention meningkat terhadap panjang sekuens.
  • Paper awal belum membahas skala model generatif modern.

Conclusion

Nilai terbesar paper ini adalah perubahan paradigma: hubungan antar-token dapat dimodelkan secara efektif dengan attention sebagai komponen utama.

Reading guide

Mulai dari Figure 1, pahami scaled dot-product attention, lalu lanjutkan ke multi-head attention dan hasil eksperimen.