Quay lại

Vision Transformer (ViT): Kẻ thay đổi cuộc chơi

Khi Transformer lấn sân sang Computer Vision: Sự kết thúc của sự thống trị Convolution?

Đăng: 21 tháng 12, 2025
Deep LearningTransformerViTSOTA

Vision Transformer (ViT) - Kẻ lật đổ ngai vàng CNN

Suốt một thập kỷ (2012-2020), CNN (ResNet, VGG...) là vua của Computer Vision. Vision Transformer (2020) xuất hiện và chứng minh rằng: Convolution là không cần thiết.

Vấn đề của CNN

CNN hoạt động dựa trên cửa sổ trượt (sliding window), nên chúng rất giỏi bắt đặc trưng cục bộ (cạnh, góc). Tuy nhiên, để nhìn thấy mối liên hệ giữa hai điểm xa nhau trong ảnh (global context), CNN cần rất nhiều lớp sâu.

Sức mạnh của ViT

1. Cơ chế Self-Attention "Toàn cục"

ViT cắt ảnh thành các mảnh vuông nhỏ (patch, ví dụ 16x16 pixel) và coi chúng như các "từ" trong một câu văn. Nhờ cơ chế Self-Attention, ngay từ lớp đầu tiên, một mảnh ảnh ở góc trái có thể "nói chuyện" và liên kết trực tiếp với mảnh ảnh ở góc phải.

  • Kết quả: Khả năng nắm bắt ngữ cảnh toàn cục (Global Context) vượt trội so với CNN.

2. Khả năng mở rộng (Scalability)

ViT không có các thiên kiến quy nạp (inductive bias) về không gian như CNN (như tính bất biến tịnh tiến), nên nó cần rất nhiều dữ liệu để train. Nhưng ngược lại, khi có đủ dữ liệu (JFT-300M, ImageNet-21k), ViT càng to thì càng mạnh và không bị bão hòa nhanh như CNN.

Di sản

ViT mở ra kỷ nguyên của sự thống nhất: dùng cùng một kiến trúc Transformer cho cả Văn bản (NLP), Hình ảnh (CV), và Âm thanh. Các siêu mô hình hiện nay như DALL-E, Midjourney, hay Segment Anything (SAM) đều đứng trên vai người khổng lồ này.