Quay lại

VGG: Sức mạnh của sự đơn giản

Tìm hiểu về kiến trúc VGG, mô hình đã chứng minh rằng độ sâu của mạng là yếu tố then chốt cho hiệu suất.

Đăng: 16 tháng 12, 2025
Deep LearningVGGCNN

VGG (Visual Geometry Group) - Sức mạnh của sự Tinh giản & Chuẩn hóa

VGG là một trong những kiến trúc mạng nơ-ron tích chập (CNN) nổi tiếng nhất, được giới thiệu bởi K. Simonyan và A. Zisserman từ Đại học Oxford.

Vấn đề trước đó

Trước VGG (như AlexNet), người ta dùng lung tung các cỡ bộ lọc (filter): 11x11, 7x7, 5x5... với suy nghĩ là bộ lọc lớn sẽ nhìn thấy nhiều đặc trưng hơn. Nhưng điều này làm mạng rất nặng và khó tối ưu.

Sức mạnh của VGG

1. Triết lý "Small is Beautiful"

VGG chứng minh rằng bạn chỉ cần dùng bộ lọc 3x3 là đủ.

2. Tại sao lại mạnh?

  • Thay thế tương đương: Việc sử dụng 2 lớp tích chập 3x3 liên tiếp sẽ có trường thụ cảm (receptive field) tương đương với 1 lớp 5x5, và 3 lớp 3x3 tương đương với 1 lớp 7x7.
  • Lợi ích kép: Dùng 3 lớp 3x3 thay vì 1 lớp 7x7 giúp:
    1. Giảm số lượng tham số: $3 \times (3^2C^2) < 7^2C^2$.
    2. Tăng tính phi tuyến: Nhiều lớp hơn nghĩa là nhiều hàm kích hoạt (ReLU) hơn, giúp mạng học được các đặc trưng phức tạp hơn.

Di sản

VGG đặt ra tiêu chuẩn cho việc thiết kế mạng CNN: cứ chồng các block giống hệt nhau lên là được. Feature map (bản đồ đặc trưng) của VGG rất tốt, nên ngày nay nó vẫn được dùng cực nhiều trong bài toán Style Transfer (chuyển đổi phong cách ảnh) hay làm backbone cho SSD/YOLO thế hệ đầu.