ResNet: Cuộc cách mạng mạng nơ-ron siêu sâu
Khám phá Residual Networks (ResNet) và cách skip connections giải quyết vấn đề Vanishing Gradient.
ResNet (Residual Networks) - Kẻ phá vỡ giới hạn độ sâu
Được giới thiệu bởi Kaiming He và các cộng sự tại Microsoft Research, ResNet đã chiến thắng cuộc thi ILSVRC 2015 và mở ra kỷ nguyên của các mạng "siêu sâu" (ultra-deep).
Vấn đề trước đó
Mọi người nghĩ "càng sâu càng tốt". Nhưng thực tế khi train mạng sâu quá 20 lớp (như VGG), lỗi (error) lại tăng lên chứ không giảm. Đây là nghịch lý degradation problem (không chỉ là vanishing gradient, mà là việc mạng khó tối ưu hóa).
Sức mạnh của ResNet
1. Cơ chế Skip Connection (Đường tắt)
Hãy tưởng tượng bạn đang leo núi (train model). Thay vì bắt bạn leo từng bước một lên đỉnh, ResNet cho bạn một cái cáp treo để đi thẳng lên nếu đoạn đường ở giữa quá khó đi.
2. Residual Learning (Học phần dư)
Thay vì học trực tiếp hàm ánh xạ $H(x)$, mạng sẽ học hàm dư (residual function) $F(x) = H(x) - x$.
$$H(x) = F(x) + x$$
Điều này cho phép tín hiệu lan truyền trực tiếp từ các lớp đầu đến các lớp cuối mà không bị suy giảm.
Tại sao lại mạnh?
Cơ chế này giúp gradient (tín hiệu sửa lỗi) chạy một mạch từ lớp cuối cùng về lớp đầu tiên thông qua đường tắt mà không bị suy giảm. Nhờ đó, người ta có thể train được những mạng siêu sâu (152 lớp, thậm chí 1000 lớp) mà vẫn hội tụ tốt. Đây là cột mốc quan trọng nhất đưa AI vượt qua khả năng nhận diện của con người.