Quay lại

Inception (GoogleNet): Đa nhiệm ở mọi cấp độ

Khám phá kiến trúc Inception và cách module đa kích thước giải quyết bài toán chọn bộ lọc.

Đăng: 20 tháng 12, 2025
Deep LearningInceptionGoogleNet

Inception (GoogleNet) - Đa nhiệm ở mọi cấp độ

GoogleNet (hay Inception-v1) là quán quân ILSVRC 2014, nổi tiếng với việc giới thiệu khối "Inception" độc đáo.

Vấn đề trước đó

Các mạng như AlexNet hay VGG buộc người thiết kế phải chọn cố định kích thước bộ lọc (3x3, 5x5, hay 7x7?). Chọn sai có thể dẫn đến việc bỏ sót thông tin (nếu quá nhỏ) hoặc tốn kém tính toán (nếu quá to).

Sức mạnh của Inception

1. Inception Module - "Tại sao phải chọn khi có thể dùng tất cả?"

Thay vì đau đầu lựa chọn, Inception module chạy song song các bộ lọc kích thước khác nhau (1x1, 3x3, 5x5) và cả Pooling trên cùng một input.

  • Kết quả: Mạng có thể nhìn hình ảnh ở nhiều tỉ lệ khác nhau cùng lúc (multi-scale processing). Vừa bắt được chi tiết nhỏ, vừa nắm được bố cục lớn.

2. Bottleneck Layer (Conv 1x1)

Để tránh bùng nổ tính toán khi chạy song song nhiều bộ lọc, Inception dùng Convolution 1x1 để giảm số chiều (depth) của dữ liệu trước khi đưa vào các bộ lọc lớn hơn.

  • Hiệu quả: Giúp mạng Inception sâu hơn và rộng hơn nhưng số lượng tham số lại ít hơn nhiều so với AlexNet hay VGG.

Di sản

Inception chứng minh rằng việc thiết kế cấu trúc mạng thông minh (micro-architecture) quan trọng hơn là chỉ đơn thuần chồng nhiều lớp. Kiến trúc Xception sau này là sự kế thừa hoàn hảo của tư duy này.