11.1. Tối ưu Và Học Sâu
Có thể bạn quan tâm
Có lẽ vấn đế khó chịu nhất mà ta phải đối mặt là tiêu biến gradient. Ví dụ, giả sử ta muốn cực tiểu hóa hàm \(f(x) = \tanh(x)\) và ta bắt đầu tại \(x = 4\). Như ta có thể thấy, gradient của \(f\) gần như là bằng 0. Cụ thể, \(f'(x) = 1 - \tanh^2(x)\) và do đó \(f'(4) = 0.0013\). Hậu quả là quá trình tối ưu sẽ bị trì trệ khá lâu trước khi có tiến triển. Đây hóa ra lại là lý do tại sao việc huấn luyện các mô hình học sâu khá khó khăn trước khi hàm kích hoạt ReLU xuất hiện.
x = np.arange(-2.0, 5.0, 0.01) d2l.plot(x, [np.tanh(x)], 'x', 'f(x)') annotate('vanishing gradient', (4, 1), (2, 0.0))Tối ưu trong học sâu mang đầy thử thách. May mắn thay, có khá nhiều thuật toán hoạt động tốt và dễ sử dụng ngay cả đối với người mới bắt đầu. Hơn nữa, việc tìm kiếm giải pháp tốt nhất là không thật cần thiết. Các cực tiểu và ngay cả nghiệm xấp xỉ cũng đã rất hữu dụng rồi.
11.5.1. Tóm tắt¶
- Cực tiểu hóa lỗi huấn luyện không đảm bảo việc ta sẽ tìm ra tập tham số tốt nhất để cực tiểu hóa lỗi khái quát.
- Các bài toán tối ưu thường có nhiều vùng cực tiểu.
- Và do các bài toán thường không có tính lồi, số lượng điểm yên ngựa thậm chí có thể nhiều hơn.
- Tiêu biến gradient có thể khiến cho quá trình tối ưu bị đình trệ. Thường thì việc tái tham số hóa bài toán (reparameterization) và khởi tạo tham số cẩn thận cũng sẽ giúp ích.
11.5.2. Bài tập¶
- Xét một mạng perceptron đa tầng đơn giản với một tầng ẩn \(d\) chiều và một đầu ra duy nhất. Chỉ ra rằng bất kỳ cực tiểu nào cũng có ít nhất \(d!\) nghiệm tương đương khiến mạng vận hành giống nhau.
- Giả sử ta có một ma trận đối xứng \(\mathbf{M}\) ngẫu nhiên, trong đó mỗi phần tử \(M_{ij} = M_{ji}\) tuân theo phân phối xác suất \(p_{ij}\). Ngoài ra, giả sử \(p_{ij}(x) = p_{ij}(-x)\), tức phân phối là đối xứng (xem [Wigner, 1958] để biết thêm chi tiết).
- Chứng minh rằng phân phối của các trị riêng cũng là đối xứng, tức với mọi vector riêng \(\mathbf{v}\), trị riêng \(\lambda\) tương ứng thoả mãn \(P(\lambda > 0) = P(\lambda < 0)\).
- Tại sao điều trên không có nghĩa là \(P(\lambda > 0) = 0.5\)?
- Liệu còn thử thách tối ưu nào trong học sâu không?
- Giả sử bạn muốn cân bằng một quả bóng (thật) trên một chiếc yên ngựa (thật).
- Tại sao điều này lại khó khăn?
- Hãy vận dụng kết quả trên vào các thuật toán tối ưu.
11.5.3. Thảo luận¶
- Tiếng Anh - MXNet
- Tiếng Anh - Pytorch
- Tiếng Anh - Tensorflow
- Tiếng Việt
11.5.4. Những người thực hiện¶
Bản dịch trong trang này được thực hiện bởi:
- Đoàn Võ Duy Thanh
- Đỗ Trường Giang
- Lê Khắc Hồng Phúc
- Nguyễn Văn Quang
- Phạm Minh Đức
- Nguyễn Văn Cường
- Phạm Hồng Vinh
Từ khóa » Tìm Cực Trị địa Phương Và điểm Yên Ngựa
-
[Toán B2] Tìm điểm Yên Ngựa, Giá Trị Lớn Nhất, Giá Trị Nhỏ Nhất địa ...
-
Tìm Cực Đại Địa Phương Và Cực Tiểu Địa Phương F(x,y)=x^3-9xy+y^3
-
[PDF] Vi Tích Phân 2b,dhkhtnhcm
-
Tìm Cực Trị địa Phương Và điểm Yên Ngựa - Giải Tích
-
[PDF] Một Hàm Hai Biến Có Giá Trị Cực đại địa Phương Tại ( , )
-
[PDF] Cực Trị địa Phương: Cho F(x,y) Xác định Trên D Là Tập Mở
-
Điểm Yên Ngựa - Wikimedia Tiếng Việt
-
Bài 2.1 Cực Trị địa Phương , Cực Trị Tự Do, Cực Trị Tương đối, điểm Tới ...
-
GIẢI TÍCH B2 (Vi Tích Phân Của Hàm Số Nhiều Biến) JAMES ... - Issuu
-
Chú ý Khái Niệm Cực Trị Chỉ Mang Tính địa Phương Nó Khác
-
[PDF] Chương 14: ĐẠO HÀM RIÊNG ( PARTIAL DERIVATIVES )
-
[PDF] ĐẠO HÀM, VI PHÂN
-
[PDF] 20x 21 X - 4x 5 X Y + = + ( 0) 3 X A X A > + 1 1 X - TaiLieu.VN