Nghiên cứu sâu về các hàm chi phí của Hồi quy và các Kỹ thuật Tối ưu hóa của nó. Hướng dẫn trong Python
Ảnh của Alexander Mils trên Hàm UnsplashCost
Hàm Chi phí được sử dụng để đánh giá hiệu suất của mô hình Học máy. Một mô hình Machine Learning không có chức năng Chi phí là vô ích. Hàm chi phí giúp phân tích hiệu suất của mô hình Machine Learning. Hàm Chi phí về cơ bản so sánh các giá trị dự đoán với các giá trị thực tế. Sự lựa chọn phù hợp của hàm Chi phí góp phần tạo nên độ tin cậy và độ tin cậy của mô hình
Chức năng mất so với. Chức năng ước lượng
- Hàm được xác định trên một cá thể dữ liệu được gọi là Hàm mất
Mất hồi quy tuyệt đối
- Hàm được xác định trên toàn bộ thể hiện dữ liệu được gọi là hàm Chi phí
Mean Absolute Error of RegressionCác hàm chi phí của Regression
Nhiệm vụ hồi quy xử lý dữ liệu liên tục. Các hàm chi phí có sẵn cho Hồi quy là,
- Có nghĩa là lỗi tuyệt đối
- Có nghĩa là lỗi bình phương
- Gốc có nghĩa là lỗi bình phương
- Lỗi logarit bình phương trung bình gốc
Có nghĩa là lỗi tuyệt đối
Lỗi tuyệt đối trung bình (MAE) là sự khác biệt tuyệt đối trung bình giữa các giá trị thực tế và các giá trị dự đoán
- MAE mạnh mẽ hơn đối với các ngoại lệ. Không nhạy cảm với các ngoại lệ là do nó không xử phạt các lỗi cao do ngoại lệ gây ra
- Hạn chế của MAE là nó không khả vi tại 0 và nhiều thuật toán Tối ưu hóa hàm mất mát liên quan đến sự khác biệt để tìm các giá trị tối ưu cho các tham số
Có nghĩa là lỗi bình phương
Lỗi bình phương trung bình (MSE) là sự khác biệt bình phương trung bình giữa các giá trị thực tế và giá trị dự đoán. MSE xử phạt các lỗi cao do ngoại lệ gây ra bằng cách bình phương các lỗi. Các thuật toán tối ưu hóa được hưởng lợi từ việc xử phạt vì rất hữu ích khi tìm các giá trị tối ưu cho các tham số
- Hạn chế của MSE là rất nhạy cảm với các ngoại lệ. Khi các lỗi cao (gây ra bởi các ngoại lệ trong mục tiêu) được bình phương, nó sẽ trở thành một lỗi lớn hơn
- MSE có thể được sử dụng trong các tình huống không mong muốn có lỗi cao
Gốc có nghĩa là lỗi bình phương
Lỗi bình phương trung bình gốc (RMSE) là giá trị trung bình bình phương gốc của sự khác biệt giữa giá trị thực tế và giá trị dự đoán. RMSE có thể được sử dụng trong các trường hợp chúng tôi muốn phạt lỗi cao nhưng không nhiều như MSE
- RMSE cũng rất nhạy cảm với các ngoại lệ. Căn bậc hai trong RMSE đảm bảo hạn lỗi bị trừ điểm nhưng không nhiều như MSE
Lỗi logarit bình phương trung bình gốc
Lỗi logarit bình phương trung bình gốc (RMSLE) rất giống với RMSE nhưng nhật ký được áp dụng trước khi tính toán sự khác biệt giữa giá trị thực tế và giá trị dự đoán. Lỗi lớn và lỗi nhỏ đều được xử lý như nhau. RMSLE có thể được sử dụng trong các trường hợp mục tiêu không được chuẩn hóa hoặc thu nhỏ
- RMSLE ít nhạy cảm hơn với các ngoại lệ so với RMSE. Nó nới lỏng việc xử phạt các lỗi cao do sự hiện diện của nhật ký
Thuật toán tối ưu hóa chức năng chi phí
Các thuật toán tối ưu hóa hàm chi phí cố gắng tìm các giá trị tối ưu cho các tham số mô hình bằng cách tìm cực tiểu toàn cầu của các hàm chi phí. Các thuật toán khác nhau có sẵn là,
- Xuống dốc
- RMSProp
- Adam
Tải dữ liệu đã xử lý trước
Dữ liệu bạn cung cấp cho ANN phải được xử lý trước kỹ lưỡng để mang lại kết quả đáng tin cậy. Dữ liệu đào tạo đã được xử lý trước. Các bước tiền xử lý liên quan là,
- quy tội MICE
- Chuyển đổi nhật ký
- Phép biến đổi căn bậc hai
- Mã hóa thông thường
- Mã hóa mục tiêu
- Chuẩn hóa Điểm Z
Để thực hiện chi tiết các bước nêu trên, hãy tham khảo sổ ghi chép Kaggle của tôi về tiền xử lý dữ liệu. Liên kết máy tính xách tay
Đào tạo mô hình với ANN
Tham khảo sổ ghi chép Kaggle của tôi về Giới thiệu về ANN trong Tensorflow để biết thêm chi tiết
Xuống dốc
Thuật toán Gradient Descent sử dụng gradient của hàm chi phí để tìm giá trị tối ưu cho các tham số. Độ dốc gốc là một thuật toán lặp đi lặp lại. Nó cố gắng tìm một mức tối thiểu toàn cầu
Trên mỗi lần lặp t,
- Chi phí của dữ liệu được tìm thấy
- Sự khác biệt một phần của hàm chi phí đối với trọng số và độ lệch được tính toán
- Các trọng số và độ lệch sau đó được cập nhật bằng cách sử dụng độ dốc của hàm chi phí và tốc độ học tập 𝛼. Giá trị của 𝛼 có thể nằm trong khoảng từ 0. 0 đến 1. 0. Giá trị của 𝛼 càng lớn thì số bước thực hiện để tìm giá trị cực tiểu toàn cục của hàm chi phí càng lớn
- Tiếp tục các bước được đề cập ở trên cho đến khi hoàn thành một số lần lặp cụ thể hoặc khi đạt đến mức tối thiểu toàn cầu
RMS Prop (Root Mean Squared Prop)
RMS Prop là một thuật toán tối ưu hóa rất giống với Gradient Descent nhưng độ dốc được làm mịn và bình phương, sau đó được cập nhật để sớm đạt được mức tối thiểu toàn cầu của hàm chi phí
Trên mỗi lần lặp t,
- Chi phí của dữ liệu được tìm thấy
- Sự khác biệt một phần của hàm chi phí đối với trọng số và độ lệch được tính toán
- Các tham số trọng số và độ lệch được làm mịn và sau đó được cập nhật bằng cách sử dụng độ dốc của hàm chi phí và 𝛼 (tốc độ học tập)
- Tiếp tục các bước được đề cập ở trên cho đến khi hoàn thành một số lần lặp cụ thể hoặc khi đạt đến mức tối thiểu toàn cầu
Adam (Ước tính thời điểm thích ứng)
Adam (Ước tính thời điểm thích ứng) là một thuật toán xuất hiện bằng cách kết hợp Gradient Descent với động lượng và RMS Prop
Trên mỗi lần lặp t,
- Chi phí của dữ liệu được tìm thấy
- Sự khác biệt một phần của hàm chi phí đối với trọng số và độ lệch được tính toán
- Trọng số và độ lệch được làm mịn bằng kỹ thuật được sử dụng trong RMS Prop và Gradient Descent với động lượng, sau đó trọng số và độ lệch được cập nhật bằng cách sử dụng độ dốc của hàm chi phí và 𝛼 (tỷ lệ học tập)
- Tiếp tục các bước được đề cập ở trên cho đến khi hoàn thành một số lần lặp cụ thể hoặc khi đạt đến mức tối thiểu toàn cầu
Tóm lược
- Lỗi tuyệt đối trung bình mạnh đối với các ngoại lệ trong khi Lỗi bình phương trung bình nhạy cảm với các ngoại lệ
- Thuật toán giảm độ dốc cố gắng tìm các giá trị tối ưu cho các tham số sao cho tìm thấy mức tối thiểu toàn cầu của hàm chi phí
- Các thuật toán như RMS Prop và Adam có thể được coi là các biến thể của thuật toán giảm dần Gradient
Tìm bài đăng này trong sổ ghi chép Kaggle của tôi. https. //www. kaggle. com/srivignesh/cost-functions-of-regression-its-optimizations