Bởi Afshine Amidi và Shervine Amidi Trong bối cảnh phân loại nhị phân, đây là các số liệu chính rất quan trọng để theo dõi để đánh giá hiệu suất của mô hình. Ma trận nhầm lẫn Ma trận nhầm lẫn được sử dụng để có một bức tranh hoàn chỉnh hơn khi đánh giá hiệu suất của một mô hình. Nó được định nghĩa như sau: The
confusion matrix is used to have a more complete picture when assessing the performance of a model. It is defined as follows:
Các số liệu phân loại
Lớp học dự đoán class
+
-
Lớp thực tế class
+
-
True Positives
Lớp thực tế
False Negatives
Type II error
-
Lớp thực tế
False Positives
Type I error
Tptrue tích cực
True Negatives
Fnfalse negativestype II Lỗi The following metrics are commonly used to assess the performance of classification models:
Fpfalse positivestype i Lỗi | Tiêu cực tntrue | Các số liệu chính Các số liệu sau đây thường được sử dụng để đánh giá hiệu suất của các mô hình phân loại: |
Hệ mét | Công thức | Diễn dịch |
Sự chính xác | $. | Hiệu suất tổng thể của mô hình |
Độ chính xác Sensitivity | $ \ DisplayStyle \ frac {\ textrm {tp}} {\ textrm {tp}+\ textrm {fp}} $ | Chính xác các dự đoán tích cực chính xác như thế nào |
Nhớ lại nhạy cảm | $ \ DisplayStyle \ frac {\ textrm {tp}} {\ textrm {tp}+\ textrm {fn}} $ | Phạm vi của mẫu dương tính thực tế |
Tính đặc hiệu | $ \ DisplayStyle \ frac {\ Textrm {TN}} {\ Textrm {TN}+\ Textrm {FP}} $ | Phạm vi của mẫu âm tính thực tế |
Điểm F1 The receiver operating curve, also noted ROC, is the plot of TPR versus FPR by varying the threshold. These metrics are are summed up in the table below:
Fpfalse positivestype i Lỗi | Tiêu cực tntrue | Các số liệu chính Các số liệu sau đây thường được sử dụng để đánh giá hiệu suất của các mô hình phân loại: |
Hệ mét TPR | $ \ DisplayStyle \ frac {\ textrm {tp}} {\ textrm {tp}+\ textrm {fp}} $ | Chính xác các dự đoán tích cực chính xác như thế nào |
Nhớ lại nhạy cảm FPR | $ \ DisplayStyle \ frac {\ textrm {tp}} {\ textrm {tp}+\ textrm {fn}} $ | Phạm vi của mẫu dương tính thực tế |
Tính đặc hiệu The area under the receiving operating curve, also noted AUC or AUROC, is the area below the ROC as shown in the following figure:
$ \ DisplayStyle \ frac {\ Textrm {TN}} {\ Textrm {TN}+\ Textrm {FP}} $
Phạm vi của mẫu âm tính thực tế Given a regression model $f$, the following metrics are commonly used to assess the performance of the model:
Điểm F1 | $. | Số liệu lai hữu ích cho các lớp không cân bằng |
ROC Đường cong vận hành máy thu, cũng lưu ý ROC, là sơ đồ của TPR so với FPR bằng cách thay đổi ngưỡng. Các số liệu này được tổng hợp trong bảng dưới đây: | Tương đương | RATETPR tích cực thực sự |
Nhớ lại, nhạy cảm The coefficient of determination, often noted $R^2$ or $r^2$, provides a measure of how well the observed outcomes are replicated by the model and is defined as follows:
Tỷ lệ dương tính giả$ \ DisplayStyle \ frac {\ textrm {fp}} {\ textrm {tn}+\ textrm {fp}} $ The following metrics are commonly used to assess the performance of regression models, by taking into account the number of variables $n$ that they take into consideration:
1 cụ thể | AUC khu vực dưới đường cong vận hành nhận được, cũng lưu ý AUC hoặc Auroc, là khu vực bên dưới ROC như trong hình sau: | Số liệu hồi quy | Các số liệu cơ bản được đưa ra một mô hình hồi quy $ f $, các số liệu sau đây thường được sử dụng để đánh giá hiệu suất của mô hình: |
Tổng số bình phương | Giải thích tổng của hình vuông | Tổng số bình phương còn lại | $ \ DisplayStyle \ Textrm {SS} _ {\ Textrm {Tot}} = \ sum_ {i = 1}^m (y_i- \ overline {y})^2 $ |
$ \ DisplayStyle \ Textrm {SS} _ {\ Textrm {reg}} = \ sum_ {i = 1}^m (f (x_i)-\ overline {y})^2 $
$ \ DisplayStyle \ Textrm {SS} _ {\ Textrm {res}} = \ sum_ {i = 1}^m (y_i-f (x_i))^2 $
Hệ số xác định Hệ số xác định, thường được ghi nhận $ r^2 $ hoặc $ r^2 $, cung cấp một thước đo về mức độ kết quả quan sát được nhân rộng bởi mô hình và được định nghĩa như sau: When selecting a model, we distinguish 3 different parts of the data that we have as follows:
\] | Các số liệu chính Các số liệu sau đây thường được sử dụng để đánh giá hiệu suất của các mô hình hồi quy, bằng cách tính đến số lượng biến $ n $ mà chúng xem xét: | CP của Mallow |
AIC • Usually 80% of the dataset | BIC • Usually 20% of the dataset • Also called hold-out or development set | Điều chỉnh $ r^2 $ • Unseen data |
$ \ DisplayStyle \ frac {\ Textrm {SS} _ {\ Textrm {res}}+2 (n+1)
$ \ DisplayStyle2 \ lớn [(n+2)-\ log (l) \ lớn] $ Cross-validation, also noted CV, is a method that is used to select a model that does not rely too much on the initial training set. The different types are summed up in the table below:
k-fold | Leave-p-out |
$ \ DisplayStyle \ log (m) (n+2) -2 \ log (l) $ • Generally $k=5$ or $10$ | $ \ DisplayStyle1- \ frac {(1-r^2) (m-1)} {m-n-1} $ • Case $p=1$ is called leave-one-out |
Trong đó $ L $ là khả năng và $ \ Widhat {\ Sigma}^2 $ là ước tính của phương sai được liên kết với mỗi phản hồi.
Lựa chọn mô hình The regularization procedure aims at avoiding the model to overfit the data and thus deals with high variance issues. The following table sums up the different types of commonly used regularization techniques:
Từ vựng Khi chọn mô hình, chúng tôi phân biệt 3 phần khác nhau của dữ liệu mà chúng tôi có như sau:
Tập huấn luyện The bias of a model is the difference between the expected prediction and the correct model that we try to predict for given data points.
Phương sai Phương sai của một mô hình là sự thay đổi của dự đoán mô hình cho các điểm dữ liệu đã cho. The variance of a model is the variability of the model prediction for given data points.
Sự thiên vị/phương sai đánh đổi mô hình càng đơn giản, mô hình càng cao và mô hình càng phức tạp thì phương sai càng cao. The simpler the model, the higher the bias, and the more complex the model, the higher the variance.
Phân tích lỗi Phân tích lỗi đang phân tích nguyên nhân gốc của sự khác biệt về hiệu suất giữa các mô hình hiện tại và hoàn hảo. Error analysis is analyzing the root cause of the difference in performance between the current and the perfect models.
Phân tích ablative Phân tích ablative đang phân tích nguyên nhân gốc của sự khác biệt về hiệu suất giữa các mô hình hiện tại và đường cơ sở. Ablative analysis is analyzing the root cause of the difference in performance between the current and the baseline models.