Phỏng vấn khoa học dữ liệu Cheat sheet GitHub

Một kho lưu trữ liệt kê các nguồn tiềm năng sẽ giúp bạn chuẩn bị cho cuộc phỏng vấn Khoa học dữ liệu/Học máy. Tài nguyên mới được bổ sung thường xuyên

Show

khoa học dữ liệu machine learning thống kê xác suất khoa học dữ liệu machine learning phỏng vấn-chuẩn bị machine-learning-phỏng vấn dữ liệu-khoa học-phỏng vấn

Bảng dữ liệu khoa học dữ liệu

Danh sách cheatsheet khoa học dữ liệu

Mục lục

  • Trí tuệ nhân tạo
  • Dữ liệu lớn
  • Kỹ thuật dữ liệu
  • Khai thác dữ liệu
  • Khoa học dữ liệu
  • Trực quan hóa dữ liệu
  • kho dữ liệu
  • Học kĩ càng
  • DevOps
  • Docker & Kubernetes
  • Excel
  • Git
  • Hình ảnh
  • Câu hỏi phỏng vấn
  • Linux
  • toán học
  • matlab
  • NLP
  • Nặng nề
  • Phương trình vi phân thường
  • gấu trúc
  • xác suất
  • con trăn
  • Scala
  • SQL
  • Số liệu thống kê

Lựa chọn tính năng là quá trình chọn một tập hợp con các tính năng có liên quan để sử dụng trong xây dựng mô hình. Lựa chọn tính năng tự nó hữu ích, nhưng nó chủ yếu hoạt động như một bộ lọc, loại bỏ các tính năng không hữu ích ngoài các tính năng hiện có của bạn. Các phương pháp lựa chọn tính năng hỗ trợ bạn trong nhiệm vụ tạo ra một mô hình dự đoán chính xác. Họ giúp bạn bằng cách chọn các tính năng sẽ cung cấp cho bạn độ chính xác tốt hoặc tốt hơn trong khi yêu cầu ít dữ liệu hơn. Các phương pháp lựa chọn tính năng có thể được sử dụng để xác định và loại bỏ các thuộc tính không cần thiết, không liên quan và dư thừa khỏi dữ liệu không đóng góp vào độ chính xác của mô hình dự đoán hoặc trên thực tế có thể làm giảm độ chính xác của mô hình. Ít thuộc tính hơn là mong muốn vì nó làm giảm độ phức tạp của mô hình và một mô hình đơn giản hơn sẽ dễ hiểu và giải thích hơn

Phương pháp lọc

Các phương pháp lựa chọn tính năng lọc áp dụng một biện pháp thống kê để gán điểm cho từng tính năng. Các tính năng được xếp hạng theo điểm số và được chọn để giữ hoặc xóa khỏi tập dữ liệu. Các phương pháp thường là đơn biến và xem xét tính năng một cách độc lập hoặc liên quan đến biến phụ thuộc. Một số ví dụ về một số phương pháp lọc bao gồm bài kiểm tra Chi bình phương, mức tăng thông tin và điểm hệ số tương quan

phương pháp nhúng

Các phương pháp nhúng tìm hiểu tính năng nào đóng góp tốt nhất vào độ chính xác của mô hình trong khi mô hình đang được tạo. Loại phương pháp lựa chọn tính năng nhúng phổ biến nhất là phương pháp chính quy hóa. Các phương pháp chính quy hóa còn được gọi là các phương pháp xử phạt đưa ra các ràng buộc bổ sung vào việc tối ưu hóa thuật toán dự đoán (chẳng hạn như thuật toán hồi quy) làm sai lệch mô hình về độ phức tạp thấp hơn (ít hệ số hơn). Ví dụ về các thuật toán chính quy hóa là LASSO, Elastic Net và Ridge Regression

Gây hiểu lầm

Bao gồm các thuộc tính dư thừa có thể gây hiểu lầm cho các thuật toán mô hình hóa. Các phương pháp dựa trên trường hợp như k-hàng xóm gần nhất sử dụng các lân cận nhỏ trong không gian thuộc tính để xác định dự đoán phân loại và hồi quy. Những dự đoán này có thể bị sai lệch rất nhiều bởi các thuộc tính dư thừa

trang bị quá mức

Giữ các thuộc tính không liên quan trong tập dữ liệu của bạn có thể dẫn đến trang bị quá mức. Các thuật toán cây quyết định như C4. 5 tìm cách tạo ra những khoảng cách tối ưu trong các giá trị thuộc tính. Những thuộc tính tương quan hơn với dự đoán được phân chia trước. Sâu hơn trong cây các thuộc tính ít liên quan và không liên quan hơn được sử dụng để đưa ra các quyết định dự đoán chỉ có thể có lợi một cách tình cờ trong tập dữ liệu huấn luyện. Việc khớp quá nhiều dữ liệu huấn luyện này có thể ảnh hưởng tiêu cực đến sức mạnh mô hình hóa của phương pháp và làm tê liệt độ chính xác dự đoán

2. Giải thích chính quy hóa là gì và tại sao nó hữu ích

Chính quy hóa là quá trình thêm một tham số điều chỉnh vào một mô hình để tạo ra sự trơn tru nhằm ngăn chặn quá mức

Điều này thường được thực hiện bằng cách thêm một bội số không đổi vào một vectơ trọng số hiện có. Hằng số này thường là L1 (Lasso) hoặc L2 (ridge), nhưng trên thực tế có thể là bất kỳ chuẩn nào. Sau đó, các dự đoán mô hình sẽ giảm thiểu giá trị trung bình của hàm mất mát được tính toán trên tập huấn luyện chính quy

Như được giải thích bởi những người khác, người ta biết rằng chính quy hóa L1 giúp thực hiện lựa chọn tính năng trong các không gian tính năng thưa thớt và đó là lý do thực tế tốt để sử dụng L1 trong một số trường hợp. Tuy nhiên, ngoài lý do cụ thể đó, tôi chưa bao giờ thấy L1 hoạt động tốt hơn L2 trong thực tế. Nếu bạn xem xét vấn đề này, bạn sẽ thấy họ chưa thấy một ví dụ thực tế nào về việc L1 đánh bại L2 và khuyến khích người dùng thư viện liên hệ với họ nếu họ tìm thấy. Ngay cả trong trường hợp bạn có thể hưởng lợi từ độ thưa thớt của L1 để thực hiện lựa chọn tính năng, việc sử dụng L2 trên các biến còn lại có thể mang lại kết quả tốt hơn so với L1

3. Sự khác biệt giữa chính quy hóa L1 và L2 là gì?

Chính quy hóa là một kỹ thuật rất quan trọng trong học máy để tránh trang bị quá mức. Về mặt toán học, nó thêm một thuật ngữ chính quy hóa để ngăn các hệ số phù hợp hoàn hảo đến mức quá khớp. Sự khác biệt giữa L1(Lasso) và L2(Ridge) chỉ là L2(Ridge) là tổng bình phương của các trọng số, trong khi L1(Lasso) chỉ là tổng của các trọng số tuyệt đối trong MSE hoặc một hàm mất mát khác. Như sau.

Phỏng vấn khoa học dữ liệu Cheat sheet GitHub
Sự khác biệt giữa các thuộc tính của chúng có thể được tóm tắt nhanh chóng như sau.
Phỏng vấn khoa học dữ liệu Cheat sheet GitHub

Tính độc đáo của giải pháp là một trường hợp đơn giản hơn nhưng đòi hỏi một chút trí tưởng tượng. Đầu tiên, hình ảnh dưới đây.

Phỏng vấn khoa học dữ liệu Cheat sheet GitHub

4. Làm cách nào để bạn xác thực một mô hình mà bạn đã tạo để tạo ra một mô hình dự đoán của một biến kết quả định lượng bằng cách sử dụng hồi quy bội?

Các phương pháp đề xuất để xác nhận mô hình

  • Nếu các giá trị được dự đoán bởi mô hình nằm ngoài phạm vi biến phản hồi, điều này sẽ ngay lập tức cho thấy ước tính kém hoặc mô hình không chính xác
  • Nếu các giá trị có vẻ hợp lý, hãy kiểm tra các tham số; . các dấu hiệu trái ngược với kỳ vọng, giá trị lớn hoặc nhỏ bất thường hoặc quan sát thấy sự không nhất quán khi mô hình được cung cấp dữ liệu mới
  • Sử dụng mô hình để dự đoán bằng cách cung cấp cho nó dữ liệu mới và sử dụng hệ số xác định (R bình phương) làm thước đo tính hợp lệ của mô hình
  • Sử dụng phân tách dữ liệu để tạo thành một tập dữ liệu riêng biệt để ước tính các tham số mô hình và một tập dữ liệu khác để xác thực các dự đoán
  • Sử dụng lấy mẫu lại jackknife nếu tập dữ liệu chứa một số lượng nhỏ các phiên bản và đo lường tính hợp lệ bằng R bình phương và lỗi bình phương trung bình (MSE)

5. Giải thích độ chính xác và thu hồi là gì. Làm thế nào để chúng liên quan đến đường cong ROC?

Tính toán độ chính xác và thu hồi thực sự khá dễ dàng. Hãy tưởng tượng có 100 trường hợp dương tính trong số 10.000 trường hợp. Bạn muốn dự đoán trường hợp nào dương tính và bạn chọn 200 trường hợp để có cơ hội nắm bắt nhiều hơn trong số 100 trường hợp dương tính. Bạn ghi lại ID dự đoán của mình và khi bạn nhận được kết quả thực tế, bạn sẽ tính tổng số lần bạn đúng hoặc sai. Có bốn cách để trở thành đúng hay sai

  1. TN / Tiêu cực thực sự. trường hợp là tiêu cực và dự đoán tiêu cực
  2. TP / Thật tích cực. trường hợp dương tính và dự đoán dương tính
  3. FN / Phủ định sai. trường hợp là tích cực nhưng dự đoán tiêu cực
  4. FP / Dương tính giả. trường hợp là tiêu cực nhưng dự đoán tích cực

Phỏng vấn khoa học dữ liệu Cheat sheet GitHub

Bây giờ, ông chủ của bạn hỏi bạn ba câu hỏi

  • Bao nhiêu phần trăm dự đoán của bạn là chính xác? . "độ chính xác" là (9.760+60) trên 10.000 = 98. 2%
  • Bạn đã bắt được bao nhiêu phần trăm các trường hợp dương tính? . "thu hồi" là 60 trên 100 = 60%
  • Bao nhiêu phần trăm dự đoán tích cực là chính xác? . "độ chính xác" là 60 trên 200 = 30% Xem thêm giải thích rất hay về Độ chính xác và thu hồi trong Wikipedia

Phỏng vấn khoa học dữ liệu Cheat sheet GitHub

Đường cong ROC biểu thị mối quan hệ giữa độ nhạy (NHẮC LẠI) và độ đặc hiệu (KHÔNG CHÍNH XÁC) và thường được sử dụng để đo hiệu suất của các bộ phân loại nhị phân. Tuy nhiên, khi xử lý các bộ dữ liệu có độ lệch cao, các đường cong Thu hồi chính xác (PR) đưa ra một bức tranh tiêu biểu hơn về hiệu suất. Hãy nhớ rằng, đường cong ROC biểu thị mối quan hệ giữa độ nhạy (GHI LẠI) và độ đặc hiệu (KHÔNG CHÍNH XÁC). Độ nhạy là tên gọi khác của thu hồi nhưng độ đặc hiệu không CHÍNH XÁC

Thu hồi/Độ nhạy là thước đo xác suất ước tính của bạn là 1 với tất cả các mẫu có nhãn lớp thực là 1. Nó là thước đo xem có bao nhiêu mẫu dương tính đã được xác định là dương tính. Độ đặc hiệu là thước đo xác suất mà ước tính của bạn là 0 với tất cả các mẫu có nhãn lớp thực là 0. Nó là thước đo xem có bao nhiêu mẫu âm tính đã được xác định là âm tính

CHÍNH XÁC mặt khác là khác nhau. Đó là thước đo xác suất mà một mẫu là một lớp tích cực thực sự với điều kiện là bộ phân loại của bạn cho biết nó là tích cực. Nó là thước đo xem có bao nhiêu mẫu được bộ phân loại dự đoán là dương tính thực sự là dương tính. Lưu ý ở đây rằng điều này thay đổi khi xác suất cơ sở hoặc xác suất trước của lớp tích cực thay đổi. Điều đó có nghĩa là CHÍNH XÁC phụ thuộc vào mức độ hiếm của lớp tích cực. Nói cách khác, nó được sử dụng khi lớp tích cực thú vị hơn lớp tiêu cực

  • Độ nhạy còn được gọi là Tỷ lệ Tích cực Thực sự hoặc Thu hồi được tính như, Sensitivity = TP / (TP + FN). Vì công thức không chứa FP và TN, Độ nhạy có thể cho bạn kết quả sai lệch, đặc biệt đối với các lớp mất cân bằng. Trong ví dụ về Phát hiện gian lận, nó cung cấp cho bạn tỷ lệ phần trăm Gian lận được dự đoán chính xác từ nhóm Gian lận thực tế nhóm Không gian lận thực tế
  • Độ đặc hiệu, còn được gọi là Tỷ lệ phủ định thực được tính bằng, Specificity = TN / (TN + FP). Vì công thức không chứa FN và TP, nên Độ đặc hiệu có thể cho bạn kết quả sai lệch, đặc biệt đối với các lớp không cân bằng. Trong ví dụ về phát hiện gian lận, nó cung cấp cho bạn tỷ lệ phần trăm các trường hợp không gian lận được dự đoán chính xác từ nhóm các trường hợp gian lận thực tế nhóm các trường hợp không gian lận thực tế

Đánh giá và so sánh hiệu suất của bộ phân loại với các đường cong ROC

6. Có quá nhiều kết quả dương tính giả hay quá nhiều âm tính giả sẽ tốt hơn?

Nó phụ thuộc vào câu hỏi cũng như vào lĩnh vực mà chúng tôi đang cố gắng giải quyết câu hỏi

Trong xét nghiệm y tế, âm tính giả có thể đưa ra một thông điệp trấn an sai lầm cho bệnh nhân và bác sĩ rằng bệnh không có, trong khi nó thực sự có mặt. Điều này đôi khi dẫn đến việc điều trị không phù hợp hoặc không đầy đủ cho cả bệnh nhân và bệnh của họ. Vì vậy, mong muốn có quá nhiều dương tính giả

Đối với lọc thư rác, thông báo sai xảy ra khi các kỹ thuật lọc thư rác hoặc chặn thư rác phân loại sai một thư email hợp pháp là thư rác và do đó, cản trở quá trình gửi thư. Mặc dù hầu hết các chiến thuật chống thư rác có thể chặn hoặc lọc một tỷ lệ phần trăm cao các email không mong muốn, nhưng làm như vậy mà không tạo ra kết quả dương tính giả đáng kể là một nhiệm vụ đòi hỏi khắt khe hơn nhiều. Vì vậy, chúng tôi thích có quá nhiều âm tính giả hơn nhiều dương tính giả

7. Làm thế nào để bạn đối phó với phân loại nhị phân không cân bằng?

Dữ liệu không cân bằng thường đề cập đến một vấn đề với các vấn đề phân loại trong đó các lớp không được biểu diễn bằng nhau. Ví dụ: bạn có thể gặp sự cố phân loại 2 lớp (nhị phân) với 100 phiên bản (hàng). Tổng cộng có 80 phiên bản được gắn nhãn Loại-1 và 20 phiên bản còn lại được gắn nhãn Loại-2

Đây là tập dữ liệu không cân bằng và tỷ lệ của các phiên bản Loại-1 so với Loại-2 là 80. 20 hoặc chính xác hơn 4. 1. Bạn có thể gặp sự cố mất cân bằng lớp đối với các bài toán phân loại hai lớp cũng như các bài toán phân loại nhiều lớp. Hầu hết các kỹ thuật có thể được sử dụng trên một trong hai. Các cuộc thảo luận còn lại sẽ giả định vấn đề phân loại hai lớp vì nó dễ suy nghĩ và mô tả hơn

  1. Bạn có thể thu thập thêm dữ liệu không?
    Tập dữ liệu lớn hơn có thể đưa ra một quan điểm khác và có lẽ cân bằng hơn về các lớp. Các ví dụ khác về các lớp phụ có thể hữu ích sau này khi chúng tôi xem xét lấy mẫu lại tập dữ liệu của bạn.
  2. Thử thay đổi chỉ số hiệu suất của bạn
    Độ chính xác không phải là chỉ số sử dụng khi làm việc với tập dữ liệu không cân bằng. Chúng tôi đã thấy rằng nó là sai lệch. Từ bài đăng đó, tôi khuyên bạn nên xem xét các biện pháp hiệu suất sau đây có thể cung cấp thông tin chi tiết hơn về độ chính xác của mô hình so với độ chính xác của phân loại truyền thống.
  • Ma trận hỗn loạn. Bảng phân tích các dự đoán thành một bảng hiển thị các dự đoán đúng (đường chéo) và các loại dự đoán sai được thực hiện (các lớp dự đoán sai đã được chỉ định)
  • Thước đo độ chính xác của bộ phân loại. Độ chính xác là số Tích cực Thực sự chia cho số Tích cực Thực sự và Tích cực Sai. Nói cách khác, đó là số dự đoán tích cực chia cho tổng số giá trị lớp tích cực được dự đoán. Nó còn được gọi là Giá trị dự đoán dương (PPV). Độ chính xác có thể được coi là thước đo độ chính xác của bộ phân loại. Độ chính xác thấp cũng có thể chỉ ra một số lượng lớn Kết quả dương tính giả
  • Một thước đo của một bộ phân loại đầy đủ. Nhớ lại là số lượng Tích cực Thực sự chia cho số lượng Tích cực Thực sự và số lượng Tiêu cực Sai. Nói cách khác, đó là số dự đoán tích cực chia cho số giá trị lớp tích cực trong dữ liệu thử nghiệm. Nó còn được gọi là Độ nhạy hoặc Tỷ lệ Tích cực Thực sự. Thu hồi có thể được coi là thước đo mức độ đầy đủ của bộ phân loại. Thu hồi thấp cho thấy nhiều Phủ định sai
  • Điểm F1 (hoặc điểm F). Trung bình có trọng số của độ chính xác và thu hồi. Tôi cũng khuyên bạn nên xem những điều sau đây
  • Kappa (hoặc kappa của Cohen). Độ chính xác phân loại được chuẩn hóa bởi sự mất cân bằng của các lớp trong dữ liệu. Đường cong ROC. Giống như độ chính xác và thu hồi, độ chính xác được chia thành độ nhạy và độ đặc hiệu và các mô hình có thể được chọn dựa trên ngưỡng cân bằng của các giá trị này
  1. Hãy thử lấy mẫu lại tập dữ liệu của bạn
  • Bạn có thể thêm các bản sao của các phiên bản từ lớp dưới đại diện được gọi là lấy mẫu quá mức (hoặc chính thức hơn là lấy mẫu bằng thay thế)
  • Bạn có thể xóa các thể hiện khỏi lớp được đại diện quá mức, được gọi là lấy mẫu dưới mức
  1. Thử các thuật toán khác nhau
  2. Thử các Mô hình bị phạt
    Bạn có thể sử dụng các thuật toán tương tự nhưng cung cấp cho chúng một góc nhìn khác về vấn đề. Phân loại bị phạt áp đặt một chi phí bổ sung cho mô hình do mắc lỗi phân loại đối với lớp thiểu số trong quá trình đào tạo. Những hình phạt này có thể làm sai lệch mô hình để chú ý nhiều hơn đến tầng lớp thiểu số. Thông thường, việc xử lý các hình phạt hoặc trọng số trong lớp là chuyên biệt cho thuật toán học tập. Có các phiên bản thuật toán bị phạt như bị phạt-SVM và bị phạt-LDA. Nên sử dụng hình phạt nếu bạn bị khóa trong một thuật toán cụ thể và không thể lấy mẫu lại hoặc bạn đang nhận được kết quả kém. Nó cung cấp một cách khác để “cân bằng” các lớp. Thiết lập ma trận hình phạt có thể phức tạp. Rất có thể bạn sẽ phải thử nhiều cách xử phạt khác nhau và xem cách nào phù hợp nhất với vấn đề của bạn.
  3. Thử một góc nhìn khác
    Xem xét và suy nghĩ về vấn đề của bạn từ những góc độ này đôi khi có thể làm mất một số ý tưởng. Hai điều bạn có thể cân nhắc là phát hiện bất thường và phát hiện thay đổi.

8. Sức mạnh thống kê là gì?

Sức mạnh thống kê hoặc độ nhạy của kiểm tra giả thuyết nhị phân là xác suất kiểm tra bác bỏ chính xác giả thuyết không (H0) khi giả thuyết thay thế (H1) là đúng

Nó có thể được coi tương đương với xác suất chấp nhận giả thuyết thay thế (H1) khi nó đúng—tức là khả năng của phép thử phát hiện một hiệu ứng, nếu hiệu ứng đó thực sự tồn tại

Nói cách khác, Sức mạnh thống kê là khả năng một nghiên cứu sẽ phát hiện ra hiệu ứng khi hiệu ứng đó xuất hiện. Sức mạnh thống kê càng cao, bạn càng ít có khả năng mắc lỗi Loại II (kết luận là không có ảnh hưởng gì trong khi thực tế là có)

Sai lầm loại I (hay sai lầm loại 1) là sự bác bỏ không chính xác một giả thuyết không đúng. Thông thường, lỗi loại I khiến người ta kết luận rằng có tồn tại một tác động hoặc mối quan hệ được cho là tồn tại trong khi thực tế thì không. Ví dụ về lỗi loại I bao gồm xét nghiệm cho thấy bệnh nhân mắc bệnh trong khi thực tế bệnh nhân không mắc bệnh, chuông báo cháy tiếp tục báo hiệu có cháy trong khi thực tế không có lửa hoặc thí nghiệm chỉ ra rằng cơ sở y tế

Lỗi loại II (hoặc lỗi loại thứ hai) là lỗi không bác bỏ giả thuyết không sai. Ví dụ về lỗi loại II là xét nghiệm máu không phát hiện ra căn bệnh mà nó được thiết kế để phát hiện, ở một bệnh nhân thực sự mắc bệnh; .

Phỏng vấn khoa học dữ liệu Cheat sheet GitHub

9. Độ lệch và phương sai là gì và mối quan hệ của chúng với dữ liệu mô hình hóa là gì?

Xu hướng là mức độ sai lệch của các dự đoán của mô hình so với tính chính xác, trong khi phương sai là mức độ mà các dự đoán này khác nhau giữa các lần lặp lại mô hình

Xu hướng nói chung là khoảng cách giữa mô hình mà bạn xây dựng trên dữ liệu đào tạo (mô hình tốt nhất mà không gian mô hình của bạn có thể cung cấp) và “mô hình thực” (tạo dữ liệu)

Lỗi do Bias. Do tính ngẫu nhiên trong các tập dữ liệu cơ bản, các mô hình kết quả sẽ có một loạt các dự đoán. Xu hướng đo lường mức độ sai lệch nói chung của các dự đoán của các mô hình này so với giá trị chính xác. Xu hướng là lỗi từ các giả định sai lầm trong thuật toán học tập. Độ lệch cao có thể khiến thuật toán bỏ lỡ các mối quan hệ có liên quan giữa các tính năng và đầu ra mục tiêu (không phù hợp)

Lỗi do phương sai. Lỗi do phương sai được coi là độ biến thiên của dự đoán mô hình cho một điểm dữ liệu nhất định. Một lần nữa, hãy tưởng tượng bạn có thể lặp lại toàn bộ quá trình xây dựng mô hình nhiều lần. Phương sai là bao nhiêu dự đoán cho một điểm nhất định khác nhau giữa các lần thực hiện khác nhau của mô hình. Phương sai là lỗi từ độ nhạy đến các dao động nhỏ trong tập huấn luyện

Phương sai cao có thể khiến thuật toán mô hình hóa nhiễu ngẫu nhiên trong dữ liệu huấn luyện, thay vì kết quả đầu ra dự kiến ​​(quá khớp)

Tập dữ liệu lớn -> phương sai thấp
Tập dữ liệu thấp -> phương sai cao
Ít tính năng -> độ lệch cao, phương sai thấp
Many features -> low bias, high variance
Complicated model -> low bias
Simplified model -> high bias
Decreasing λ -> low bias
Increasing λ -> low variance

Chúng ta có thể tạo một hình ảnh trực quan đồ họa về độ lệch và phương sai bằng cách sử dụng sơ đồ mắt bò. Hãy tưởng tượng rằng trung tâm của mục tiêu là một mô hình dự đoán hoàn hảo các giá trị chính xác. Khi chúng ta rời khỏi tâm điểm, những dự đoán của chúng ta ngày càng trở nên tồi tệ hơn. Hãy tưởng tượng chúng ta có thể lặp lại toàn bộ quy trình xây dựng mô hình của mình để có được một số lần truy cập riêng biệt vào mục tiêu. Mỗi lần truy cập đại diện cho một nhận thức riêng về mô hình của chúng tôi, dựa trên cơ hội thay đổi trong dữ liệu đào tạo mà chúng tôi thu thập. Đôi khi, chúng tôi sẽ nhận được sự phân phối tốt dữ liệu đào tạo để chúng tôi dự đoán rất tốt và chúng tôi gần với điểm chính xác, trong khi đôi khi dữ liệu đào tạo của chúng tôi có thể chứa đầy các giá trị ngoại lai hoặc không chuẩn dẫn đến dự đoán kém hơn. Những nhận thức khác nhau này dẫn đến sự phân tán các cú đánh vào mục tiêu.

Phỏng vấn khoa học dữ liệu Cheat sheet GitHub

Ví dụ: sử dụng một cuộc khảo sát bầu cử Tổng thống có sai sót đơn giản làm ví dụ, các lỗi trong cuộc khảo sát sau đó được giải thích thông qua lăng kính kép của sai lệch và phương sai. chọn người tham gia khảo sát từ danh bạ là một nguồn sai lệch;

Giảm thiểu tổng lỗi mô hình phụ thuộc vào việc cân bằng sai lệch và phương sai. Lý tưởng nhất là các mô hình là kết quả của tập hợp dữ liệu khách quan có phương sai thấp. Tuy nhiên, thật không may, một mô hình càng trở nên phức tạp thì xu hướng của nó là ít sai lệch hơn nhưng lại có phương sai lớn hơn;

Phương pháp đánh giá thống kê của xác thực chéo rất hữu ích trong việc chứng minh tầm quan trọng của sự cân bằng này cũng như thực sự tìm kiếm nó. Số lượng dữ liệu được sử dụng -- giá trị của k trong xác thực chéo k-fold -- là một quyết định quan trọng; .

Phỏng vấn khoa học dữ liệu Cheat sheet GitHub

Điểm quan trọng nhất là độ lệch và phương sai là hai mặt của sự đánh đổi quan trọng khi xây dựng mô hình và ngay cả phương pháp đánh giá thống kê thông thường nhất cũng phụ thuộc trực tiếp vào sự đánh đổi đó

Chúng ta có thể ước tính một mô hình f̂(X) của f(X) bằng cách sử dụng hồi quy tuyến tính hoặc một kỹ thuật lập mô hình khác. Trong trường hợp này, sai số dự đoán bình phương dự kiến ​​tại một điểm x là. Err(x)=E[(Y−f̂ (x))^2]

Lỗi này sau đó có thể được phân tách thành các thành phần sai lệch và sai lệch. Err(x)=(E[f̂ (x)]−f(x))^2+E[(f̂ (x)−E[f̂ (x)])^2]+σ^2e Err(x)=Bias^2+Variance+Irreducible

Thuật ngữ thứ ba, lỗi không thể giảm thiểu, là thuật ngữ nhiễu trong mối quan hệ thực sự mà về cơ bản không thể giảm bớt bằng bất kỳ mô hình nào. Với mô hình thực và dữ liệu vô hạn để hiệu chỉnh nó, chúng ta có thể giảm cả số hạng sai lệch và phương sai xuống 0. Tuy nhiên, trong một thế giới với các mô hình không hoàn hảo và dữ liệu hữu hạn, có một sự đánh đổi giữa việc giảm thiểu sai lệch và giảm thiểu phương sai

Thuật ngữ thứ ba, lỗi không thể giảm thiểu, là thuật ngữ nhiễu trong mối quan hệ thực sự mà về cơ bản không thể giảm bớt bằng bất kỳ mô hình nào. Với mô hình thực và dữ liệu vô hạn để hiệu chỉnh nó, chúng ta có thể giảm cả số hạng sai lệch và phương sai xuống 0. Tuy nhiên, trong một thế giới với các mô hình không hoàn hảo và dữ liệu hữu hạn, có một sự đánh đổi giữa việc giảm thiểu sai lệch và giảm thiểu phương sai

Nếu một mô hình đang bị thiên vị cao, điều đó có nghĩa là mô hình đó ít phức tạp hơn, để làm cho mô hình mạnh mẽ hơn, chúng ta có thể thêm nhiều tính năng hơn trong không gian tính năng. Thêm điểm dữ liệu sẽ làm giảm phương sai

Sự đánh đổi sai lệch-phương sai là một vấn đề trung tâm trong học tập có giám sát. Lý tưởng nhất là người ta muốn chọn một mô hình vừa nắm bắt chính xác các quy tắc trong dữ liệu đào tạo của nó, vừa khái quát tốt cho dữ liệu chưa nhìn thấy. Thật không may, thường không thể thực hiện đồng thời cả hai. Các phương pháp học phương sai cao có thể thể hiện tốt tập huấn luyện của chúng, nhưng có nguy cơ bị khớp quá mức với dữ liệu huấn luyện ồn ào hoặc không đại diện. Ngược lại, các thuật toán có độ chệch cao thường tạo ra các mô hình đơn giản hơn, không có xu hướng khớp quá mức, nhưng có thể không khớp với dữ liệu đào tạo của chúng, không nắm bắt được các quy luật quan trọng.

Các mô hình có độ lệch thấp thường phức tạp hơn (e. g. đa thức hồi quy bậc cao hơn), cho phép chúng biểu diễn tập huấn luyện chính xác hơn. Tuy nhiên, trong quá trình này, chúng cũng có thể đại diện cho một thành phần nhiễu lớn trong tập huấn luyện, khiến dự đoán của chúng kém chính xác hơn - mặc dù độ phức tạp của chúng tăng thêm. Ngược lại, các mô hình có độ lệch cao hơn có xu hướng tương đối đơn giản (đa thức hồi quy bậc thấp hoặc thậm chí tuyến tính), nhưng có thể tạo ra các dự đoán phương sai thấp hơn khi được áp dụng ngoài tập huấn luyện

phương pháp tiếp cận

Giảm kích thước và lựa chọn tính năng có thể giảm phương sai bằng cách đơn giản hóa các mô hình. Tương tự, một tập huấn luyện lớn hơn có xu hướng giảm phương sai. Việc thêm các tính năng (bộ dự đoán) có xu hướng làm giảm độ lệch, với chi phí đưa ra phương sai bổ sung. Các thuật toán học thường có một số tham số có thể điều chỉnh để kiểm soát độ lệch và phương sai, chẳng hạn như. g

  • Các mô hình tuyến tính (tổng quát hóa) có thể làm giảm phương sai của chúng với chi phí tăng độ lệch của chúng
  • Trong các mạng thần kinh nhân tạo, phương sai tăng và độ lệch giảm theo số lượng đơn vị ẩn. Giống như trong GLM, chính quy hóa thường được áp dụng
  • Trong các mô hình k-láng giềng gần nhất, giá trị cao của k dẫn đến độ lệch cao và phương sai thấp (xem bên dưới)
  • Trong học tập dựa trên Instance, có thể đạt được sự chính quy hóa bằng cách thay đổi hỗn hợp giữa nguyên mẫu và mẫu. [
  • Trong cây quyết định, độ sâu của cây xác định phương sai. Cây quyết định thường được cắt bớt để kiểm soát phương sai

Một cách để giải quyết sự đánh đổi là sử dụng các mô hình hỗn hợp và học tập đồng bộ. Ví dụ: tăng cường kết hợp nhiều mô hình "yếu" (độ lệch cao) trong một nhóm có độ lệch thấp hơn so với các mô hình riêng lẻ, trong khi đóng gói kết hợp những người học "mạnh" theo cách làm giảm phương sai của họ

Hiểu về sự cân bằng giữa phương sai và sai lệch

10. Nếu các lớp bị mất cân bằng thì sao?

Phân loại nhị phân liên quan đến việc phân loại dữ liệu thành hai nhóm, e. g. khách hàng có mua một sản phẩm cụ thể hay không (Có/Không), dựa trên các biến độc lập như giới tính, tuổi tác, địa điểm, v.v.

Vì biến mục tiêu không liên tục, mô hình phân loại nhị phân dự đoán xác suất của biến mục tiêu là Có/Không. Để đánh giá một mô hình như vậy, một số liệu được gọi là ma trận nhầm lẫn được sử dụng, còn được gọi là ma trận phân loại hoặc tỷ lệ đồng mắc. Với sự trợ giúp của ma trận nhầm lẫn, chúng ta có thể tính toán các thước đo hiệu suất quan trọng

  • Tỷ lệ Tích cực Thực sự (TPR) hoặc Nhớ lại hoặc Độ nhạy = TP / (TP + FN)
  • = TP / (TP + FP)
  • Tỷ lệ Dương tính Giả(FPR) hoặc Tỷ lệ Báo động Sai = 1 - Độ đặc hiệu = 1 - (TN / (TN + FP))
  • Độ chính xác = (TP + TN) / (TP + TN + FP + FN)
  • Tỷ lệ lỗi = 1 – Độ chính xác
  • F-đo = 2 / ((1 / Độ chính xác) + (1 / Thu hồi)) = 2 * (độ chính xác * thu hồi) / (độ chính xác + thu hồi)
  • ROC (Đặc điểm hoạt động của máy thu) = đồ thị của FPR so với TPR
  • AUC (Khu vực dưới đường cong [ROC])
    Đo hiệu suất trên tất cả các ngưỡng phân loại. Được coi là xác suất mà một mô hình xếp hạng một mẫu dương tính được chọn ngẫu nhiên cao hơn mẫu âm tính

11. Một số cách tôi có thể làm cho mô hình của mình mạnh mẽ hơn đối với các ngoại lệ là gì?

Có một số cách để làm cho một mô hình trở nên mạnh mẽ hơn đối với các ngoại lệ, từ các quan điểm khác nhau (chuẩn bị dữ liệu hoặc xây dựng mô hình). Một ngoại lệ trong câu hỏi và câu trả lời được giả định là không mong muốn, bất ngờ hoặc là một giá trị phải sai đối với kiến ​​thức của con người cho đến nay (e. g. không ai 200 tuổi) chứ không phải là một sự kiện hiếm có thể xảy ra nhưng hiếm

Các ngoại lệ thường được xác định liên quan đến phân phối. Do đó, các ngoại lệ có thể được loại bỏ trong bước tiền xử lý (trước bất kỳ bước học nào), bằng cách sử dụng độ lệch chuẩn (Mean +/- 2*SD), nó có thể được sử dụng cho tính quy tắc. Hoặc phạm vi liên vùng Q1 - Q3, Q1 - là giá trị "ở giữa" trong nửa đầu của tập dữ liệu được sắp xếp theo thứ tự, Q3 - là giá trị "ở giữa" trong nửa sau của tập dữ liệu được sắp xếp theo thứ hạng. Nó có thể được sử dụng cho các mức ngưỡng không bình thường/không xác định

Hơn nữa, chuyển đổi dữ liệu (e. g. chuyển đổi nhật ký) có thể hữu ích nếu dữ liệu có phần đuôi đáng chú ý. Khi các ngoại lệ liên quan đến độ nhạy của thiết bị thu thập có thể không ghi lại chính xác các giá trị nhỏ, Winsorization có thể hữu ích. Loại chuyển đổi này (được đặt theo tên của Charles P. Winsor (1895–1951)) có tác dụng tương tự như tín hiệu cắt (i. e. thay thế các giá trị dữ liệu cực đoan bằng các giá trị ít cực đoan hơn). Một tùy chọn khác để giảm ảnh hưởng của các ngoại lệ là sử dụng chênh lệch tuyệt đối trung bình thay vì sai số bình phương trung bình

Để xây dựng mô hình, một số mô hình có khả năng chống ngoại lệ (e. g. cách tiếp cận dựa trên cây) hoặc kiểm định phi tham số. Tương tự như hiệu ứng trung vị, các mô hình cây chia mỗi nút thành hai trong mỗi lần phân chia. Do đó, tại mỗi lần phân tách, tất cả các điểm dữ liệu trong một nhóm có thể được xử lý như nhau bất kể giá trị cực đoan mà chúng có thể có

12. Trong học tập không giám sát, nếu không biết sự thật cơ bản về tập dữ liệu, làm thế nào chúng ta có thể xác định số lượng cụm hữu ích nhất?

Phương pháp khuỷu tay thường là nơi tốt nhất để bắt đầu và đặc biệt hữu ích do dễ giải thích và xác minh thông qua trực quan. Phương pháp khuỷu tay quan tâm đến việc giải thích phương sai như là một hàm của số cụm (k trong k-mean). Bằng cách vẽ biểu đồ phần trăm phương sai được giải thích so với k, N cụm đầu tiên sẽ thêm thông tin quan trọng, giải thích phương sai; . Góc này sẽ là số lượng cụm tối ưu, theo quan điểm của phương pháp khuỷu tay. Rõ ràng là, để vẽ biểu đồ phương sai này theo số lượng cụm khác nhau, phải kiểm tra số lượng cụm khác nhau. Các lần lặp lại hoàn chỉnh liên tiếp của phương pháp phân cụm phải được thực hiện, sau đó các kết quả có thể được vẽ và so sánh. DBSCAN - Phân cụm ứng dụng không gian dựa trên mật độ có tiếng ồn. Tìm các mẫu cốt lõi có mật độ cao và mở rộng các cụm từ chúng. Tốt cho dữ liệu chứa các cụm có mật độ tương tự

13. Xác định phương sai

Phương sai là kỳ vọng về độ lệch bình phương của một biến ngẫu nhiên so với giá trị trung bình của nó. Một cách không chính thức, nó đo lường mức độ trải rộng của một tập hợp các số (ngẫu nhiên) so với giá trị trung bình của chúng. Phương sai là bình phương của độ lệch chuẩn, mô men trung tâm thứ hai của phân phối và hiệp phương sai của biến ngẫu nhiên với chính nó

Var(X) = E[(X - m)^2], m=E[X]

Do đó, phương sai là thước đo độ phân tán của các giá trị của một biến ngẫu nhiên so với kỳ vọng toán học của nó

14. Gia trị được ki vọng

Giá trị kỳ vọng — Giá trị kỳ vọng (Phân phối xác suất Trong phân phối xác suất, giá trị kỳ vọng là giá trị mà một biến ngẫu nhiên có khả năng xảy ra cao nhất

Dựa vào quy luật phân phối của biến ngẫu nhiên x, ta biết biến ngẫu nhiên x có thể nhận các giá trị x1, x2,. , xk với các xác suất p1, p2,. , pk. Kỳ vọng toán học M(x) của biến ngẫu nhiên x bằng. Kỳ vọng toán học của biến ngẫu nhiên X (ký hiệu là M(X) hay ít gặp hơn là E(X)) đặc trưng cho giá trị trung bình của biến ngẫu nhiên (rời rạc hay liên tục). Kỳ vọng toán học là thời điểm ban đầu đầu tiên của một CB nhất định

Kỳ vọng toán học được quy cho cái gọi là đặc điểm của vị trí phân phối (mà chế độ và trung vị cũng thuộc về). Đặc trưng này mô tả một vị trí trung bình nào đó của biến ngẫu nhiên trên trục số. Giả sử, nếu kỳ vọng của một biến ngẫu nhiên - tuổi thọ của đèn là 100 giờ, thì người ta cho rằng các giá trị của tuổi thọ được tập trung (ở cả hai phía) từ giá trị này (với độ phân tán ở mỗi bên, được biểu thị bằng phương sai)

Kỳ vọng toán học của biến ngẫu nhiên rời rạc X được tính bằng tổng các tích của các giá trị xi mà CB lấy X theo xác suất tương ứng pi

import numpy as np
X = [3,4,5,6,7]
P = [0.1,0.2,0.3,0.4,0.5]
np.sum(np.dot(X, P))

15. Mô tả sự khác biệt giữa và các trường hợp sử dụng cho biểu đồ hộp và biểu đồ

Biểu đồ là một loại biểu đồ thanh hiển thị bằng đồ họa các tần số của một tập dữ liệu. Tương tự như biểu đồ thanh, biểu đồ biểu đồ tần suất hoặc số lượng thô trên trục Y (dọc) và biến được đo trên trục X (ngang)

Sự khác biệt duy nhất giữa biểu đồ tần suất và biểu đồ thanh là biểu đồ tần suất hiển thị tần suất cho một nhóm dữ liệu, thay vì một điểm dữ liệu riêng lẻ; . Thông thường, biểu đồ nhóm dữ liệu thành các khối nhỏ (bốn đến tám giá trị trên mỗi thanh trên trục hoành), trừ khi phạm vi dữ liệu lớn đến mức dễ dàng xác định xu hướng phân phối chung với các nhóm lớn hơn

Biểu đồ hình hộp, còn được gọi là biểu đồ hình hộp và râu, là một biểu đồ biểu thị bằng đồ họa năm giá trị mô tả quan trọng nhất cho một tập dữ liệu. Các giá trị này bao gồm giá trị tối thiểu, phần tư thứ nhất, trung vị, phần tư thứ ba và giá trị tối đa. Khi vẽ biểu đồ tóm tắt năm số này, chỉ có trục ngang hiển thị các giá trị. Trong góc phần tư, một đường thẳng đứng được đặt phía trên mỗi số tóm tắt. Một hộp được vẽ xung quanh ba đường ở giữa (phần tư thứ nhất, trung vị và phần tư thứ ba) và hai đường được vẽ từ các cạnh của hộp đến hai điểm cuối (tối thiểu và tối đa). Boxplots tốt hơn để so sánh các bản phân phối so với biểu đồ.

Phỏng vấn khoa học dữ liệu Cheat sheet GitHub

16. Làm thế nào bạn sẽ tìm thấy một sự bất thường trong một bản phân phối?

Trước khi bắt đầu, điều quan trọng là phải thiết lập một số ranh giới về định nghĩa của sự bất thường. Sự bất thường có thể được phân loại thành

  1. Điểm dị thường. Một trường hợp dữ liệu duy nhất là bất thường nếu nó ở quá xa so với phần còn lại. Trường hợp sử dụng kinh doanh. Phát hiện gian lận thẻ tín dụng dựa trên "số tiền chi tiêu. "
  2. Bất thường theo ngữ cảnh. Sự bất thường là bối cảnh cụ thể. Loại bất thường này là phổ biến trong dữ liệu chuỗi thời gian. Trường hợp sử dụng kinh doanh. Chi 100 đô la cho thực phẩm mỗi ngày trong mùa lễ là bình thường, nhưng có thể là kỳ lạ nếu không
  3. dị thường tập thể. Một tập hợp các phiên bản dữ liệu cùng nhau giúp phát hiện sự bất thường. Trường hợp sử dụng kinh doanh. Ai đó đang cố sao chép dữ liệu từ một máy từ xa sang máy chủ cục bộ một cách bất ngờ, một sự bất thường sẽ được gắn cờ là một cuộc tấn công mạng tiềm ẩn

Các bước tốt nhất để ngăn chặn sự bất thường là triển khai các chính sách hoặc kiểm tra có thể phát hiện ra chúng trong giai đoạn thu thập dữ liệu. Thật không may, bạn không thường xuyên thu thập dữ liệu của riêng mình và thường thì dữ liệu bạn đang khai thác được thu thập cho mục đích khác. Khoảng 68% của tất cả các điểm dữ liệu nằm trong một độ lệch chuẩn so với giá trị trung bình. Khoảng 95% điểm dữ liệu nằm trong hai độ lệch chuẩn so với giá trị trung bình. Cuối cùng, hơn 99% dữ liệu nằm trong ba độ lệch chuẩn so với giá trị trung bình. Khi giá trị sai lệch quá nhiều so với giá trị trung bình, chẳng hạn như ± 4σ, thì chúng ta có thể coi giá trị gần như không thể này là bất thường. (Giới hạn này cũng có thể được tính bằng phần trăm)

phương pháp thống kê

Tính năng phát hiện bất thường dựa trên thống kê sử dụng kiến ​​thức này để khám phá các giá trị ngoại lệ. Một bộ dữ liệu có thể được chuẩn hóa bằng cách lấy điểm z của từng điểm. Điểm z là thước đo xem có bao nhiêu độ lệch chuẩn mà một điểm dữ liệu khác với giá trị trung bình của dữ liệu. Bất kỳ điểm dữ liệu nào có điểm z cao hơn 3 đều là ngoại lệ và có khả năng là điểm bất thường. Khi z-score tăng trên 3, các điểm trở nên bất thường rõ ràng hơn. Điểm số z được tính theo phương trình sau. Một box-plot là hoàn hảo cho ứng dụng này

phương pháp số liệu

Đánh giá theo số lượng ấn phẩm, phương pháp số liệu là phương pháp phổ biến nhất trong số các nhà nghiên cứu. Họ quy định sự tồn tại của một số liệu nhất định trong không gian của các đối tượng, giúp tìm ra sự bất thường. Theo trực giác, điểm bất thường có ít hàng xóm trong không gian cá thể và một điểm điển hình có nhiều. Do đó, một thước đo tốt về sự bất thường có thể là, ví dụ, «khoảng cách đến hàng xóm thứ k». (Xem phương pháp. Yếu tố ngoại lệ cục bộ). Số liệu cụ thể được sử dụng ở đây, ví dụ khoảng cách Mahalanobis. Khoảng cách Mahalanobis là số đo khoảng cách giữa các vectơ của biến ngẫu nhiên, tổng quát hóa khái niệm khoảng cách Euclide. Sử dụng khoảng cách Mahalanobis, có thể xác định sự giống nhau của các mẫu chưa biết và đã biết. Nó khác với khoảng cách Euclide ở chỗ nó tính đến mối tương quan giữa các biến và là bất biến tỷ lệ.

Phỏng vấn khoa học dữ liệu Cheat sheet GitHub

Hình thức phát hiện bất thường dựa trên phân cụm phổ biến nhất được thực hiện với phân cụm dựa trên nguyên mẫu

Sử dụng phương pháp này để phát hiện điểm bất thường, một điểm được phân loại là điểm bất thường nếu việc loại bỏ nó khỏi nhóm giúp cải thiện đáng kể nguyên mẫu, thì điểm đó được phân loại là điểm bất thường. Điều này hợp lý về mặt logic. K-mean là một thuật toán phân cụm để phân cụm các điểm giống nhau. Các điểm trong bất kỳ cụm nào tương tự như trọng tâm của cụm đó, do đó tại sao chúng là thành viên của cụm đó. Nếu một điểm trong cụm cách xa trọng tâm đến mức nó kéo trọng tâm ra khỏi tâm tự nhiên của nó, thì điểm đó thực sự là một ngoại lệ, vì nó nằm ngoài giới hạn tự nhiên của cụm. Do đó, việc loại bỏ nó là một bước hợp lý để cải thiện độ chính xác của phần còn lại của cụm. Sử dụng phương pháp này, điểm ngoại lệ được xác định là mức độ mà một điểm không thuộc về bất kỳ cụm nào hoặc khoảng cách từ tâm của cụm. Trong K-means, mức độ mà việc loại bỏ một điểm sẽ làm tăng độ chính xác của trọng tâm là sự khác biệt trong SSE hoặc lỗi bình phương tiêu chuẩn hoặc cụm có và không có điểm. Nếu có sự cải thiện đáng kể về SSE sau khi xóa điểm, điều đó tương quan với điểm ngoại lệ cao cho điểm đó. Cụ thể hơn, khi sử dụng phương pháp phân cụm k-mean để phát hiện điểm bất thường, điểm ngoại lệ được tính theo một trong hai cách. Đơn giản nhất là khoảng cách của điểm từ trọng tâm gần nhất của nó. Tuy nhiên, cách tiếp cận này không hữu ích khi có các cụm có mật độ khác nhau. Để giải quyết vấn đề đó, khoảng cách tương đối của điểm đến tâm gần nhất của nó được sử dụng, trong đó khoảng cách tương đối được định nghĩa là tỷ lệ giữa khoảng cách của điểm từ tâm với khoảng cách trung bình của tất cả các điểm trong cụm từ tâm. Phương pháp phát hiện bất thường này rất nhạy cảm với giá trị của k. Ngoài ra, nếu dữ liệu quá nhiễu, thì điều đó sẽ làm giảm độ chính xác của các cụm ban đầu, điều này sẽ làm giảm độ chính xác của loại phát hiện bất thường này. Độ phức tạp thời gian của phương pháp này rõ ràng phụ thuộc vào việc lựa chọn thuật toán phân cụm, nhưng vì hầu hết các thuật toán phân cụm có độ phức tạp không gian và thời gian tuyến tính hoặc gần với tuyến tính, nên loại phát hiện bất thường này có thể có hiệu quả cao

17. Làm thế nào để bạn đối phó với các ngoại lệ trong dữ liệu của bạn?

Đối với hầu hết các phần, nếu dữ liệu của bạn bị ảnh hưởng bởi những trường hợp cực đoan này, bạn có thể liên kết đầu vào với một đại diện lịch sử của dữ liệu loại trừ các giá trị ngoại lệ. Vì vậy, đó có thể là một số mặt hàng (>3) hoặc giới hạn trên hoặc dưới của giá trị đơn hàng của bạn

Nếu các ngoại lệ đến từ một tập dữ liệu tương đối độc đáo thì hãy phân tích chúng cho tình huống cụ thể của bạn. Phân tích cả khi có và không có chúng, và có lẽ với một phương án thay thế, nếu bạn có lý do cho một phương án và báo cáo kết quả đánh giá này của bạn. Một lựa chọn là thử chuyển đổi. Các phép biến đổi căn bậc hai và log đều mang lại số lượng cao. Điều này có thể làm cho các giả định hoạt động tốt hơn nếu ngoại lệ là một phụ thuộc

18. Làm thế nào để bạn đối phó với dữ liệu thưa thớt?

Chúng ta có thể xem xét chính quy hóa L1 vì nó phù hợp nhất với dữ liệu thưa thớt và thực hiện lựa chọn tính năng. Nếu mối quan hệ tuyến tính - hồi quy tuyến tính - svm

Ngoài ra, sẽ rất tuyệt nếu sử dụng mã hóa một lần nóng hoặc túi từ. Một mã hóa nóng là biểu diễn các biến phân loại dưới dạng vectơ nhị phân. Điều này trước tiên yêu cầu các giá trị phân loại được ánh xạ tới các giá trị số nguyên. Sau đó, mỗi giá trị số nguyên được biểu diễn dưới dạng một vectơ nhị phân có tất cả các giá trị bằng 0 ngoại trừ chỉ mục của số nguyên, được đánh dấu bằng 1

19. Kỹ sư dữ liệu lớn Bạn có thể giải thích REST là gì không?

REST là viết tắt của Chuyển trạng thái đại diện. (Đôi khi nó được đánh vần là "ReST". ) Nó dựa trên giao thức liên lạc không trạng thái, máy khách-máy chủ, có thể lưu trong bộ nhớ cache -- và trong hầu hết mọi trường hợp, giao thức HTTP được sử dụng. REST là một kiểu kiến ​​trúc để thiết kế các ứng dụng nối mạng. Ý tưởng là HTTP đơn giản được sử dụng để thực hiện cuộc gọi giữa các máy

  • Theo nhiều cách, bản thân World Wide Web, dựa trên HTTP, có thể được xem như một kiến ​​trúc dựa trên REST. Các ứng dụng RESTful sử dụng các yêu cầu HTTP để đăng dữ liệu (tạo và/hoặc cập nhật), đọc dữ liệu (e. g. , thực hiện truy vấn) và xóa dữ liệu. Do đó, REST sử dụng HTTP cho cả bốn thao tác CRUD (Tạo/Đọc/Cập nhật/Xóa). REST là giải pháp thay thế gọn nhẹ cho các cơ chế như RPC (Cuộc gọi thủ tục từ xa) và Dịch vụ web (SOAP, WSDL, v.v. ). Sau này, chúng ta sẽ thấy REST đơn giản hơn nhiều như thế nào
  • Mặc dù đơn giản nhưng REST có đầy đủ tính năng; . REST không phải là "tiêu chuẩn". Chẳng hạn, sẽ không bao giờ có đề xuất W3C cho REST. Và mặc dù có các khung lập trình REST, nhưng làm việc với REST đơn giản đến mức bạn có thể thường xuyên "tự tạo" các tính năng thư viện tiêu chuẩn bằng các ngôn ngữ như Perl, Java hoặc C#

20. Hồi quy logistic

Tỷ lệ log - đầu ra thô từ mô hình; . Xác suất của đầu ra - tỷ lệ cược / (1+tỷ lệ cược)

21. Điều gì ảnh hưởng đến các hệ số của hồi quy logistic nếu hai yếu tố dự đoán có mối tương quan cao?

Khi các biến dự đoán có tương quan với nhau, hệ số hồi quy ước tính của một biến bất kỳ phụ thuộc vào các biến dự báo khác được đưa vào mô hình. Khi các biến dự đoán có tương quan với nhau, độ chính xác của các hệ số hồi quy ước tính sẽ giảm khi có nhiều biến dự báo hơn được thêm vào mô hình

Trong thống kê, đa cộng tuyến (còn gọi là cộng tuyến) là hiện tượng trong đó hai hoặc nhiều biến dự đoán trong mô hình hồi quy bội có mối tương quan cao, nghĩa là một biến có thể được dự đoán tuyến tính từ các biến khác với độ chính xác đáng kể. Trong tình huống này, các ước tính hệ số của hồi quy bội có thể thay đổi thất thường theo những thay đổi nhỏ trong mô hình hoặc dữ liệu. Đa cộng tuyến không làm giảm sức mạnh dự đoán hoặc độ tin cậy của toàn bộ mô hình, ít nhất là trong tập dữ liệu mẫu; . Nghĩa là, một mô hình hồi quy bội với các yếu tố dự đoán tương quan có thể cho biết toàn bộ nhóm các yếu tố dự đoán dự đoán biến kết quả tốt như thế nào, nhưng nó có thể không đưa ra kết quả hợp lệ về bất kỳ yếu tố dự đoán riêng lẻ nào hoặc về yếu tố dự đoán nào là dư thừa so với các yếu tố khác

Hậu quả của đa cộng tuyến

  • Ước tính xếp hạng vẫn không thiên vị
  • Lỗi hệ số tiêu chuẩn tăng
  • Thống kê t được tính toán bị đánh giá thấp
  • Các ước tính trở nên rất nhạy cảm với những thay đổi về thông số kỹ thuật và những thay đổi trong các quan sát riêng lẻ
  • Chất lượng tổng thể của phương trình, cũng như ước tính của các biến không liên quan đến đa cộng tuyến, không bị ảnh hưởng
  • Đa cộng tuyến càng gần hoàn hảo (khắt khe) thì hậu quả của nó càng nghiêm trọng

Các chỉ số về đa cộng tuyến

  1. R2 cao và tỷ lệ cược không đáng kể
  2. Mối tương quan cặp mạnh mẽ của các yếu tố dự đoán
  3. Mối tương quan từng phần mạnh mẽ của các yếu tố dự đoán
  4. VIF cao - hệ số lạm phát phương sai

Khoảng tin cậy (CI) là một loại ước tính khoảng (của tham số tổng thể) được tính toán từ dữ liệu quan sát được. Mức độ tin cậy là tần số (i. e. , tỷ lệ) của các khoảng tin cậy có thể có chứa giá trị thực của tham số tương ứng của chúng. Nói cách khác, nếu các khoảng tin cậy được xây dựng bằng cách sử dụng một mức độ tin cậy nhất định trong vô số thử nghiệm độc lập, thì tỷ lệ của các khoảng đó chứa giá trị thực của tham số sẽ khớp với mức độ tin cậy

Khoảng tin cậy bao gồm một loạt các giá trị (khoảng) đóng vai trò là ước tính tốt cho tham số dân số chưa biết. Tuy nhiên, khoảng thời gian được tính toán từ một mẫu cụ thể không nhất thiết bao gồm giá trị thực của tham số. Vì dữ liệu được quan sát là các mẫu ngẫu nhiên từ tổng thể thực nên khoảng tin cậy thu được từ dữ liệu cũng là ngẫu nhiên. Nếu một kiểm định giả thuyết tương ứng được thực hiện, mức tin cậy là phần bù của mức ý nghĩa, i. e. khoảng tin cậy 95% phản ánh mức ý nghĩa bằng 0. 05. Nếu giả thuyết rằng giá trị tham số thực là 0 nhưng khoảng tin cậy 95% không chứa 0, thì ước tính khác 0 đáng kể ở mức ý nghĩa 5%

Mức độ tin cậy mong muốn được thiết lập bởi nhà nghiên cứu (không được xác định bởi dữ liệu). Thông thường nhất, độ tin cậy 95% được sử dụng. Tuy nhiên, các mức độ tin cậy khác có thể được sử dụng, ví dụ: 90% và 99%

Các yếu tố ảnh hưởng đến độ rộng của khoảng tin cậy bao gồm kích thước của mẫu, mức độ tin cậy và độ biến thiên trong mẫu. Cỡ mẫu lớn hơn thông thường sẽ dẫn đến ước tính tốt hơn về tham số dân số. Khoảng tin cậy là một phạm vi giá trị mà chúng tôi khá chắc chắn rằng giá trị thực của chúng tôi nằm trong

Sensitivity = TP / (TP + FN)0, X là giá trị trung bình, Z là giá trị Z được chọn từ bảng, s là độ lệch chuẩn, n là số lượng mẫu. Giá trị sau dấu ± được gọi là biên sai số

22. Sự khác biệt giữa Mô hình hỗn hợp Gaussian và K-Means là gì?

Giả sử chúng ta đang nhắm đến việc chia chúng thành ba cụm. K-means sẽ bắt đầu với giả định rằng một điểm dữ liệu nhất định thuộc về một cụm

Chọn một điểm dữ liệu. Tại một thời điểm nhất định trong thuật toán, chúng tôi chắc chắn rằng một điểm thuộc về cụm màu đỏ. Trong lần lặp lại tiếp theo, chúng tôi có thể sửa lại niềm tin đó và chắc chắn rằng nó thuộc về cụm màu xanh lá cây. Tuy nhiên, hãy nhớ rằng, trong mỗi lần lặp, chúng ta hoàn toàn chắc chắn điểm đó thuộc cụm nào. Đây là "bài toán khó"

Nếu chúng ta không chắc chắn thì sao? . Đó là một nhiệm vụ mềm. Mô hình Mixture of Gaussian giúp chúng ta thể hiện sự không chắc chắn này. Nó bắt đầu với một số niềm tin trước đó về mức độ chắc chắn của chúng tôi về các bài tập cụm của từng điểm. Khi nó tiếp tục, nó sửa đổi những niềm tin đó. Nhưng nó kết hợp mức độ không chắc chắn mà chúng tôi có về nhiệm vụ của mình

Kmeans. tìm kk để giảm thiểu Sensitivity = TP / (TP + FN)1

Hỗn hợp Gaussian (nhóm EM). tìm kk để giảm thiểu Sensitivity = TP / (TP + FN)2

Sự khác biệt (về mặt toán học) là mẫu số “σ^2”, có nghĩa là GM xem xét phương sai khi tính toán phép đo. Kmeans chỉ tính khoảng cách Euclide thông thường. Nói cách khác, Kmeans tính toán khoảng cách, trong khi GM tính toán khoảng cách "có trọng số"

K có nghĩa là

  • Khó gán một điểm dữ liệu cho một cụm cụ thể khi hội tụ
  • Nó sử dụng định mức L2 khi tối ưu hóa (Điểm định mức tối thiểu {Theta} L2 và tọa độ trọng tâm của nó)

EM

  • Soft gán một điểm cho các cụm (do đó, nó đưa ra xác suất bất kỳ điểm nào thuộc về bất kỳ trọng tâm nào)
  • Nó không phụ thuộc vào định mức L2 mà dựa trên Kỳ vọng, tôi. e. , xác suất của điểm thuộc về một cụm cụ thể. Điều này làm cho K-means thiên về các cụm hình cầu

23. Mô tả cách hoạt động của Tăng cường độ dốc

Ý tưởng tăng điểm xuất phát từ ý tưởng liệu một học sinh yếu kém có thể được sửa đổi để trở nên tốt hơn hay không.

Tăng cường độ dốc dựa vào cây hồi quy (ngay cả khi giải quyết vấn đề phân loại) giúp giảm thiểu MSE. Chọn một dự đoán cho một vùng lá rất đơn giản. để giảm thiểu MSE, chúng ta nên chọn giá trị mục tiêu trung bình trên các mẫu trong lá. Cây được xây dựng một cách tham lam bắt đầu từ gốc. đối với mỗi lá, một phần tách được chọn để giảm thiểu MSE cho bước này

Để bắt đầu, tăng cường độ dốc là một kỹ thuật tập hợp, có nghĩa là dự đoán được thực hiện bởi một tập hợp các công cụ ước tính đơn giản hơn. Mặc dù khung lý thuyết này cho phép tạo ra một tập hợp các công cụ ước tính khác nhau, nhưng trên thực tế, chúng tôi hầu như luôn sử dụng GBDT - tăng cường độ dốc trên cây quyết định

Mục đích của việc tăng cường độ dốc là tạo (hoặc "đào tạo") một nhóm cây, với điều kiện là chúng ta biết cách huấn luyện một cây quyết định duy nhất. Kỹ thuật này được gọi là tăng cường bởi vì chúng tôi mong đợi một tập hợp hoạt động tốt hơn nhiều so với một công cụ ước tính duy nhất

Đây là phần thú vị nhất. Tăng cường độ dốc xây dựng từng cây một, sau đó dự đoán của từng cây riêng lẻ được tổng hợp. D(x)=d​cây 1​​(x)+d​cây 2​​(x)+

Cây quyết định tiếp theo cố gắng khắc phục sự khác biệt giữa hàm mục tiêu f(x) và dự đoán tập hợp hiện tại bằng cách xây dựng lại phần dư

Ví dụ: nếu một quần thể có 3 cây thì dự đoán của quần thể đó là. D(x)=d​cây 1​​(x)+d​cây 2​​(x)+d​cây 3​​(x). Cây tiếp theo (cây 4) trong quần thể nên bổ sung tốt cho các cây hiện có và giảm thiểu lỗi huấn luyện của quần thể

Trong trường hợp lý tưởng, chúng tôi rất vui khi có. D(x)+d​cây 4​(x)=f(x)

Để đến gần đích hơn một chút, chúng tôi huấn luyện một cây để tái tạo lại sự khác biệt giữa hàm mục tiêu và các dự đoán hiện tại của một tập hợp, được gọi là phần dư. R(x)=f(x)−D(x). Bạn có để ý không? . Điều đó nói rằng, trong thực tế, điều này không bao giờ xảy ra, vì vậy, thay vào đó, chúng tôi tiếp tục quá trình lặp đi lặp lại của việc xây dựng tập hợp

AdaBoost thuật toán tăng tốc đầu tiên

Những người học yếu trong AdaBoost là những cây quyết định chỉ có một lần phân tách, được gọi là gốc quyết định vì độ ngắn của chúng

AdaBoost hoạt động bằng cách cân nhắc các quan sát, đặt trọng số nhiều hơn vào các trường hợp khó phân loại và ít hơn đối với những trường hợp đã được xử lý tốt. Những người học yếu mới được thêm vào liên tục để tập trung đào tạo vào các mẫu khó hơn. Tăng cường độ dốc liên quan đến ba yếu tố

  1. Hàm mất mát được tối ưu hóa
  2. Một người học yếu để đưa ra dự đoán
  3. Một mô hình phụ gia để thêm những người học yếu để giảm thiểu hàm mất mát

Mất chức năng

Hàm mất mát được sử dụng phụ thuộc vào loại vấn đề đang được giải quyết. Nó phải khả vi, nhưng nhiều hàm mất mát tiêu chuẩn được hỗ trợ và bạn có thể xác định hàm của riêng mình. Ví dụ: hồi quy có thể sử dụng sai số bình phương và phân loại có thể sử dụng mất logarit. Một lợi ích của khung tăng cường độ dốc là thuật toán tăng cường mới không cần phải được tạo ra cho từng hàm mất mát có thể muốn được sử dụng, thay vào đó, nó là một khung đủ chung để có thể sử dụng bất kỳ hàm mất mát khả vi nào.

Học Yếu

Cây quyết định được sử dụng làm người học yếu trong việc tăng cường độ dốc

Các cây hồi quy cụ thể được sử dụng để đưa ra các giá trị thực cho các lần phân tách và có thể cộng kết quả của chúng lại với nhau, cho phép thêm các kết quả đầu ra của mô hình tiếp theo và “sửa chữa” các phần dư trong các dự đoán

Cây được xây dựng theo cách tham lam, chọn điểm phân chia tốt nhất dựa trên điểm số độ tinh khiết như Gini hoặc để giảm thiểu tổn thất. Ban đầu, chẳng hạn như trong trường hợp của AdaBoost, các cây quyết định rất ngắn được sử dụng chỉ có một lần phân tách duy nhất, được gọi là gốc quyết định. Cây lớn hơn có thể được sử dụng chung với cấp độ 4 đến 8

Người ta thường hạn chế những người học yếu theo những cách cụ thể, chẳng hạn như số lượng lớp, nút, phần tách hoặc nút lá tối đa. Điều này để đảm bảo người học vẫn còn yếu nhưng vẫn có thể xây dựng một cách tham lam.

Mô hình phụ gia

Các cây được thêm vào cùng một lúc và các cây hiện có trong mô hình không bị thay đổi

Quy trình giảm dần độ dốc được sử dụng để giảm thiểu tổn thất khi thêm cây. Theo truyền thống, giảm dần độ dốc được sử dụng để giảm thiểu một tập hợp các tham số, chẳng hạn như các hệ số trong phương trình hồi quy hoặc trọng số trong mạng thần kinh. Sau khi tính toán lỗi hoặc mất mát, các trọng số được cập nhật để giảm thiểu lỗi đó

Thay vì các tham số, chúng tôi có các mô hình phụ của người học yếu hoặc cụ thể hơn là các cây quyết định. Sau khi tính toán độ suy hao, để thực hiện thủ tục giảm độ dốc ta phải thêm một cây vào mô hình làm giảm độ suy hao (i. e. theo độ dốc). Chúng tôi làm điều này bằng cách tham số hóa cây, sau đó sửa đổi các tham số của cây và di chuyển đúng hướng bằng cách giảm tổn thất còn lại

Nói chung, cách tiếp cận này được gọi là giảm dần độ dốc chức năng hoặc giảm dần độ dốc với các chức năng. Đầu ra của cây mới sau đó được thêm vào đầu ra của chuỗi cây hiện có nhằm nỗ lực sửa chữa hoặc cải thiện đầu ra cuối cùng của mô hình

Một số lượng cây cố định được thêm vào hoặc quá trình đào tạo dừng lại khi tổn thất đạt đến mức chấp nhận được hoặc không còn cải thiện trên tập dữ liệu xác thực bên ngoài

Các cải tiến đối với Tăng cường Gradient cơ bản

Tăng cường độ dốc là một thuật toán tham lam và có thể nhanh chóng khớp với tập dữ liệu đào tạo. Nó có thể được hưởng lợi từ các phương pháp chính quy hóa xử phạt các phần khác nhau của thuật toán và thường cải thiện hiệu suất của thuật toán bằng cách giảm quá mức. Trong phần này, chúng ta sẽ xem xét 4 cải tiến để tăng cường độ dốc cơ bản

  • Ràng buộc cây
  • co ngót
  • Lấy mẫu ngẫu nhiên
  • Hình phạt học tập

Ràng buộc cây

Điều quan trọng là những người học yếu có kỹ năng nhưng vẫn còn yếu. Có một số cách mà cây có thể bị hạn chế

Một kinh nghiệm chung tốt là việc tạo cây càng bị hạn chế thì bạn càng cần nhiều cây trong mô hình và ngược lại, khi các cây riêng lẻ ít bị hạn chế hơn thì sẽ cần ít cây hơn.

Dưới đây là một số ràng buộc có thể áp dụng cho việc xây dựng cây quyết định

  • Số lượng cây, nói chung việc thêm nhiều cây hơn vào mô hình có thể rất chậm để khớp quá mức. Lời khuyên là tiếp tục thêm cây cho đến khi không thấy cải thiện gì thêm
  • Độ sâu của cây, cây sâu hơn là cây phức tạp hơn và cây ngắn hơn được ưu tiên. Nói chung, kết quả tốt hơn được nhìn thấy với 4-8 cấp độ
  • Số nút hoặc số lá, chẳng hạn như độ sâu, điều này có thể hạn chế kích thước của cây, nhưng không bị hạn chế đối với cấu trúc đối xứng nếu sử dụng các ràng buộc khác
  • Số lượng quan sát trên mỗi lần phân tách áp đặt một ràng buộc tối thiểu đối với lượng dữ liệu đào tạo tại một nút đào tạo trước khi có thể xem xét việc phân chia
  • Cải thiện tối thiểu đối với tổn thất là một hạn chế đối với việc cải thiện bất kỳ sự phân chia nào được thêm vào cây

Cập nhật trọng số

Các dự đoán của mỗi cây được thêm vào với nhau một cách tuần tự. Đóng góp của mỗi cây vào tổng này có thể được tính trọng số để làm chậm quá trình học của thuật toán. Trọng số này được gọi là tỷ lệ thu hẹp hoặc tỷ lệ học tập

Mỗi bản cập nhật được chia tỷ lệ đơn giản theo giá trị của “thông số tốc độ học tập” v

Hiệu quả là việc học bị chậm lại, do đó cần thêm nhiều cây hơn vào mô hình, do đó mất nhiều thời gian hơn để đào tạo, cung cấp sự cân bằng cấu hình giữa số lượng cây và tỷ lệ học tập

Giảm giá trị của v [tỷ lệ học] tăng giá trị tốt nhất cho M [số lượng cây]

Thường có giá trị nhỏ trong khoảng 0. 1 đến 0. 3, cũng như các giá trị nhỏ hơn 0. 1

Tương tự như tỷ lệ học tập trong tối ưu hóa ngẫu nhiên, tỷ lệ co rút làm giảm ảnh hưởng của từng cây riêng lẻ và để lại không gian cho các cây trong tương lai để cải thiện mô hình

Tăng cường độ dốc ngẫu nhiên

Một cái nhìn sâu sắc về quần thể đóng bao và rừng ngẫu nhiên đã cho phép tạo ra các cây một cách tham lam từ các mẫu con của tập dữ liệu huấn luyện

Lợi ích tương tự này có thể được sử dụng để giảm mối tương quan giữa các cây trong chuỗi trong các mô hình tăng cường độ dốc

Biến thể tăng cường này được gọi là tăng cường độ dốc ngẫu nhiên

Tại mỗi lần lặp, một mẫu con của dữ liệu huấn luyện được lấy ngẫu nhiên (không thay thế) từ tập dữ liệu huấn luyện đầy đủ. Mẫu phụ được chọn ngẫu nhiên sau đó được sử dụng, thay vì mẫu đầy đủ, để phù hợp với người học cơ sở

Một vài biến thể của tăng ngẫu nhiên có thể được sử dụng

  • Các hàng mẫu phụ trước khi tạo từng cây
  • Các cột mẫu phụ trước khi tạo từng cây
  • Các cột mẫu phụ trước khi xem xét từng phần tách. Nói chung, lấy mẫu phụ tích cực chẳng hạn như chỉ chọn 50% dữ liệu đã được chứng minh là có lợi. Theo phản hồi của người dùng, việc sử dụng lấy mẫu phụ theo cột thậm chí còn ngăn ngừa tình trạng khớp quá mức so với lấy mẫu phụ theo hàng truyền thống

Tăng cường Gradient bị phạt

Các ràng buộc bổ sung có thể được áp đặt cho các cây được tham số hóa ngoài cấu trúc của chúng. Các cây quyết định cổ điển như GIỎ HÀNG không được sử dụng như những người học yếu, thay vào đó, một dạng sửa đổi được gọi là cây hồi quy được sử dụng có các giá trị số trong các nút lá (còn được gọi là các nút đầu cuối). Các giá trị trong lá của cây có thể được gọi là trọng số trong một số tài liệu

Như vậy, các giá trị trọng lượng lá của cây có thể được chuẩn hóa bằng cách sử dụng các hàm chuẩn hóa phổ biến, chẳng hạn như

  • Chính quy hóa L1 của trọng số
  • Chính quy hóa L2 của trọng số

Thuật ngữ chính quy hóa bổ sung giúp làm mịn các trọng số đã học cuối cùng để tránh khớp quá mức. Theo trực giác, mục tiêu được chuẩn hóa sẽ có xu hướng chọn một mô hình sử dụng các chức năng đơn giản và dự đoán

Thêm chi tiết trong 2 bài viết (tiếng Nga)

  • https. // habr. com/công ty/ods/blog/327250/
  • https. // alexander dyakonov. các tập tin. báo chí. com/2017/06/book_boosting_pdf. pdf

24. Sự khác biệt giữa AdaBoost và XGBoost

Cả hai phương pháp kết hợp những người học yếu thành một người học mạnh. Ví dụ: một cây quyết định là cây học yếu và một tập hợp của chúng sẽ là mô hình rừng ngẫu nhiên, là cây học mạnh

Cả hai phương pháp trong quá trình học tập sẽ làm tăng nhóm học viên yếu, thêm những học viên yếu mới vào nhóm ở mỗi lần lặp đào tạo, i. e. trong trường hợp của rừng, rừng sẽ mọc thêm cây mới. Sự khác biệt duy nhất giữa AdaBoost và XGBoost là cách nhóm được bổ sung

AdaBoost hoạt động bằng cách cân nhắc các quan sát, đặt trọng số nhiều hơn vào các trường hợp khó phân loại và ít hơn đối với những trường hợp đã được xử lý tốt. Những người học yếu mới được thêm vào liên tục để tập trung đào tạo vào các mẫu khó hơn. AdaBoost ở mỗi lần lặp sẽ thay đổi trọng số mẫu trong mẫu. Nó làm tăng trọng lượng của các mẫu trong đó có nhiều lỗi hơn. Các trọng số mẫu thay đổi tỷ lệ thuận với lỗi tập hợp. Do đó, chúng tôi thay đổi phân phối xác suất của các mẫu - những mẫu có trọng số cao hơn sẽ được chọn thường xuyên hơn trong tương lai. Như thể chúng tôi đã tích lũy các mẫu có nhiều sai sót hơn và sẽ sử dụng chúng thay vì mẫu ban đầu. Ngoài ra, trong AdaBoost, mỗi người học yếu có trọng số riêng trong tập hợp (trọng số alpha) - trọng số này càng cao, người học yếu này càng “thông minh”, tôi. e. hơn người học ít có khả năng mắc lỗi nhất

XGBoost hoàn toàn không thay đổi lựa chọn hoặc phân phối các quan sát. XGBoost xây dựng cây đầu tiên (người học yếu), sẽ phù hợp với các quan sát với một số lỗi dự đoán. Một cây thứ hai (người học yếu) sau đó được thêm vào để sửa lỗi của mô hình hiện có. Lỗi được giảm thiểu bằng cách sử dụng thuật toán giảm độ dốc. Chính quy hóa cũng có thể được sử dụng để xử phạt các mô hình phức tạp hơn thông qua cả chính quy hóa Lasso và Ridge

Nói tóm lại, AdaBoost- các ví dụ về tái trọng số. Tăng cường độ dốc - dự đoán hàm mất mát của cây. Xgboost - thuật ngữ chính quy hóa đã được thêm vào hàm mất (độ sâu + giá trị trong lá)

25. Data Mining Mô tả mô hình cây quyết định

Cây quyết định là một cấu trúc bao gồm nút gốc, các nhánh và nút lá. Mỗi nút bên trong biểu thị một phép thử trên một thuộc tính, mỗi nhánh biểu thị kết quả của phép thử và mỗi nút lá chứa một nhãn lớp. Nút trên cùng của cây là nút gốc

Mỗi nút bên trong đại diện cho một thử nghiệm trên một thuộc tính. Mỗi nút lá đại diện cho một lớp. Những lợi ích của việc có một cây quyết định như sau

  • Nó không yêu cầu bất kỳ kiến ​​​​thức tên miền nào
  • Nó rất dễ hiểu
  • Các bước học và phân lớp của cây quyết định rất đơn giản và nhanh chóng

Tỉa cây

Cắt tỉa cây được thực hiện để loại bỏ sự bất thường trong dữ liệu huấn luyện do nhiễu hoặc ngoại lệ. Các cây được cắt tỉa nhỏ hơn và ít phức tạp hơn

Phương pháp cắt tỉa cây

Dưới đây là các Phương pháp Cắt tỉa Cây được liệt kê bên dưới

  • Pre-pruning – Cây được cắt tỉa bằng cách tạm dừng quá trình xây dựng sớm
  • Cắt tỉa sau - Cách tiếp cận này loại bỏ một cây con khỏi một cây trưởng thành

Chi phí phức tạp

Độ phức tạp của chi phí được đo bằng hai tham số sau - Số lượng lá trong cây và Tỷ lệ lỗi của cây

26. Ghi chú từ khóa học Coursera Deep Learning của Andrew Ng

Ghi chú từ khóa học Coursera Deep Learning của Andrew Ng

27. Mạng lưới thần kinh là gì?

Mạng nơ-ron thường được tổ chức theo lớp. Các lớp được tạo thành từ một số 'nút' được kết nối với nhau có chứa 'chức năng kích hoạt'. Các mẫu được hiển thị cho mạng thông qua 'lớp đầu vào', lớp này giao tiếp với một hoặc nhiều 'lớp ẩn' nơi quá trình xử lý thực tế được thực hiện thông qua một hệ thống 'kết nối' có trọng số. Các lớp ẩn sau đó liên kết với một 'lớp đầu ra', nơi câu trả lời được xuất ra như trong hình bên dưới

Mặc dù có nhiều loại quy tắc học tập khác nhau được sử dụng bởi các mạng thần kinh, phần minh họa này chỉ liên quan đến một. quy tắc đồng bằng. Quy tắc delta thường được sử dụng bởi lớp ANN phổ biến nhất được gọi là 'mạng thần kinh lan truyền ngược' (BPNN). Lan truyền ngược là viết tắt của lan truyền ngược lỗi. Với quy tắc delta, cũng như với các loại lan truyền ngược khác, 'học' là một quá trình được giám sát xảy ra với mỗi chu kỳ hoặc 'kỷ nguyên' (i. e. mỗi khi mạng được trình bày với một mẫu đầu vào mới) thông qua luồng đầu ra kích hoạt thuận và lan truyền lỗi ngược của các điều chỉnh trọng số. Đơn giản hơn, khi một mạng thần kinh ban đầu được trình bày với một mẫu, nó sẽ tạo ra một 'đoán' ngẫu nhiên xem nó có thể là gì. Sau đó, nó xem câu trả lời của nó cách xa câu trả lời thực tế bao nhiêu và thực hiện điều chỉnh phù hợp với trọng số kết nối của nó. Đồ họa hơn, quá trình trông giống như thế này.

Phỏng vấn khoa học dữ liệu Cheat sheet GitHub

Lan truyền ngược thực hiện giảm dần độ dốc trong không gian vectơ của giải pháp hướng tới 'mức tối thiểu toàn cầu' dọc theo vectơ dốc nhất của bề mặt lỗi. Tối thiểu toàn cầu là giải pháp lý thuyết có lỗi thấp nhất có thể. Bản thân bề mặt lỗi là một siêu paraboloid nhưng hiếm khi 'trơn tru'. Thật vậy, trong hầu hết các vấn đề, không gian giải pháp khá bất thường với nhiều 'hố' và 'đồi' có thể khiến mạng ổn định ở 'mức tối thiểu cục bộ', đây không phải là giải pháp tổng thể tốt nhất

Vì không thể biết trước bản chất của không gian lỗi, nên việc phân tích mạng thần kinh thường yêu cầu một số lượng lớn các lần chạy riêng lẻ để xác định giải pháp tốt nhất. Hầu hết các quy tắc học tập đều có các thuật ngữ toán học tích hợp để hỗ trợ quá trình này kiểm soát 'tốc độ' (hệ số Beta) và 'động lượng' của việc học. Tốc độ học tập thực sự là tốc độ hội tụ giữa giải pháp hiện tại và mức tối thiểu toàn cầu. Động lượng giúp mạng vượt qua các chướng ngại vật (cực tiểu cục bộ) trong bề mặt lỗi và ổn định ở hoặc gần mức tối thiểu toàn cầu

Sau khi mạng thần kinh được 'đào tạo' đến mức thỏa đáng, nó có thể được sử dụng như một công cụ phân tích dữ liệu khác. Để thực hiện việc này, người dùng không còn chỉ định bất kỳ lần chạy huấn luyện nào nữa và thay vào đó, chỉ cho phép mạng hoạt động ở chế độ lan truyền thuận. Các đầu vào mới được trình bày cho mẫu đầu vào nơi chúng lọc vào và được xử lý bởi các lớp ở giữa như thể quá trình đào tạo đang diễn ra, tuy nhiên, tại thời điểm này, đầu ra được giữ lại và không xảy ra lan truyền ngược. Đầu ra của quá trình chạy lan truyền thuận là mô hình dự đoán cho dữ liệu mà sau đó có thể được sử dụng để phân tích và giải thích thêm

28. Làm thế nào để bạn đối phó với dữ liệu thưa thớt?

Chúng ta có thể xem xét chính quy hóa L1 vì nó phù hợp nhất với dữ liệu thưa thớt và lựa chọn tính năng. Nếu mối quan hệ tuyến tính - hồi quy tuyến tính - svm. Ngoài ra, sẽ rất tuyệt nếu sử dụng mã hóa một lần nóng hoặc túi từ. Một mã hóa nóng là biểu diễn các biến phân loại dưới dạng vectơ nhị phân. Điều này trước tiên yêu cầu các giá trị phân loại được ánh xạ tới các giá trị số nguyên. Sau đó, mỗi giá trị số nguyên được biểu diễn dưới dạng một vectơ nhị phân có tất cả các giá trị bằng 0 ngoại trừ chỉ mục của số nguyên, được đánh dấu bằng 1

29. RNN và LSTM

Đây là một trong số những cái tôi thích

  • Tìm hiểu LSTM Networks, Chris Olah's LSTM post
  • Khám phá LSTM, bài đăng LSTM của Edwin Chen
  • Hiệu quả phi lý của các mạng thần kinh tái phát, bài đăng trên blog của Andrej Karpathy
  • Bài giảng CS231n 10 - Mạng thần kinh tái phát, Chú thích hình ảnh, LSTM, bài giảng của Andrej Karpathy
  • Jay Alammar's The Illustrated Transformer, anh chàng này thường tập trung vào việc hình dung các khái niệm ML khác nhau

30. Dán nhãn giả

Dán nhãn giả là một kỹ thuật cho phép bạn sử dụng dữ liệu thử nghiệm được dự đoán với độ tin cậy trong quy trình đào tạo của mình. Hiệu quả này hoạt động bằng cách cho phép mô hình của bạn xem xét nhiều mẫu hơn, có thể khác nhau trong các bản phân phối. Tôi đã tìm thấy hạt nhân Kaggle này hữu ích trong việc hiểu cách một người có thể sử dụng nhãn giả do có quá ít điểm dữ liệu đào tạo

31. Chắt lọc tri thức

Đó là quá trình mà một mô hình lớn hơn đáng kể có thể chuyển kiến ​​thức của nó sang một mô hình nhỏ hơn. Các ứng dụng bao gồm NLP và phát hiện đối tượng cho phép phần cứng yếu hơn tạo ra các suy luận tốt mà không làm giảm đáng kể độ chính xác

Thí dụ. nén mô hình được sử dụng để nén kiến ​​thức của nhiều mô hình vào một mạng thần kinh duy nhất

Giải trình

32. một thiên vị quy nạp là gì?

Xu hướng quy nạp của một mô hình được gọi là các giả định được thực hiện trong mô hình đó để tìm hiểu chức năng mục tiêu của bạn từ các biến độc lập, các tính năng của bạn. Nếu không có những giả định này, sẽ có cả một không gian giải pháp cho vấn đề của chúng ta và việc tìm ra giải pháp hoạt động tốt nhất trở thành một vấn đề. Tìm thấy câu hỏi StackOverflow này hữu ích để xem xét và khám phá

Xem xét một ví dụ về sai lệch cảm ứng khi chọn thuật toán học với lỗi xác thực chéo (CV) tối thiểu. Ở đây, chúng tôi dựa trên giả thuyết về lỗi CV tối thiểu và hy vọng nó có thể khái quát hóa tốt trên dữ liệu chưa được nhìn thấy. Thực tế, lựa chọn này là thứ giúp chúng tôi (trong trường hợp này) đưa ra lựa chọn có lợi cho thuật toán học (hoặc mô hình) đang được thử

33. một khoảng tin cậy trong các điều khoản của giáo dân là gì?

Khoảng tin cậy như tên gợi ý là mức độ tin cậy được liên kết với một khoảng giá trị để có được kết quả mong muốn. Ví dụ. nếu phạm vi 100 - 200 là khoảng tin cậy 95%, điều đó ngụ ý rằng ai đó có thể đảm bảo 95% rằng điểm dữ liệu hoặc bất kỳ giá trị mong muốn nào có trong phạm vi đó