Hướng dẫn data science with python simplilearn quiz answers - khoa học dữ liệu với python đơn giản hóa câu trả lời câu hỏi

Thực hiện bài kiểm tra thực hành miễn phí

  • Instructions:

  • Kiểm tra miễn phí và có thể được thử nhiều lần.
  • 60 phút
  • 50 câu hỏi trắc nghiệm
  • Bạn có thể tạm dừng bài kiểm tra ở giữa và bạn được phép thực hiện lại bài kiểm tra sau.

Show

trang khóa học FPT Câu hỏi thường gặp

  • Bài kiểm tra thực hành này sẽ giúp xóa bài kiểm tra chứng nhận thực tế?

    Có, bài kiểm tra thực hành này cung cấp cho bạn một thử nghiệm mô phỏng như môi trường như bạn sẽ trải nghiệm trong bài kiểm tra thực tế. Các câu hỏi trong bài kiểm tra thực hành rất giống với các câu hỏi của bài kiểm tra chứng nhận khoa học dữ liệu.

  • Những gì được bao gồm trong bài kiểm tra thực hành này?

    Khoa học dữ liệu này với bài kiểm tra giả Python bao gồm 50 câu hỏi sẽ được giải quyết trong 60 phút. Bạn có thể tạm dừng bài kiểm tra nếu được yêu cầu và tiếp tục sau đó.

  • Khoa học dữ liệu với bài kiểm tra thực hành Python là gì?

    Khoa học dữ liệu với bài kiểm tra thực hành Python là bài kiểm tra mô hình theo mô hình câu hỏi của kỳ thi chứng nhận Python thực tế. Nó chứa tổng cộng 50 câu hỏi sẽ kiểm tra các kỹ năng lập trình Python của bạn. Nó nhằm mục đích làm chứng kiến ​​thức của bạn về các gói và thư viện Python khác nhau cần thiết để thực hiện phân tích dữ liệu.

  • Tôi có thể lấy lại bài kiểm tra thực hành này không?

    Có, bạn có thể thực hiện lại bài kiểm tra thực hành để biết nơi bạn nên ứng biến và cách quản lý thời gian. Hãy chắc chắn rằng bạn làm bài kiểm tra sau khi chuẩn bị kỹ lưỡng để có được phản hồi chính xác.

  • Ai có thể tiếp nhận khoa học dữ liệu này với bài kiểm tra giả chứng Python?

    Kỳ thi chế giễu khoa học dữ liệu này là miễn phí và lý tưởng cho những người muốn vượt qua kỳ thi chứng nhận Python thực sự và trở thành một nhà khoa học dữ liệu được chứng nhận.

  • Đây có phải là những câu hỏi tương tự tôi sẽ thấy trong kỳ thi thực tế?

    Có, các câu hỏi có trong thực tiễn giống với những câu hỏi dự kiến ​​sẽ được nhìn thấy trong khoa học dữ liệu thực tế với kỳ thi chứng nhận Python.

  • Tôi sẽ học được gì từ bài kiểm tra thực hành này?

    Tổng cộng có 50 câu hỏi liên quan đến khoa học dữ liệu có trong bài kiểm tra giả sẽ làm chứng cho sự thành thạo của bạn trong khoa học dữ liệu và các kỹ thuật phân tích bằng Python. Với sự trợ giúp của bài kiểm tra thực hành này, bạn có thể phân biệt các khu vực mạnh mẽ của mình với các khu vực yếu hơn trong số các chủ đề khác nhau của lập trình Python, học máy, phân tích dữ liệu, quét web, trực quan hóa dữ liệu và xử lý ngôn ngữ tự nhiên.

  • Tôi đã làm tốt trong bài kiểm tra thực hành này. Tôi nên làm gì bây giờ?

    Bạn có thể thực hiện nhiều nỗ lực để đánh giá tiềm năng thực tế của bạn trong lĩnh vực khoa học dữ liệu. Tuy nhiên, nếu bạn tìm kiếm một con đường học tập tốt hơn để hiểu Python, bạn có thể trải qua khóa đào tạo Chứng nhận Khoa học Dữ liệu của chúng tôi.

  • Các yêu cầu để làm bài kiểm tra thực hành này là gì?

    Bài kiểm tra thực hành này có thể được thực hiện mà không có bất kỳ điều kiện cụ thể.

  • Các bài kiểm tra thực hành sẽ được cập nhật thường xuyên?

    Có, chúng tôi chịu trách nhiệm nâng cấp các bài kiểm tra thực hành của chúng tôi để các ứng viên có thể tìm thấy tất cả các thông tin mới nhất cần thiết có trong đó.

  • Tuyên bố miễn trừ trách nhiệm
  • PMP, PMI, PMBOK, CAPM, PGMP, PFMP, ACP, PBA, RMP, SP và OPM3 là dấu hiệu đã đăng ký của Viện Quản lý dự án, Inc.

Harvard Business Review gọi nhà khoa học dữ liệu là công việc quyến rũ nhất của thế kỷ 21. Glassdoor đặt nó #1 trong danh sách 25 công việc tốt nhất trong Mỹ. Theo IBM, nhu cầu về vai trò này sẽ tăng vọt 28 % vào năm 2020. Không có gì ngạc nhiên khi trong kỷ nguyên mới của dữ liệu lớn và học máy, các nhà khoa học dữ liệu đang trở thành ngôi sao nhạc rock. Các công ty có thể tận dụng lượng dữ liệu khổng lồ để cải thiện cách họ phục vụ khách hàng, xây dựng sản phẩm và điều hành hoạt động của họ sẽ được định vị để phát triển mạnh trong nền kinh tế này.

Và nếu bạn di chuyển xuống con đường trở thành một nhà khoa học dữ liệu, bạn phải chuẩn bị để gây ấn tượng với các nhà tuyển dụng tiềm năng bằng kiến ​​thức của mình. Và để làm điều đó, bạn phải có khả năng phá vỡ cuộc phỏng vấn khoa học dữ liệu tiếp theo của bạn trong một lần! Chúng tôi đã đưa ra một danh sách các câu hỏi phỏng vấn khoa học dữ liệu phổ biến nhất mà bạn có thể mong đợi trong cuộc phỏng vấn tiếp theo của bạn!

Trong bài viết này, chúng tôi đã bao gồm các câu hỏi phỏng vấn khoa học dữ liệu phổ biến nhất cho cả người mới và có kinh nghiệm.

Khoa học dữ liệu là gì?

Khoa học dữ liệu kết hợp thống kê, toán học, chương trình chuyên ngành, trí tuệ nhân tạo, học máy, v.v ... Khoa học dữ liệu chỉ đơn giản là áp dụng các nguyên tắc cụ thể và kỹ thuật phân tích để trích xuất thông tin từ dữ liệu được sử dụng trong lập kế hoạch chiến lược, ra quyết định, v.v. Dữ liệu cho những hiểu biết có thể hành động.

Phân biệt giữa phân tích dữ liệu và khoa học dữ liệu

Phân tích dữ liệu

Khoa học dữ liệu

Phân tích dữ liệu sử dụng dữ liệu để vẽ những hiểu biết có ý nghĩa và giải quyết các vấn đề.

Khoa học dữ liệu được sử dụng để đặt câu hỏi, viết thuật toán, mã hóa và xây dựng các mô hình thống kê.

Các công cụ phân tích dữ liệu bao gồm khai thác dữ liệu, mô hình hóa dữ liệu, quản lý cơ sở dữ liệu và phân tích dữ liệu.

Học máy, Hadoop, Java, Python, phát triển phần mềm, v.v., là những công cụ của khoa học dữ liệu.

Sử dụng thông tin hiện có để khám phá dữ liệu hành động.

Do đó, khoa học dữ liệu phát hiện ra những câu hỏi mới để thúc đẩy sự đổi mới.

Kiểm tra dữ liệu từ thông tin đã cho bằng hệ thống và phần mềm chuyên dụng.

Trường này sử dụng các phương pháp khoa học và thuật toán để trích xuất kiến ​​thức từ dữ liệu phi cấu trúc.

Câu hỏi phỏng vấn khoa học dữ liệu cơ bản và nâng cao

Dưới đây là danh sách các câu hỏi phỏng vấn khoa học dữ liệu phổ biến nhất về khái niệm kỹ thuật mà bạn có thể mong đợi và cách đóng khung câu trả lời của bạn.

1. Sự khác biệt giữa học tập được giám sát và không giám sát là gì?

Học tập giám sát

Học tập không giám sát

  • Sử dụng dữ liệu đã biết và được dán nhãn làm đầu vào
  • Học tập có giám sát có cơ chế phản hồi & NBSP;
  • Các thuật toán học tập có giám sát được sử dụng phổ biến nhất là cây quyết định, hồi quy logistic và máy vectơ hỗ trợ
  • Sử dụng dữ liệu không nhãn làm đầu vào
  • Học tập không giám sát không có cơ chế phản hồi & NBSP;
  • Các thuật toán học tập không giám sát được sử dụng phổ biến nhất là phân cụm K-MEANS, phân cụm phân cấp và thuật toán Apriori

2. Hồi quy logistic được thực hiện như thế nào?

Hồi quy logistic đo lường mối quan hệ giữa biến phụ thuộc (nhãn của chúng tôi về những gì chúng tôi muốn dự đoán) và một hoặc nhiều biến độc lập (tính năng của chúng tôi) bằng cách ước tính xác suất sử dụng hàm logistic cơ bản (SIGMoid).

Hình ảnh hiển thị bên dưới mô tả cách thức hồi quy logistic hoạt động:

Công thức và đồ thị cho hàm sigmoid như được hiển thị:

3. Giải thích các bước trong việc làm một cây quyết định.

  1. Lấy toàn bộ tập dữ liệu làm đầu vào
  2. Tính toán entropy của biến mục tiêu, cũng như các thuộc tính dự đoán
  3. Tính toán lợi nhuận thông tin của bạn của tất cả các thuộc tính (chúng tôi có được thông tin về việc sắp xếp các đối tượng khác nhau với nhau)
  4. Chọn thuộc tính có mức tăng thông tin cao nhất làm nút gốc & nbsp;
  5. Lặp lại quy trình tương tự trên mỗi nhánh cho đến khi nút quyết định của mỗi nhánh được hoàn thành

Ví dụ: giả sử bạn muốn xây dựng một cây quyết định để quyết định xem bạn nên chấp nhận hoặc từ chối lời mời làm việc. Cây quyết định cho trường hợp này như được hiển thị:

Hướng dẫn data science with python simplilearn quiz answers - khoa học dữ liệu với python đơn giản hóa câu trả lời câu hỏi

Rõ ràng từ cây quyết định rằng một đề nghị được chấp nhận nếu:

  • Mức lương lớn hơn 50.000 đô la
  • Việc đi lại ít hơn một giờ & nbsp;
  • Ưu đãi được cung cấp & nbsp;

4. Làm thế nào để bạn xây dựng một mô hình rừng ngẫu nhiên?

Một khu rừng ngẫu nhiên được xây dựng từ một số cây quyết định. Nếu bạn chia dữ liệu thành các gói khác nhau và tạo một cây quyết định trong mỗi nhóm dữ liệu khác nhau, khu rừng ngẫu nhiên mang tất cả những cây đó lại với nhau.

Các bước để xây dựng một mô hình rừng ngẫu nhiên:

  1. Chọn ngẫu nhiên các tính năng 'k' từ tổng số các tính năng 'm' trong đó k
  2. Trong số các tính năng 'K', tính toán nút D bằng cách sử dụng điểm phân chia tốt nhất
  3. Chia nút thành các nút con gái bằng cách chia tốt nhất
  4. Lặp lại các bước hai và ba cho đến khi các nút lá được hoàn thiện & NBSP;
  5. Xây dựng rừng bằng cách lặp lại các bước một đến bốn cho 'n' lần để tạo ra 'n' số lượng cây & nbsp;

5. Làm thế nào bạn có thể tránh quá mức mô hình của bạn?

Việc đặt quá mức đề cập đến một mô hình chỉ được đặt cho một lượng dữ liệu rất nhỏ và bỏ qua bức tranh lớn hơn. Có ba phương pháp chính để tránh quá mức:

  1. Giữ cho mô hình đơn giản - thực hiện ít biến hơn
  2. Sử dụng các kỹ thuật xác thực chéo, chẳng hạn như K IRTS Xác thực chéo & NBSP;
  3. Sử dụng các kỹ thuật chính quy, chẳng hạn như Lasso, xử phạt một số tham số mô hình nhất định nếu chúng có khả năng gây ra quá mức

6. Phân biệt giữa phân tích đơn biến, bivariate và đa biến.

Đơn biến

Dữ liệu đơn biến chỉ chứa một biến. Mục đích của phân tích đơn biến là mô tả dữ liệu và tìm các mẫu tồn tại trong đó. & NBSP;

Ví dụ: Chiều cao của học sinh & NBSP;

Chiều cao (tính bằng cm)

164

167.3

170

174.2

178

180

Các mẫu có thể được nghiên cứu bằng cách rút ra kết luận bằng cách sử dụng trung bình, trung bình, chế độ, phân tán hoặc phạm vi, tối thiểu, tối đa, v.v.

Bivariate

Dữ liệu bivariate liên quan đến hai biến khác nhau. Việc phân tích loại dữ liệu này xử lý các nguyên nhân và mối quan hệ và phân tích được thực hiện để xác định mối quan hệ giữa hai biến.

Ví dụ: Bán hàng về nhiệt độ và kem vào mùa hè

Nhiệt độ (trong Celcius)

Việc bán hàng

20

2,000

25

2,100

26

2,300

28

2,400

30

2,600

36

3,100

Ở đây, mối quan hệ có thể nhìn thấy từ bảng rằng nhiệt độ và doanh số tỷ lệ thuận với nhau. Nhiệt độ càng nóng, doanh số càng tốt.

Đa biến

Dữ liệu đa biến liên quan đến ba hoặc nhiều biến, nó được phân loại theo đa biến. Nó tương tự như một bivariate nhưng chứa nhiều hơn một biến phụ thuộc.

Ví dụ: Dữ liệu cho dự đoán giá nhà & nbsp;

Số phòng

Sàn nhà

Khu vực (Sq ft)

Giá bán

2

0

900

$4000,00

3

2

1,100

$600,000

3.5

5

1,500

$900,000

4

3

2,100

$1,200,000

Các mẫu có thể được nghiên cứu bằng cách rút ra kết luận bằng cách sử dụng trung bình, trung bình và chế độ, phân tán hoặc phạm vi, tối thiểu, tối đa, v.v. Bạn có thể bắt đầu mô tả dữ liệu và sử dụng nó để đoán giá của ngôi nhà sẽ là bao nhiêu.

7. Các phương thức lựa chọn tính năng được sử dụng để chọn các biến phù hợp là gì?

Có hai phương pháp chính để lựa chọn tính năng, tức là các phương thức bộ lọc và trình bao bọc.

Phương pháp lọc

Điều này liên quan đến: & nbsp;

  • Phân tích phân biệt tuyến tính
  • ANOVA
  • Chi-Square

Sự tương tự tốt nhất để chọn các tính năng là "dữ liệu xấu, câu trả lời xấu." Khi chúng tôi giới hạn hoặc chọn các tính năng, tất cả chỉ là làm sạch dữ liệu. & NBSP;

Phương pháp bao bọc

Điều này liên quan đến: & nbsp;

  • Phân tích phân biệt tuyến tính
  • ANOVA
  • Sự tương tự tốt nhất để chọn các tính năng là "dữ liệu xấu, câu trả lời xấu." Khi chúng tôi giới hạn hoặc chọn các tính năng, tất cả chỉ là làm sạch dữ liệu. & NBSP;

Phương pháp bao bọc

Lựa chọn chuyển tiếp: Chúng tôi kiểm tra một tính năng tại một thời điểm và tiếp tục thêm chúng cho đến khi chúng tôi phù hợp

Lựa chọn ngược: Chúng tôi kiểm tra tất cả các tính năng và bắt đầu xóa chúng để xem những gì hoạt động tốt hơn

Loại bỏ tính năng đệ quy: Nhìn đệ quy qua tất cả các tính năng khác nhau và cách chúng ghép đôi với nhau

Các phương thức trình bao bọc rất tốn nhiều công sức và cần có các máy tính cao cấp nếu có nhiều phân tích dữ liệu được thực hiện với phương thức trình bao bọc. & NBSP;

8. Theo lựa chọn ngôn ngữ của bạn, hãy viết một chương trình in các số từ một đến 50.

Nhưng đối với bội số của ba, in "fizz" thay vì số và đối với bội số của năm, in "buzz". Đối với các số là bội số của cả ba và năm, in "fizzbuzz" & nbsp;

Các mã được hiển thị dưới đây:

Lưu ý rằng phạm vi được đề cập là 51, có nghĩa là từ 0 đến 50. Tuy nhiên, phạm vi được hỏi trong câu hỏi là từ một đến 50. Do đó, trong mã trên, bạn có thể bao gồm phạm vi là (1,51).

Đầu ra của mã trên như được hiển thị:

9. Bạn được cung cấp một tập dữ liệu bao gồm các biến có hơn 30 phần trăm các giá trị bị thiếu. Bạn sẽ đối phó với họ như thế nào?

Sau đây là các cách để xử lý các giá trị dữ liệu bị thiếu:

Nếu tập dữ liệu lớn, chúng ta chỉ cần xóa các hàng có giá trị dữ liệu bị thiếu. Đó là cách nhanh nhất; Chúng tôi sử dụng phần còn lại của dữ liệu để dự đoán các giá trị.

Đối với các bộ dữ liệu nhỏ hơn, chúng ta có thể thay thế các giá trị bị thiếu bằng giá trị trung bình hoặc trung bình của phần còn lại của dữ liệu bằng khung dữ liệu của Pandas trong Python. Có nhiều cách khác nhau để làm như vậy, chẳng hạn như df.mean (), df.fillna (trung bình).

10. Đối với các điểm đã cho, bạn sẽ tính khoảng cách Euclide trong Python như thế nào?

Kiểm tra video của SimpleLearn về "Câu hỏi phỏng vấn khoa học dữ liệu" được quản lý bởi các chuyên gia trong ngành để giúp bạn chuẩn bị cho một cuộc phỏng vấn.

11. Giảm chiều và lợi ích của nó là gì?

Giảm kích thước đề cập đến quá trình chuyển đổi một tập dữ liệu với kích thước rộng lớn thành dữ liệu với ít kích thước hơn (trường) để truyền tải thông tin tương tự chính xác. & NBSP;

Việc giảm này giúp nén dữ liệu và giảm không gian lưu trữ. Nó cũng làm giảm thời gian tính toán khi ít kích thước hơn dẫn đến ít tính toán hơn. Nó loại bỏ các tính năng dư thừa; Ví dụ: không có điểm nào trong việc lưu trữ giá trị theo hai đơn vị khác nhau (mét và inch). & nbsp;

Câu hỏi và câu trả lời phỏng vấn liên quan
Ai | Ml | Kỹ sư dữ liệu | Phân tích dữ liệu

12. Bạn sẽ tính toán giá trị riêng và hàm riêng của ma trận 3x3 sau đây như thế nào?

Phương trình đặc trưng như thể hiện:

Mở rộng yếu tố quyết định:

. λ)] = 0

- 3 + 4λ2 + 27λ - 90 = 0,

3 - 4 λ2 -27 + 90 = 0

Ở đây chúng ta có một phương trình đại số được xây dựng từ các hàm riêng.

Bằng cách đánh và thử nghiệm:

33 - 4 x 32 - 27 x 3 +90 = 0

Do đó, (λ - 3) là một yếu tố:

3 - 4 λ2 - 27 λ +90 = (λ - 3) (λ2 - λ - 30)

Giá trị riêng là 3, -5,6:

.

Tính toán eigenvector cho = 3

Cho x = 1,

-5 - 4y + 2z = 0,

-2 - 2y + 2z = 0

Trừ hai phương trình: & nbsp;

3 + 2y = 0,

Trừ trở lại phương trình thứ hai:

Y = -(3/2) & nbsp;

Z = -(1/2)

Tương tự, chúng ta có thể tính toán các hàm riêng cho -5 và 6.

13. Làm thế nào bạn nên duy trì một mô hình được triển khai?

Các bước để duy trì mô hình được triển khai là:

Monitor 

Giám sát liên tục của tất cả các mô hình là cần thiết để xác định độ chính xác hiệu suất của chúng. Khi bạn thay đổi một cái gì đó, bạn muốn tìm ra những thay đổi của bạn sẽ ảnh hưởng đến mọi thứ như thế nào. Điều này cần được theo dõi để đảm bảo nó đang làm những gì nó phải làm.

Thúc giục

Các số liệu đánh giá của mô hình hiện tại được tính toán để xác định xem thuật toán mới có cần thiết không. & NBSP;

So sánh

Các mô hình mới được so sánh với nhau để xác định mô hình nào thực hiện tốt nhất. & NBSP;

Xây dựng lại

Mô hình hiệu suất tốt nhất được xây dựng lại trên trạng thái dữ liệu hiện tại.

14. Hệ thống đề xuất là gì?

Một hệ thống đề xuất dự đoán những gì người dùng sẽ đánh giá một sản phẩm cụ thể dựa trên sở thích của họ. Nó có thể được chia thành hai lĩnh vực khác nhau:

Lọc cộng tác

Ví dụ, Last.fm khuyến nghị các bản nhạc mà những người dùng khác có cùng sở thích thường xuyên chơi. Điều này cũng thường thấy trên Amazon sau khi mua hàng; Khách hàng có thể nhận thấy tin nhắn sau cùng với các khuyến nghị của sản phẩm: "Người dùng đã mua cái này cũng đã mua"

Lọc dựa trên nội dung

Ví dụ: Pandora sử dụng các thuộc tính của một bài hát để giới thiệu âm nhạc với các thuộc tính tương tự. Ở đây, chúng tôi nhìn vào nội dung, thay vì nhìn vào ai khác đang nghe nhạc.

15. Làm thế nào để bạn tìm thấy RMSE và MSE trong mô hình hồi quy tuyến tính?

RMSE và MSE là hai trong số các biện pháp chính xác phổ biến nhất cho mô hình hồi quy tuyến tính. & NBSP;

RMSE chỉ ra lỗi bình phương trung bình gốc. & Nbsp;

MSE chỉ ra lỗi bình phương trung bình.

16. Làm thế nào bạn có thể chọn K cho K-MEAN? & NBSP;

Chúng tôi sử dụng phương pháp khuỷu tay để chọn K cho phân cụm K-MEAN. Ý tưởng về phương pháp khuỷu tay là chạy các phương luật K trên tập dữ liệu trong đó 'K' là số lượng cụm.

Trong tổng số bình phương (WSS), nó được định nghĩa là tổng khoảng cách bình phương giữa mỗi thành viên của cụm và tâm của nó. & NBSP;

17. Ý nghĩa của giá trị p là gì?

Giá trị P thường ≤ 0,05

Điều này cho thấy bằng chứng mạnh mẽ chống lại giả thuyết null; Vì vậy, bạn từ chối giả thuyết null.

giá trị p thường> 0,05

Điều này cho thấy bằng chứng yếu chống lại giả thuyết null, vì vậy bạn chấp nhận giả thuyết khống. & NBSP;

Giá trị p ở mức cắt 0,05 & nbsp;

Đây được coi là cận biên, có nghĩa là nó có thể đi một trong hai cách.

18. Làm thế nào các giá trị ngoại lệ có thể được đối xử?

Bạn chỉ có thể bỏ các ngoại lệ nếu đó là giá trị rác. & NBSP;

Ví dụ: Chiều cao của người lớn = ABC ft. Điều này không thể đúng, vì chiều cao không thể là giá trị chuỗi. Trong trường hợp này, các ngoại lệ có thể được loại bỏ.

Nếu các ngoại lệ có giá trị cực đoan, chúng có thể được loại bỏ. Ví dụ: nếu tất cả các điểm dữ liệu được phân cụm trong khoảng từ 0 đến 10, nhưng một điểm nằm ở mức 100, thì chúng ta có thể xóa điểm này.

Nếu bạn không thể bỏ các ngoại lệ, bạn có thể thử những điều sau:

  • Hãy thử một mô hình khác. Dữ liệu được phát hiện dưới dạng các ngoại lệ của các mô hình tuyến tính có thể phù hợp với các mô hình phi tuyến. Do đó, hãy chắc chắn rằng bạn đang chọn mô hình chính xác.
  • Hãy thử chuẩn hóa dữ liệu. Bằng cách này, các điểm dữ liệu cực đoan được kéo đến một phạm vi tương tự.
  • Bạn có thể sử dụng các thuật toán ít bị ảnh hưởng bởi các ngoại lệ; Một ví dụ sẽ là rừng ngẫu nhiên. & NBSP;

19. Làm thế nào dữ liệu chuỗi thời gian có thể được khai báo là văn phòng phẩm?

Đó là đứng yên khi phương sai và giá trị trung bình của chuỗi không đổi theo thời gian. & NBSP;

Dưới đây là một ví dụ trực quan: & nbsp;

Trong biểu đồ đầu tiên, phương sai là không đổi theo thời gian. Ở đây, x là yếu tố thời gian và y là biến. Giá trị của y đi qua cùng một điểm mọi lúc; Nói cách khác, nó là đứng yên.

Trong biểu đồ thứ hai, sóng trở nên lớn hơn, điều đó có nghĩa là nó không cố định và phương sai đang thay đổi theo thời gian.

20. Làm thế nào bạn có thể tính toán độ chính xác bằng cách sử dụng ma trận nhầm lẫn?

Hãy xem xét ma trận nhầm lẫn này:

Bạn có thể thấy các giá trị cho tổng dữ liệu, giá trị thực và các giá trị dự đoán.

Công thức chính xác là:

Độ chính xác = (Đúng tích cực + Đúng tiêu cực) / Tổng quan sát

= (262 + 347) / 650

= 609 /650

= 0,93

Kết quả là, chúng tôi nhận được độ chính xác 93 phần trăm.

21. Viết phương trình và tính toán độ chính xác và tỷ lệ thu hồi.

Xem xét cùng một ma trận nhầm lẫn được sử dụng trong câu hỏi trước.

Độ chính xác = (Đúng tích cực) / (Đúng dương + dương tính giả))

= 262 /277

= 0,94

Tỷ lệ thu hồi = (Đúng dương) / (Tổng dương + âm tính giả))

= 262 /288

= 0,90

22. 'Những người đã mua cái này cũng đã mua các đề xuất' 'được thấy trên Amazon là kết quả của thuật toán nào?

Công cụ khuyến nghị được thực hiện với bộ lọc hợp tác. Lọc hợp tác giải thích hành vi của người dùng khác và lịch sử mua hàng của họ về xếp hạng, lựa chọn, v.v. & NBSP;

Động cơ đưa ra dự đoán về những gì có thể quan tâm đến một người dựa trên sở thích của người dùng khác. Trong thuật toán này, các tính năng vật phẩm không rõ.

 

Ví dụ, một trang bán hàng cho thấy một số người nhất định mua điện thoại mới và cũng mua kính cường lực cùng một lúc. Lần tới, khi một người mua điện thoại, anh ta hoặc cô ta cũng có thể thấy một khuyến nghị để mua kính nóng tính.

23. Viết một truy vấn SQL cơ bản liệt kê tất cả các đơn đặt hàng có thông tin khách hàng.

Thông thường, chúng tôi có bảng đơn hàng và bảng khách hàng có chứa các cột sau:

  • Bảng đặt hàng & nbsp;
  • OrderID
  • customerId 
  • OrderNumber
  • Tổng cộng
  • Bảng khách hàng & NBSP;
  • ID
  • Họ
  • Họ
  • City 
  • Quốc gia & nbsp; & nbsp;
  • Truy vấn SQL là:
  • Chọn OrderNumber, TotalAmount, FirstName, LastName, Thành phố, Quốc gia
  • Từ đơn đặt hàng
  • Tham gia khách hàng
  • Trên đơn đặt hàng.customerid = customer.id

24. Bạn được cung cấp một bộ dữ liệu về phát hiện ung thư. Bạn đã xây dựng một mô hình phân loại và đạt được độ chính xác là 96 phần trăm. Tại sao bạn không nên hài lòng với hiệu suất mô hình của mình? Bạn có thể làm gì về nó?

Phát hiện ung thư dẫn đến dữ liệu mất cân bằng. Trong một bộ dữ liệu mất cân bằng, độ chính xác không nên dựa trên thước đo hiệu suất. Điều quan trọng là tập trung vào bốn phần trăm còn lại, đại diện cho các bệnh nhân được chẩn đoán sai. Chẩn đoán sớm là rất quan trọng khi phát hiện ung thư, và có thể cải thiện đáng kể tiên lượng của bệnh nhân.

Do đó, để đánh giá hiệu suất mô hình, chúng ta nên sử dụng độ nhạy (tốc độ dương thực sự), độ đặc hiệu (tốc độ âm thực), đo F để xác định hiệu suất khôn ngoan của lớp của trình phân loại.

25. Thuật toán học máy nào sau đây có thể được sử dụng để nhập các giá trị bị thiếu của cả biến phân loại và liên tục?

  • K-MEANS phân cụm
  • Hồi quy tuyến tính & nbsp;
  • K-NN (hàng xóm K-Newest)
  • Cây quyết định & nbsp;

Thuật toán hàng xóm gần nhất có thể được sử dụng vì nó có thể tính toán hàng xóm gần nhất và nếu nó không có giá trị, nó chỉ tính toán hàng xóm gần nhất dựa trên tất cả các tính năng khác. & NBSP;

Khi bạn giao dịch với K-Means phân cụm hoặc hồi quy tuyến tính, bạn cần phải làm điều đó trong quá trình xử lý trước, nếu không, chúng sẽ gặp sự cố. Cây quyết định cũng có cùng một vấn đề, mặc dù có một số phương sai.

Mong muốn trở thành một nhà khoa học dữ liệu? Kiểm tra & nbsp; khóa học khoa học dữ liệu & nbsp; và được chứng nhận ngay hôm nay.

26. Dưới đây là tám giá trị thực của biến mục tiêu trong tệp tàu. Entropy của biến mục tiêu là gì?

[0, 0, 0, 1, 1, 1, 1, 1] & nbsp;

Chọn câu trả lời đúng.

  1. -(log 5/8 (5/8) + 3/8 Nhật ký (3/8))
  2. Nhật ký 5/8 (5/8) + 3/8 Nhật ký (3/8)
  3. Nhật ký 3/8 (5/8) + 5/8 Nhật ký (3/8)
  4. Nhật ký 5/8 (3/8) - Nhật ký 3/8 (5/8)

Biến mục tiêu, trong trường hợp này, là 1. & nbsp;

Công thức tính toán entropy là:

Đặt p = 5 và n = 8, chúng tôi nhận được & nbsp;

Entropy = a = -(5/8 log (5/8) + 3/8 log (3/8)))

27. Chúng tôi muốn dự đoán xác suất tử vong do bệnh tim dựa trên ba yếu tố nguy cơ: tuổi, giới tính và mức cholesterol trong máu. Thuật toán thích hợp nhất cho trường hợp này là gì?

Chọn phương án đúng:

  1. Hồi quy logistic & nbsp;
  2. Hồi quy tuyến tính
  3. K-MEANS CLUSTERING & NBSP;
  4. Thuật toán Apriori

Thuật toán thích hợp nhất cho trường hợp này là một, hồi quy logistic. & Nbsp;

28. Sau khi nghiên cứu hành vi của dân số, bạn đã xác định được bốn loại riêng lẻ cụ thể có giá trị cho nghiên cứu của bạn. Bạn muốn tìm tất cả người dùng giống với từng loại riêng lẻ nhất. Thuật toán nào phù hợp nhất cho nghiên cứu này?

Chọn phương án đúng:

  1. K-MEANS phân cụm
  2. Hồi quy tuyến tính
  3. Quy tắc hiệp hội
  4. Cây quyết định

Vì chúng tôi đang tìm kiếm nhóm mọi người với nhau cụ thể bởi bốn điểm tương đồng khác nhau, nó chỉ ra giá trị của k. Do đó, phân cụm K-MEAN (Trả lời A) là thuật toán phù hợp nhất cho nghiên cứu này.

29. Bạn đã chạy thuật toán Quy tắc liên kết trên bộ dữ liệu của bạn và hai quy tắc {chuối, Apple} => {Grape} và {Apple, Orange} => {Grape} đã được tìm thấy có liên quan. Điều gì khác phải là sự thật?

Chọn đáp án đúng:

  1. {chuối, táo, nho, cam} phải là vật phẩm thường xuyên
  2. {chuối, táo} => {cam} phải là một quy tắc có liên quan
  3. {Grape} => {chuối, Apple} phải là một quy tắc có liên quan
  4. {nho, táo} phải là một vật phẩm thường xuyên

Câu trả lời là: {nho, táo} phải là một vật phẩm thường xuyên

30. Tổ chức của bạn có một trang web nơi khách truy cập ngẫu nhiên nhận được một trong hai phiếu giảm giá. Cũng có thể khách truy cập vào trang web sẽ không nhận được phiếu giảm giá. Bạn đã được yêu cầu xác định xem việc cung cấp phiếu giảm giá cho khách truy cập trang web có bất kỳ tác động nào đến quyết định mua hàng của họ không. Bạn nên sử dụng phương pháp phân tích nào?

  1. ANOVA & NBSP một chiều;
  2. K-MEANS phân cụm
  3. Hồi quy tuyến tính
  4. Quy tắc hiệp hội

Cây quyết định

Vì chúng tôi đang tìm kiếm nhóm mọi người với nhau cụ thể bởi bốn điểm tương đồng khác nhau, nó chỉ ra giá trị của k. Do đó, phân cụm K-MEAN (Trả lời A) là thuật toán phù hợp nhất cho nghiên cứu này.

  • 29. Bạn đã chạy thuật toán Quy tắc liên kết trên bộ dữ liệu của bạn và hai quy tắc {chuối, Apple} => {Grape} và {Apple, Orange} => {Grape} đã được tìm thấy có liên quan. Điều gì khác phải là sự thật?

Chọn đáp án đúng:

{chuối, táo, nho, cam} phải là vật phẩm thường xuyên

TPR=TP/TP+FN

  • {chuối, táo} => {cam} phải là một quy tắc có liên quan

{Grape} => {chuối, Apple} phải là một quy tắc có liên quan

{chuối, táo, nho, cam} phải là vật phẩm thường xuyên

FPR=FP/TN+FP

{chuối, táo} => {cam} phải là một quy tắc có liên quan

{Grape} => {chuối, Apple} phải là một quy tắc có liên quan

{nho, táo} phải là một vật phẩm thường xuyên

Câu trả lời là: {nho, táo} phải là một vật phẩm thường xuyên

30. Tổ chức của bạn có một trang web nơi khách truy cập ngẫu nhiên nhận được một trong hai phiếu giảm giá. Cũng có thể khách truy cập vào trang web sẽ không nhận được phiếu giảm giá. Bạn đã được yêu cầu xác định xem việc cung cấp phiếu giảm giá cho khách truy cập trang web có bất kỳ tác động nào đến quyết định mua hàng của họ không. Bạn nên sử dụng phương pháp phân tích nào?

ANOVA & NBSP một chiều;

Quy tắc hiệp hội & NBSP;

T-Test của sinh viên & NBSP;

Câu trả lời là A: ANOVA một chiều

31. Bạn hiểu gì về tỷ lệ tích cực thực sự và tỷ lệ dương tính giả?

Tỷ lệ dương thực sự (TPR) xác định xác suất mà một dương tính thực tế sẽ hóa ra là dương. & NBSP;

Tỷ lệ dương tính thực (TPR) thực sự được tính bằng cách lấy tỷ lệ của [dương tính thực (TP)] và [Đúng dương tính (TP) & phủ định sai (FN)]. & NBSP;

Công thức cho cùng được nêu dưới đây -

Tỷ lệ dương tính giả (FPR) xác định xác suất rằng kết quả âm tính thực tế sẽ được hiển thị dưới dạng dương tính, tức là xác suất mô hình sẽ tạo ra báo động sai. & NBSP;

Tỷ lệ dương tính giả (FPR) được tính bằng cách lấy tỷ lệ của [dương tính giả (FP)] và [dương tính thực sự (TP) & dương tính giả (FP)].

Bảng định dạng dài:

TÊN

THUỘC TÍNH

GIÁ TRỊ

Rama

HEIGHT 

182

SITA

CHIỀU CAO

160

Bảng định dạng rộng:

TÊN

CHIỀU CAO

Rama

182

SITA

160

CHIỀU CAO

Bảng định dạng rộng:

37. Đề cập đến một số kỹ thuật được sử dụng để lấy mẫu. Ưu điểm chính của việc lấy mẫu là gì?

Lấy mẫu là lựa chọn các thành viên cá nhân hoặc một tập hợp con của dân số để ước tính các nhân vật của toàn bộ dân số. Có hai loại lấy mẫu, cụ thể là xác suất và lấy mẫu không xác suất.

38. Tại sao Python được sử dụng để làm sạch dữ liệu trong DS?

Các nhà khoa học dữ liệu và các nhà phân tích kỹ thuật phải chuyển đổi một lượng dữ liệu khổng lồ thành dữ liệu hiệu quả. Làm sạch dữ liệu bao gồm loại bỏ các bản ghi Malwared, Outliners, giá trị không nhất quán, định dạng dự phòng, v.v. Matplotlib, Pandas, vv là những chất tẩy rửa dữ liệu Python được sử dụng nhiều nhất.

  • 39. Các thư viện phổ biến được sử dụng trong khoa học dữ liệu là gì?
  • Các thư viện phổ biến được sử dụng trong Khoa học dữ liệu là & NBSP;
  • Dòng chảy tenxơ
  • Gấu trúc
  • Numpy
  • Scipy
  • Quét

Librosa

Matplotlib

40. Phương sai trong khoa học dữ liệu là gì?

Phương sai là giá trị mô tả các số liệu riêng lẻ trong một tập hợp dữ liệu tự phân phối về giá trị trung bình và mô tả sự khác biệt của từng giá trị so với giá trị trung bình. Các nhà khoa học dữ liệu sử dụng phương sai để hiểu sự phân phối của một tập dữ liệu.

41. Cắt tỉa trong thuật toán cây quyết định là gì?

Trong khoa học dữ liệu và học máy, cắt tỉa là một kỹ thuật liên quan đến cây quyết định. Cắt tỉa đơn giản hóa cây quyết định bằng cách giảm các quy tắc. Cắt tỉa giúp tránh sự phức tạp và cải thiện độ chính xác. Giảm cắt tỉa lỗi, cắt tỉa phức tạp chi phí, vv là các loại cắt tỉa khác nhau.

42. Entropy trong thuật toán cây quyết định là gì?

Entropy là thước đo của sự ngẫu nhiên hoặc rối loạn trong nhóm các quan sát. Nó cũng xác định cách một cây quyết định chuyển sang phân chia dữ liệu. Entropy cũng được sử dụng để kiểm tra tính đồng nhất của dữ liệu đã cho. Nếu entropy bằng không, thì mẫu dữ liệu hoàn toàn đồng nhất và nếu entropy là một, thì nó chỉ ra rằng mẫu được chia đều như nhau.

43. Thông tin nào có được trong thuật toán cây quyết định?

Thu nhập thông tin là giảm dự kiến ​​trong entropy. Thông tin đạt được quyết định xây dựng cây. Thu nhập thông tin làm cho cây quyết định thông minh hơn. Thu nhập thông tin bao gồm nút cha R và một bộ E của các ví dụ đào tạo K. Nó tính toán sự khác biệt giữa entropy trước và sau khi chia.

44. Xử lý chéo K-Fold là gì?

Xác thực chéo K-gấp là một quy trình được sử dụng để ước tính kỹ năng của mô hình trong dữ liệu mới. Trong xác thực chéo gấp K, mọi quan sát từ bộ dữ liệu ban đầu có thể xuất hiện trong tập huấn luyện và thử nghiệm. Xác thực chéo K-gấp ước tính độ chính xác nhưng không giúp bạn cải thiện độ chính xác.

45. Phân phối bình thường là gì?

Phân phối bình thường còn được gọi là phân phối Gaussian. Phân phối bình thường cho thấy dữ liệu gần giá trị trung bình và tần suất của dữ liệu cụ thể đó. Khi được biểu diễn ở dạng đồ họa, phân phối bình thường xuất hiện giống như một đường cong chuông. Các tham số bao gồm trong phân phối bình thường là trung bình, độ lệch chuẩn, trung bình, v.v.

46. ​​Học sâu là gì?

Học sâu là một trong những yếu tố thiết yếu trong khoa học dữ liệu, bao gồm cả thống kê. Học sâu làm cho chúng ta làm việc chặt chẽ hơn với bộ não con người và đáng tin cậy với những suy nghĩ của con người. Các thuật toán được tạo ra chân thành để giống với bộ não con người. Trong học tập sâu, nhiều lớp được hình thành từ đầu vào thô để trích xuất lớp cấp cao với các tính năng tốt nhất.

47. RNN (mạng thần kinh tái phát) là gì?

RNN là một thuật toán sử dụng dữ liệu tuần tự. RNN được sử dụng trong dịch ngôn ngữ, nhận dạng giọng nói, chụp ảnh, v.v. RNN được sử dụng trong tìm kiếm giọng nói của Google và Apple Sir Siri.

Câu hỏi phỏng vấn khoa học dữ liệu cơ bản

Hãy để chúng tôi bắt đầu với một vài câu hỏi phỏng vấn khoa học dữ liệu cơ bản!

48. Các vectơ tính năng là gì?

  1. Một vectơ tính năng là một vectơ n chiều của các tính năng số đại diện cho một đối tượng. Trong học máy, các vectơ tính năng được sử dụng để thể hiện các đặc điểm số hoặc biểu tượng (được gọi là các tính năng) của một đối tượng theo cách toán học dễ phân tích.
  2. 49. Các bước trong việc làm cây quyết định là gì?
  3. Lấy toàn bộ tập dữ liệu làm đầu vào.
  4. Tìm kiếm một sự phân chia tối đa hóa sự phân tách của các lớp. Phân chia là bất kỳ thử nghiệm nào chia dữ liệu thành hai bộ.
  5. Áp dụng phân chia cho dữ liệu đầu vào (bước chia).
  6. Ứng dụng lại các bước một và hai cho dữ liệu chia.

50. Phân tích nguyên nhân gốc là gì?

Phân tích nguyên nhân gốc ban đầu được phát triển để phân tích tai nạn công nghiệp nhưng hiện được sử dụng rộng rãi trong các lĩnh vực khác. Nó là một kỹ thuật giải quyết vấn đề được sử dụng để cô lập nguyên nhân gốc của lỗi hoặc vấn đề. Một yếu tố được gọi là nguyên nhân gốc rễ nếu sự khấu trừ của nó từ chuỗi lỗi có vấn đề ngăn chặn sự kiện không mong muốn cuối cùng khỏi tái phát.

51. Hồi quy logistic là gì?

Hồi quy logistic còn được gọi là mô hình logit. Nó là một kỹ thuật được sử dụng để dự báo kết quả nhị phân từ sự kết hợp tuyến tính của các biến dự đoán.

52. Hệ thống đề xuất là gì?

Các hệ thống đề xuất là một lớp con của các hệ thống lọc thông tin nhằm dự đoán các ưu tiên hoặc xếp hạng mà người dùng sẽ cung cấp cho sản phẩm.

53. Giải thích xác thực chéo.

Xác nhận chéo là một kỹ thuật xác nhận mô hình để đánh giá cách kết quả của phân tích thống kê sẽ khái quát thành một tập dữ liệu độc lập. Nó chủ yếu được sử dụng trong các nền trong đó mục tiêu là dự báo và người ta muốn ước tính mức độ chính xác của một mô hình sẽ thực hiện trong thực tế. & NBSP;

Mục tiêu của xác thực chéo là thuật ngữ một tập dữ liệu để kiểm tra mô hình trong giai đoạn đào tạo (nghĩa là tập dữ liệu xác thực) để hạn chế các vấn đề như quá mức và hiểu rõ hơn về cách mô hình sẽ khái quát thành một tập dữ liệu độc lập.

54. Lọc hợp tác là gì?

Hầu hết các hệ thống đề xuất sử dụng quy trình lọc này để tìm các mẫu và thông tin bằng cách hợp tác các quan điểm, nhiều nguồn dữ liệu và một số tác nhân.

55. Phương pháp gốc gradient có luôn hội tụ đến các điểm tương tự không?

Họ không, bởi vì trong một số trường hợp, họ đạt đến một cực tiểu cục bộ hoặc điểm tối ưu cục bộ. Bạn sẽ không đạt đến điểm tối ưu toàn cầu. Điều này được điều chỉnh bởi dữ liệu và các điều kiện bắt đầu.

56. Mục tiêu của thử nghiệm A/B là gì?

Đây là thử nghiệm giả thuyết thống kê cho các thí nghiệm ngẫu nhiên với hai biến, A và B. Mục tiêu của thử nghiệm A/B là phát hiện bất kỳ thay đổi nào đối với một trang web để tối đa hóa hoặc tăng kết quả của chiến lược.

57. Hạn chế của mô hình tuyến tính là gì?

  • Giả định về tính tuyến tính của các lỗi
  • Nó không thể được sử dụng cho kết quả đếm hoặc kết quả nhị phân
  • Có những vấn đề quá mức mà nó không thể giải quyết

58. Luật của số lượng lớn là gì?

Đó là một định lý mô tả kết quả của việc thực hiện cùng một thử nghiệm rất thường xuyên. Định lý này tạo thành cơ sở của tư duy theo phong cách tần số. Nó nói rằng trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu hội tụ đến những gì họ đang cố gắng ước tính.

59. & nbsp; Các biến gây nhiễu là gì?

Đây là các biến ngoại lai trong một mô hình thống kê tương quan trực tiếp hoặc nghịch đảo với cả biến phụ thuộc và biến độc lập. Ước tính không tính đến yếu tố gây nhiễu.

60. Lược đồ sao là gì?

Đó là một lược đồ cơ sở dữ liệu truyền thống với một bảng trung tâm. Bảng vệ tinh ánh xạ ID đến tên hoặc mô tả vật lý và có thể được kết nối với bảng thực tế trung tâm bằng các trường ID; Các bảng này được gọi là bảng tra cứu và chủ yếu là hữu ích trong các ứng dụng thời gian thực, vì chúng tiết kiệm rất nhiều bộ nhớ. Đôi khi, các lược đồ sao liên quan đến một số lớp tóm tắt để khôi phục thông tin nhanh hơn.

61. Làm thế nào thường xuyên một thuật toán được cập nhật?

Bạn sẽ muốn cập nhật một thuật toán khi:

  • Bạn muốn mô hình phát triển dưới dạng luồng dữ liệu thông qua cơ sở hạ tầng
  • Nguồn dữ liệu cơ bản đang thay đổi
  • Có một trường hợp không phải là địa điểm

62. & nbsp; Eigenvalue và eigenvector là gì?

Giá trị riêng là các hướng dọc theo đó một phép biến đổi tuyến tính cụ thể hoạt động bằng cách lật, nén hoặc kéo dài.

Eigenvector là để hiểu các biến đổi tuyến tính. Trong phân tích dữ liệu, chúng tôi thường tính toán các hàm riêng cho một ma trận tương quan hoặc hiệp phương sai. & NBSP;

63. Tại sao lại được lấy mẫu lại?

Việc lấy mẫu lại được thực hiện trong bất kỳ trường hợp nào trong số này:

  • Ước tính độ chính xác của số liệu thống kê mẫu bằng cách sử dụng các tập hợp con của dữ liệu có thể truy cập hoặc vẽ ngẫu nhiên bằng cách thay thế từ một tập hợp các điểm dữ liệu
  • Nhãn thay thế trên các điểm dữ liệu khi thực hiện các bài kiểm tra ý nghĩa
  • Xác thực các mô hình bằng cách sử dụng các tập hợp con ngẫu nhiên (bootstrapping, xác thực chéo)

64. Sự lựa chọn sai lệch là gì?

Sự thiên vị lựa chọn, nói chung, là một tình huống có vấn đề trong đó lỗi được đưa ra do mẫu dân số không ngẫu nhiên.

65. Các loại sai lệch có thể xảy ra trong quá trình lấy mẫu là gì?

  1. Lựa chọn sai lệch
  2. Bias dưới tính năng
  3. Thiên vị sống sót

66. Bias sống sót là gì?

Bias Survivorship là lỗi logic của việc tập trung vào các khía cạnh hỗ trợ tồn tại một quá trình và tình cờ nhìn ra những người không vì sự thiếu nổi bật của họ. Điều này có thể dẫn đến kết luận sai theo nhiều cách.

67. Làm thế nào để bạn làm việc đối với một khu rừng ngẫu nhiên?

Nguyên tắc cơ bản của kỹ thuật này là một số người học yếu kết hợp để cung cấp một người học mạnh. Các bước liên quan là:

  1. Xây dựng một số cây quyết định trên các mẫu dữ liệu đào tạo bootstrapping
  2. Trên mỗi cây, mỗi lần xem xét phân tách, một mẫu dự đoán mm ngẫu nhiên được chọn làm ứng cử viên chia ra khỏi tất cả các dự đoán PP
  3. Quy tắc của ngón tay cái: Ở mỗi lần chia m = p√m = p
  4. Dự đoán: theo quy tắc đa số

Danh sách đầy đủ này chắc chắn sẽ tăng cường sự chuẩn bị của bạn cho các câu hỏi phỏng vấn khoa học dữ liệu.

68. Sự đánh đổi sai lệch thiên vị là gì?

Xu hướng: Do việc đơn giản hóa thuật toán học máy, một lỗi xảy ra trong mô hình của chúng tôi, được gọi là sai lệch. Điều này có thể dẫn đến một vấn đề thiếu hụt và có thể dẫn đến các giả định quá mức tại thời điểm đào tạo mô hình để làm cho các chức năng mục tiêu dễ hiểu hơn và đơn giản hơn.

Một số thuật toán học máy phổ biến thấp theo thang điểm sai lệch là -

Hỗ trợ máy vector (SVM), hàng xóm k-gần nhất (KNN) và cây quyết định.

Các thuật toán cao trên thang đo thiên vị -

Hồi quy logistic và hồi quy tuyến tính.

Phương sai: Do thuật toán học máy phức tạp, một mô hình thực hiện thực sự tồi tệ trên tập dữ liệu thử nghiệm khi mô hình học được thậm chí tiếng ồn từ tập dữ liệu đào tạo. Lỗi này xảy ra trong mô hình học máy được gọi là phương sai và có thể tạo ra sự quá mức và siêu nhạy cảm trong các mô hình học máy.

Trong khi cố gắng vượt qua sự thiên vị trong mô hình của chúng tôi, chúng tôi cố gắng tăng sự phức tạp của thuật toán học máy. Mặc dù nó giúp giảm sự thiên vị, sau một điểm nhất định, nó tạo ra hiệu ứng quá mức trên mô hình do đó dẫn đến độ nhạy và phương sai cao.

Hướng dẫn data science with python simplilearn quiz answers - khoa học dữ liệu với python đơn giản hóa câu trả lời câu hỏi

Sự đánh đổi sai lệch thiên vị: Để đạt được hiệu suất tốt nhất, mục tiêu chính của thuật toán học máy được giám sát là có phương sai và sai lệch thấp. & NBSP;

Những điều sau đây được quan sát về một số thuật toán học máy phổ biến -

  • Thuật toán máy vector hỗ trợ (SVM) có phương sai cao và độ lệch thấp. Để thay đổi sự đánh đổi, chúng ta có thể tăng tham số C. Tham số C dẫn đến giảm phương sai và tăng sai lệch bằng cách ảnh hưởng đến các vi phạm ký quỹ được phép trong các bộ dữ liệu đào tạo.
  • Trái ngược với SVM, thuật toán học máy hàng xóm K-New nhất (KNN) có phương sai cao và sai lệch thấp. Để thay đổi sự đánh đổi của thuật toán này, chúng ta có thể tăng dự đoán ảnh hưởng đến hàng xóm bằng cách tăng giá trị K, do đó làm tăng độ lệch mô hình.

69. Mô tả chuỗi Markov?

Chuỗi Markov định nghĩa rằng xác suất tương lai của bang chỉ phụ thuộc vào trạng thái hiện tại của nó. & NBSP;

Chuỗi Markov thuộc loại quy trình ngẫu nhiên.

Biểu đồ dưới đây giải thích một mô hình từng bước của các chuỗi Markov có đầu ra phụ thuộc vào trạng thái hiện tại của chúng.

Một ví dụ hoàn hảo về chuỗi Markov là hệ thống khuyến nghị từ. Trong hệ thống này, mô hình nhận ra và đề xuất từ ​​tiếp theo dựa trên từ trước đó và không phải bất cứ điều gì trước đó. Các chuỗi Markov lấy các đoạn trước tương tự như các bộ dữ liệu đào tạo và tạo ra các đề xuất cho các đoạn hiện tại dựa trên từ trước.

70. Tại sao r được sử dụng trong trực quan hóa dữ liệu?

R được sử dụng rộng rãi trong trực quan hóa dữ liệu vì những lý do sau-

  • Chúng ta có thể tạo hầu hết mọi loại biểu đồ bằng R.
  • R có nhiều thư viện như Lattice, GGPlot2, tờ rơi, v.v., và rất nhiều chức năng sẵn có. & NBSP; & nbsp;
  • Nó dễ dàng hơn để tùy chỉnh đồ họa trong r so với Python.
  • R được sử dụng trong kỹ thuật tính năng và phân tích dữ liệu khám phá là tốt.

71. Sự khác biệt giữa biểu đồ hộp và biểu đồ là gì?

Tần suất của một tính năng nhất định Giá trị của các giá trị được biểu thị trực quan bằng cả hai ô hộp

và biểu đồ. & nbsp;

Boxplots thường được sử dụng hơn trong việc so sánh một số bộ dữ liệu và so sánh với biểu đồ, chiếm ít không gian hơn và chứa ít chi tiết hơn. Biểu đồ được sử dụng để biết và hiểu phân phối xác suất nằm dưới một bộ dữ liệu.

Sơ đồ trên biểu thị một hộp dữ liệu của một bộ dữ liệu.

72. NLP đại diện cho cái gì?

NLP là viết tắt để xử lý ngôn ngữ tự nhiên. Nó liên quan đến nghiên cứu về cách máy tính học một lượng lớn dữ liệu văn bản thông qua lập trình. Một vài ví dụ phổ biến về NLP là xuất phát, phân tích tình cảm, mã thông báo, loại bỏ các từ dừng, v.v.

73. Sự khác biệt giữa lỗi và lỗi dư

Sự khác biệt giữa lỗi dư và lỗi được xác định dưới đây -

Lỗi

Lỗi dư

Sự khác biệt giữa giá trị thực và giá trị dự đoán được gọi là lỗi.

Một số phương tiện phổ biến để tính toán các lỗi khoa học dữ liệu là -


  • Lỗi bình phương trung bình gốc (RMSE)

  • Lỗi tuyệt đối trung bình (MAE)

  • Lỗi bình phương trung bình (MSE)

Sự khác biệt giữa giá trị trung bình số học của một nhóm các giá trị và nhóm giá trị quan sát được gọi là lỗi dư.

Một lỗi thường không thể quan sát được.

& nbsp; có thể biểu diễn lỗi dư bằng biểu đồ.

Một lỗi dư được sử dụng để cho thấy dữ liệu dân số mẫu và dữ liệu quan sát khác nhau như thế nào.

& nbsp; Một lỗi là cách dữ liệu dân số thực tế và dữ liệu quan sát khác nhau.

74. Sự khác biệt giữa bình thường hóa và tiêu chuẩn hóa

Tiêu chuẩn hóa

Bình thường hóa

  • Kỹ thuật chuyển đổi dữ liệu theo cách mà nó thường được phân phối và có độ lệch chuẩn là 1 và trung bình là 0.
  • Kỹ thuật chuyển đổi tất cả các giá trị dữ liệu thành nằm trong khoảng từ 1 đến 0 được gọi là chuẩn hóa. Điều này còn được gọi là tỷ lệ Min-Max. & NBSP;
  • Tiêu chuẩn hóa quan tâm rằng phân phối bình thường tiêu chuẩn được theo sau bởi dữ liệu.
  • Dữ liệu quay trở lại phạm vi 0 đến 1 được chăm sóc bằng cách chuẩn hóa.
  • Công thức chuẩn hóa -

X, = (x - xmin) / (xmax - xmin)

Here,

XMIN - giá trị tối thiểu của tính năng,

XMAX - Giá trị tối đa của tính năng.


  • Công thức tiêu chuẩn hóa -

X, = (x - 𝞵) / 𝞼

75. Sự khác biệt giữa ước tính điểm và khoảng tin cậy

Khoảng tin cậy: Một loạt các giá trị có thể chứa tham số dân số được đưa ra bởi khoảng tin cậy. Hơn nữa, nó thậm chí còn cho chúng ta biết có khả năng khoảng thời gian cụ thể đó có thể chứa tham số dân số như thế nào. Hệ số niềm tin (hoặc mức độ tin cậy) được biểu thị bằng 1-alpha, mang lại xác suất hoặc sự giống nhau. Mức độ ý nghĩa được đưa ra bởi Alpha. & NBSP;

Ước tính điểm: Ước tính tham số dân số được đưa ra bởi một giá trị cụ thể gọi là ước tính điểm. Một số phương pháp phổ biến được sử dụng để lấy các tham số dân số Ước tính điểm là - công cụ ước tính khả năng tối đa và phương pháp của các khoảnh khắc.

Để kết luận, sự thiên vị và phương sai tỷ lệ nghịch với nhau, tức là, sự gia tăng sai lệch dẫn đến giảm phương sai và sự gia tăng phương sai dẫn đến giảm sai lệch.

Câu hỏi phỏng vấn khoa học dữ liệu một chọi một

Để bẻ khóa một cuộc phỏng vấn khoa học dữ liệu là không đi bộ trong công viên. Nó đòi hỏi kiến ​​thức chuyên sâu và chuyên môn trong các chủ đề khác nhau. Hơn nữa, các dự án mà bạn đã làm việc có thể tăng đáng kể tiềm năng của bạn trong rất nhiều cuộc phỏng vấn. Để giúp bạn với các cuộc phỏng vấn của bạn, chúng tôi đã biên soạn một bộ câu hỏi để bạn liên quan. Vì khoa học dữ liệu là một lĩnh vực rộng lớn, không có giới hạn về loại câu hỏi có thể được hỏi. Với điều đó đã được nói, bạn có thể trả lời từng câu hỏi này tùy thuộc vào các dự án bạn đã làm và các ngành công nghiệp bạn đã tham gia. Hãy cố gắng trả lời từng câu hỏi mẫu này và sau đó chia sẻ câu trả lời của bạn với chúng tôi thông qua các bình luận.

Mẹo chuyên nghiệp: Cho dù câu hỏi có vẻ cơ bản như thế nào, luôn luôn cố gắng xem nó từ góc độ kỹ thuật và sử dụng từng câu hỏi để thể hiện các kỹ năng và khả năng kỹ thuật độc đáo của bạn.No matter how basic a question may seem, always try to view it from a technical perspective and use each question to demonstrate your unique technical skills and abilities.

76. Thuật toán học máy yêu thích của bạn là gì và tại sao?

77. Theo bạn là kỹ năng quan trọng nhất tạo nên một nhà khoa học dữ liệu tốt?

78. Tại sao bạn nghĩ rằng khoa học dữ liệu rất phổ biến ngày hôm nay?

79. Giải thích dự án khoa học dữ liệu thách thức nhất mà bạn đã làm việc.

80. Làm thế nào để bạn thường thích làm việc trong một dự án - cá nhân, nhóm nhỏ hoặc nhóm lớn?

81. Dựa trên kinh nghiệm của bạn trong ngành, hãy cho tôi biết về 5 dự đoán hàng đầu của bạn trong 10 năm tới.

82. Một số kỹ năng độc đáo mà bạn có thể mang đến cho nhóm với tư cách là một nhà khoa học dữ liệu là gì?

83. Bạn có luôn ở trong lĩnh vực khoa học dữ liệu không? Nếu không, điều gì đã khiến bạn thay đổi con đường sự nghiệp của mình và bạn đã nâng cấp kỹ năng của mình như thế nào? & NBSP;

84. Nếu chúng tôi cung cấp cho bạn một bộ dữ liệu ngẫu nhiên, bạn sẽ tìm hiểu xem nó có phù hợp với nhu cầu kinh doanh hay không?

85. Cho một cơ hội, nếu bạn có thể chọn một sự nghiệp ngoài việc là một nhà khoa học dữ liệu, bạn sẽ chọn gì?

86. Với sự thay đổi liên tục trong lĩnh vực khoa học dữ liệu, bạn có thể thích nghi với các công nghệ mới như thế nào?

87. Bạn đã bao giờ gặp xung đột với các đồng nghiệp của mình về các chiến lược khác nhau để thực hiện một dự án? Làm thế nào bạn có thể giải quyết nó?

88. Bạn có thể phá vỡ một thuật toán bạn đã sử dụng trong một dự án gần đây không?

89. Bạn đã sử dụng những công cụ nào trong dự án cuối cùng của bạn và tại sao?

90. Hãy nghĩ về vấn đề kỹ thuật cuối cùng mà bạn đã giải quyết. Nếu bạn không có giới hạn với ngân sách dự án, điều gì sẽ là điều đầu tiên bạn sẽ làm để giải quyết vấn đề tương tự?

91. Khi bạn được chỉ định nhiều dự án cùng một lúc, bạn sẽ tổ chức thời gian tốt nhất như thế nào? & NBSP;

92. Hãy kể cho tôi nghe về một thời gian mà dự án của bạn đã đi theo kế hoạch và những gì bạn học được từ nó.

93. Bạn đã bao giờ tạo một thuật toán gốc chưa? Làm thế nào bạn đi làm điều đó và cho mục đích gì?

94. Chiến lược được ưa thích nhất của bạn để làm sạch một bộ dữ liệu lớn và tại sao?

95. Bạn có đóng góp cho bất kỳ dự án nguồn mở nào không?

Bạn có mong muốn trở thành một chuyên gia khoa học dữ liệu? Hướng dẫn nghề nghiệp này là một bài đọc hoàn hảo để giúp bạn bắt đầu trong lĩnh vực khoa học dữ liệu thịnh vượng. Tải xuống Sách điện tử ngay bây giờ!

Giữ sắc nét với các câu hỏi phỏng vấn khoa học dữ liệu của chúng tôi

Đối với các nhà khoa học dữ liệu, công việc không dễ dàng, nhưng nó rất bổ ích và có rất nhiều vị trí có sẵn ngoài kia. Những câu hỏi phỏng vấn khoa học dữ liệu này có thể giúp bạn tiến một bước gần hơn với công việc mơ ước của bạn. Vì vậy, hãy chuẩn bị cho sự khắc nghiệt của việc phỏng vấn và giữ sắc nét với các loại hạt và bu lông của khoa học dữ liệu.

Chương trình sau đại học toàn diện của SimplileArn về Khoa học dữ liệu, hợp tác với Đại học Purdue và hợp tác với IBM sẽ chuẩn bị cho bạn một trong những biên giới công nghệ thú vị nhất thế giới.