Thực hiện bài kiểm tra thực hành miễn phí
Show
trang khóa học FPT Câu hỏi thường gặp
Harvard Business Review gọi nhà khoa học dữ liệu là công việc quyến rũ nhất của thế kỷ 21. Glassdoor đặt nó #1 trong danh sách 25 công việc tốt nhất trong Mỹ. Theo IBM, nhu cầu về vai trò này sẽ tăng vọt 28 % vào năm 2020. Không có gì ngạc nhiên khi trong kỷ nguyên mới của dữ liệu lớn và học máy, các nhà khoa học dữ liệu đang trở thành ngôi sao nhạc rock. Các công ty có thể tận dụng lượng dữ liệu khổng lồ để cải thiện cách họ phục vụ khách hàng, xây dựng sản phẩm và điều hành hoạt động của họ sẽ được định vị để phát triển mạnh trong nền kinh tế này. Và nếu bạn di chuyển xuống con đường trở thành một nhà khoa học dữ liệu, bạn phải chuẩn bị để gây ấn tượng với các nhà tuyển dụng tiềm năng bằng kiến thức của mình. Và để làm điều đó, bạn phải có khả năng phá vỡ cuộc phỏng vấn khoa học dữ liệu tiếp theo của bạn trong một lần! Chúng tôi đã đưa ra một danh sách các câu hỏi phỏng vấn khoa học dữ liệu phổ biến nhất mà bạn có thể mong đợi trong cuộc phỏng vấn tiếp theo của bạn! Trong bài viết này, chúng tôi đã bao gồm các câu hỏi phỏng vấn khoa học dữ liệu phổ biến nhất cho cả người mới và có kinh nghiệm. Khoa học dữ liệu kết hợp thống kê, toán học, chương trình chuyên ngành, trí tuệ nhân tạo, học máy, v.v ... Khoa học dữ liệu chỉ đơn giản là áp dụng các nguyên tắc cụ thể và kỹ thuật phân tích để trích xuất thông tin từ dữ liệu được sử dụng trong lập kế hoạch chiến lược, ra quyết định, v.v. Dữ liệu cho những hiểu biết có thể hành động. Phân tích dữ liệu sử dụng dữ liệu để vẽ những hiểu biết có ý nghĩa và giải quyết các vấn đề. Khoa học dữ liệu được sử dụng để đặt câu hỏi, viết thuật toán, mã hóa và xây dựng các mô hình thống kê. Các công cụ phân tích dữ liệu bao gồm khai thác dữ liệu, mô hình hóa dữ liệu, quản lý cơ sở dữ liệu và phân tích dữ liệu. Học máy, Hadoop, Java, Python, phát triển phần mềm, v.v., là những công cụ của khoa học dữ liệu. Sử dụng thông tin hiện có để khám phá dữ liệu hành động. Do đó, khoa học dữ liệu phát hiện ra những câu hỏi mới để thúc đẩy sự đổi mới. Kiểm tra dữ liệu từ thông tin đã cho bằng hệ thống và phần mềm chuyên dụng. Trường này sử dụng các phương pháp khoa học và thuật toán để trích xuất kiến thức từ dữ liệu phi cấu trúc. Dưới đây là danh sách các câu hỏi phỏng vấn khoa học dữ liệu phổ biến nhất về khái niệm kỹ thuật mà bạn có thể mong đợi và cách đóng khung câu trả lời của bạn. Học tập giám sát Học tập không giám sát Hồi quy logistic đo lường mối quan hệ giữa biến phụ thuộc (nhãn của chúng tôi về những gì chúng tôi muốn dự đoán) và một hoặc nhiều biến độc lập (tính năng của chúng tôi) bằng cách ước tính xác suất sử dụng hàm logistic cơ bản (SIGMoid). Hình ảnh hiển thị bên dưới mô tả cách thức hồi quy logistic hoạt động: Công thức và đồ thị cho hàm sigmoid như được hiển thị: Ví dụ: giả sử bạn muốn xây dựng một cây quyết định để quyết định xem bạn nên chấp nhận hoặc từ chối lời mời làm việc. Cây quyết định cho trường hợp này như được hiển thị: Rõ ràng từ cây quyết định rằng một đề nghị được chấp nhận nếu:
4. Làm thế nào để bạn xây dựng một mô hình rừng ngẫu nhiên?Một khu rừng ngẫu nhiên được xây dựng từ một số cây quyết định. Nếu bạn chia dữ liệu thành các gói khác nhau và tạo một cây quyết định trong mỗi nhóm dữ liệu khác nhau, khu rừng ngẫu nhiên mang tất cả những cây đó lại với nhau. Các bước để xây dựng một mô hình rừng ngẫu nhiên:
5. Làm thế nào bạn có thể tránh quá mức mô hình của bạn?Việc đặt quá mức đề cập đến một mô hình chỉ được đặt cho một lượng dữ liệu rất nhỏ và bỏ qua bức tranh lớn hơn. Có ba phương pháp chính để tránh quá mức:
6. Phân biệt giữa phân tích đơn biến, bivariate và đa biến.Đơn biếnDữ liệu đơn biến chỉ chứa một biến. Mục đích của phân tích đơn biến là mô tả dữ liệu và tìm các mẫu tồn tại trong đó. & NBSP; Ví dụ: Chiều cao của học sinh & NBSP;
Các mẫu có thể được nghiên cứu bằng cách rút ra kết luận bằng cách sử dụng trung bình, trung bình, chế độ, phân tán hoặc phạm vi, tối thiểu, tối đa, v.v. BivariateDữ liệu bivariate liên quan đến hai biến khác nhau. Việc phân tích loại dữ liệu này xử lý các nguyên nhân và mối quan hệ và phân tích được thực hiện để xác định mối quan hệ giữa hai biến. Ví dụ: Bán hàng về nhiệt độ và kem vào mùa hè
Ở đây, mối quan hệ có thể nhìn thấy từ bảng rằng nhiệt độ và doanh số tỷ lệ thuận với nhau. Nhiệt độ càng nóng, doanh số càng tốt. Đa biếnDữ liệu đa biến liên quan đến ba hoặc nhiều biến, nó được phân loại theo đa biến. Nó tương tự như một bivariate nhưng chứa nhiều hơn một biến phụ thuộc. Ví dụ: Dữ liệu cho dự đoán giá nhà & nbsp;
Các mẫu có thể được nghiên cứu bằng cách rút ra kết luận bằng cách sử dụng trung bình, trung bình và chế độ, phân tán hoặc phạm vi, tối thiểu, tối đa, v.v. Bạn có thể bắt đầu mô tả dữ liệu và sử dụng nó để đoán giá của ngôi nhà sẽ là bao nhiêu. 7. Các phương thức lựa chọn tính năng được sử dụng để chọn các biến phù hợp là gì?Có hai phương pháp chính để lựa chọn tính năng, tức là các phương thức bộ lọc và trình bao bọc. Phương pháp lọcĐiều này liên quan đến: & nbsp;
Sự tương tự tốt nhất để chọn các tính năng là "dữ liệu xấu, câu trả lời xấu." Khi chúng tôi giới hạn hoặc chọn các tính năng, tất cả chỉ là làm sạch dữ liệu. & NBSP; Phương pháp bao bọcĐiều này liên quan đến: & nbsp;
Phương pháp bao bọc Lựa chọn chuyển tiếp: Chúng tôi kiểm tra một tính năng tại một thời điểm và tiếp tục thêm chúng cho đến khi chúng tôi phù hợpLựa chọn ngược: Chúng tôi kiểm tra tất cả các tính năng và bắt đầu xóa chúng để xem những gì hoạt động tốt hơn Loại bỏ tính năng đệ quy: Nhìn đệ quy qua tất cả các tính năng khác nhau và cách chúng ghép đôi với nhau Các phương thức trình bao bọc rất tốn nhiều công sức và cần có các máy tính cao cấp nếu có nhiều phân tích dữ liệu được thực hiện với phương thức trình bao bọc. & NBSP; 8. Theo lựa chọn ngôn ngữ của bạn, hãy viết một chương trình in các số từ một đến 50. Nhưng đối với bội số của ba, in "fizz" thay vì số và đối với bội số của năm, in "buzz". Đối với các số là bội số của cả ba và năm, in "fizzbuzz" & nbsp;Các mã được hiển thị dưới đây: Lưu ý rằng phạm vi được đề cập là 51, có nghĩa là từ 0 đến 50. Tuy nhiên, phạm vi được hỏi trong câu hỏi là từ một đến 50. Do đó, trong mã trên, bạn có thể bao gồm phạm vi là (1,51). Đầu ra của mã trên như được hiển thị: 9. Bạn được cung cấp một tập dữ liệu bao gồm các biến có hơn 30 phần trăm các giá trị bị thiếu. Bạn sẽ đối phó với họ như thế nào?Sau đây là các cách để xử lý các giá trị dữ liệu bị thiếu: Nếu tập dữ liệu lớn, chúng ta chỉ cần xóa các hàng có giá trị dữ liệu bị thiếu. Đó là cách nhanh nhất; Chúng tôi sử dụng phần còn lại của dữ liệu để dự đoán các giá trị. Đối với các bộ dữ liệu nhỏ hơn, chúng ta có thể thay thế các giá trị bị thiếu bằng giá trị trung bình hoặc trung bình của phần còn lại của dữ liệu bằng khung dữ liệu của Pandas trong Python. Có nhiều cách khác nhau để làm như vậy, chẳng hạn như df.mean (), df.fillna (trung bình). 10. Đối với các điểm đã cho, bạn sẽ tính khoảng cách Euclide trong Python như thế nào? Kiểm tra video của SimpleLearn về "Câu hỏi phỏng vấn khoa học dữ liệu" được quản lý bởi các chuyên gia trong ngành để giúp bạn chuẩn bị cho một cuộc phỏng vấn. 11. Giảm chiều và lợi ích của nó là gì?Giảm kích thước đề cập đến quá trình chuyển đổi một tập dữ liệu với kích thước rộng lớn thành dữ liệu với ít kích thước hơn (trường) để truyền tải thông tin tương tự chính xác. & NBSP; Việc giảm này giúp nén dữ liệu và giảm không gian lưu trữ. Nó cũng làm giảm thời gian tính toán khi ít kích thước hơn dẫn đến ít tính toán hơn. Nó loại bỏ các tính năng dư thừa; Ví dụ: không có điểm nào trong việc lưu trữ giá trị theo hai đơn vị khác nhau (mét và inch). & nbsp; Câu hỏi và câu trả lời phỏng vấn liên quan Ai | Ml | Kỹ sư dữ liệu | Phân tích dữ liệu 12. Bạn sẽ tính toán giá trị riêng và hàm riêng của ma trận 3x3 sau đây như thế nào?Phương trình đặc trưng như thể hiện: Mở rộng yếu tố quyết định: . λ)] = 0 - 3 + 4λ2 + 27λ - 90 = 0, 3 - 4 λ2 -27 + 90 = 0 Ở đây chúng ta có một phương trình đại số được xây dựng từ các hàm riêng. Bằng cách đánh và thử nghiệm: 33 - 4 x 32 - 27 x 3 +90 = 0 Do đó, (λ - 3) là một yếu tố: 3 - 4 λ2 - 27 λ +90 = (λ - 3) (λ2 - λ - 30) Giá trị riêng là 3, -5,6: . Tính toán eigenvector cho = 3 Cho x = 1, -5 - 4y + 2z = 0, -2 - 2y + 2z = 0 Trừ hai phương trình: & nbsp; 3 + 2y = 0, Trừ trở lại phương trình thứ hai: Y = -(3/2) & nbsp; Z = -(1/2) Tương tự, chúng ta có thể tính toán các hàm riêng cho -5 và 6. 13. Làm thế nào bạn nên duy trì một mô hình được triển khai?Các bước để duy trì mô hình được triển khai là: MonitorGiám sát liên tục của tất cả các mô hình là cần thiết để xác định độ chính xác hiệu suất của chúng. Khi bạn thay đổi một cái gì đó, bạn muốn tìm ra những thay đổi của bạn sẽ ảnh hưởng đến mọi thứ như thế nào. Điều này cần được theo dõi để đảm bảo nó đang làm những gì nó phải làm. Thúc giụcCác số liệu đánh giá của mô hình hiện tại được tính toán để xác định xem thuật toán mới có cần thiết không. & NBSP; So sánhCác mô hình mới được so sánh với nhau để xác định mô hình nào thực hiện tốt nhất. & NBSP; Xây dựng lạiMô hình hiệu suất tốt nhất được xây dựng lại trên trạng thái dữ liệu hiện tại. 14. Hệ thống đề xuất là gì?Một hệ thống đề xuất dự đoán những gì người dùng sẽ đánh giá một sản phẩm cụ thể dựa trên sở thích của họ. Nó có thể được chia thành hai lĩnh vực khác nhau: Lọc cộng tácVí dụ, Last.fm khuyến nghị các bản nhạc mà những người dùng khác có cùng sở thích thường xuyên chơi. Điều này cũng thường thấy trên Amazon sau khi mua hàng; Khách hàng có thể nhận thấy tin nhắn sau cùng với các khuyến nghị của sản phẩm: "Người dùng đã mua cái này cũng đã mua" Lọc dựa trên nội dungVí dụ: Pandora sử dụng các thuộc tính của một bài hát để giới thiệu âm nhạc với các thuộc tính tương tự. Ở đây, chúng tôi nhìn vào nội dung, thay vì nhìn vào ai khác đang nghe nhạc. 15. Làm thế nào để bạn tìm thấy RMSE và MSE trong mô hình hồi quy tuyến tính?RMSE và MSE là hai trong số các biện pháp chính xác phổ biến nhất cho mô hình hồi quy tuyến tính. & NBSP; RMSE chỉ ra lỗi bình phương trung bình gốc. & Nbsp; MSE chỉ ra lỗi bình phương trung bình. 16. Làm thế nào bạn có thể chọn K cho K-MEAN? & NBSP;Chúng tôi sử dụng phương pháp khuỷu tay để chọn K cho phân cụm K-MEAN. Ý tưởng về phương pháp khuỷu tay là chạy các phương luật K trên tập dữ liệu trong đó 'K' là số lượng cụm. Trong tổng số bình phương (WSS), nó được định nghĩa là tổng khoảng cách bình phương giữa mỗi thành viên của cụm và tâm của nó. & NBSP; 17. Ý nghĩa của giá trị p là gì?Giá trị P thường ≤ 0,05 Điều này cho thấy bằng chứng mạnh mẽ chống lại giả thuyết null; Vì vậy, bạn từ chối giả thuyết null. giá trị p thường> 0,05 Điều này cho thấy bằng chứng yếu chống lại giả thuyết null, vì vậy bạn chấp nhận giả thuyết khống. & NBSP; Giá trị p ở mức cắt 0,05 & nbsp; Đây được coi là cận biên, có nghĩa là nó có thể đi một trong hai cách. 18. Làm thế nào các giá trị ngoại lệ có thể được đối xử?Bạn chỉ có thể bỏ các ngoại lệ nếu đó là giá trị rác. & NBSP; Ví dụ: Chiều cao của người lớn = ABC ft. Điều này không thể đúng, vì chiều cao không thể là giá trị chuỗi. Trong trường hợp này, các ngoại lệ có thể được loại bỏ. Nếu các ngoại lệ có giá trị cực đoan, chúng có thể được loại bỏ. Ví dụ: nếu tất cả các điểm dữ liệu được phân cụm trong khoảng từ 0 đến 10, nhưng một điểm nằm ở mức 100, thì chúng ta có thể xóa điểm này. Nếu bạn không thể bỏ các ngoại lệ, bạn có thể thử những điều sau:
19. Làm thế nào dữ liệu chuỗi thời gian có thể được khai báo là văn phòng phẩm?Đó là đứng yên khi phương sai và giá trị trung bình của chuỗi không đổi theo thời gian. & NBSP; Dưới đây là một ví dụ trực quan: & nbsp; Trong biểu đồ đầu tiên, phương sai là không đổi theo thời gian. Ở đây, x là yếu tố thời gian và y là biến. Giá trị của y đi qua cùng một điểm mọi lúc; Nói cách khác, nó là đứng yên. Trong biểu đồ thứ hai, sóng trở nên lớn hơn, điều đó có nghĩa là nó không cố định và phương sai đang thay đổi theo thời gian. 20. Làm thế nào bạn có thể tính toán độ chính xác bằng cách sử dụng ma trận nhầm lẫn?Hãy xem xét ma trận nhầm lẫn này: Bạn có thể thấy các giá trị cho tổng dữ liệu, giá trị thực và các giá trị dự đoán. Công thức chính xác là: Độ chính xác = (Đúng tích cực + Đúng tiêu cực) / Tổng quan sát = (262 + 347) / 650 = 609 /650 = 0,93 Kết quả là, chúng tôi nhận được độ chính xác 93 phần trăm. 21. Viết phương trình và tính toán độ chính xác và tỷ lệ thu hồi.Xem xét cùng một ma trận nhầm lẫn được sử dụng trong câu hỏi trước. Độ chính xác = (Đúng tích cực) / (Đúng dương + dương tính giả)) = 262 /277 = 0,94 Tỷ lệ thu hồi = (Đúng dương) / (Tổng dương + âm tính giả)) = 262 /288 = 0,90 22. 'Những người đã mua cái này cũng đã mua các đề xuất' 'được thấy trên Amazon là kết quả của thuật toán nào?Công cụ khuyến nghị được thực hiện với bộ lọc hợp tác. Lọc hợp tác giải thích hành vi của người dùng khác và lịch sử mua hàng của họ về xếp hạng, lựa chọn, v.v. & NBSP; Động cơ đưa ra dự đoán về những gì có thể quan tâm đến một người dựa trên sở thích của người dùng khác. Trong thuật toán này, các tính năng vật phẩm không rõ.
Ví dụ, một trang bán hàng cho thấy một số người nhất định mua điện thoại mới và cũng mua kính cường lực cùng một lúc. Lần tới, khi một người mua điện thoại, anh ta hoặc cô ta cũng có thể thấy một khuyến nghị để mua kính nóng tính. 23. Viết một truy vấn SQL cơ bản liệt kê tất cả các đơn đặt hàng có thông tin khách hàng.Thông thường, chúng tôi có bảng đơn hàng và bảng khách hàng có chứa các cột sau:
24. Bạn được cung cấp một bộ dữ liệu về phát hiện ung thư. Bạn đã xây dựng một mô hình phân loại và đạt được độ chính xác là 96 phần trăm. Tại sao bạn không nên hài lòng với hiệu suất mô hình của mình? Bạn có thể làm gì về nó?Phát hiện ung thư dẫn đến dữ liệu mất cân bằng. Trong một bộ dữ liệu mất cân bằng, độ chính xác không nên dựa trên thước đo hiệu suất. Điều quan trọng là tập trung vào bốn phần trăm còn lại, đại diện cho các bệnh nhân được chẩn đoán sai. Chẩn đoán sớm là rất quan trọng khi phát hiện ung thư, và có thể cải thiện đáng kể tiên lượng của bệnh nhân. Do đó, để đánh giá hiệu suất mô hình, chúng ta nên sử dụng độ nhạy (tốc độ dương thực sự), độ đặc hiệu (tốc độ âm thực), đo F để xác định hiệu suất khôn ngoan của lớp của trình phân loại. 25. Thuật toán học máy nào sau đây có thể được sử dụng để nhập các giá trị bị thiếu của cả biến phân loại và liên tục?
Thuật toán hàng xóm gần nhất có thể được sử dụng vì nó có thể tính toán hàng xóm gần nhất và nếu nó không có giá trị, nó chỉ tính toán hàng xóm gần nhất dựa trên tất cả các tính năng khác. & NBSP; Khi bạn giao dịch với K-Means phân cụm hoặc hồi quy tuyến tính, bạn cần phải làm điều đó trong quá trình xử lý trước, nếu không, chúng sẽ gặp sự cố. Cây quyết định cũng có cùng một vấn đề, mặc dù có một số phương sai. Mong muốn trở thành một nhà khoa học dữ liệu? Kiểm tra & nbsp; khóa học khoa học dữ liệu & nbsp; và được chứng nhận ngay hôm nay. 26. Dưới đây là tám giá trị thực của biến mục tiêu trong tệp tàu. Entropy của biến mục tiêu là gì?[0, 0, 0, 1, 1, 1, 1, 1] & nbsp; Chọn câu trả lời đúng.
Biến mục tiêu, trong trường hợp này, là 1. & nbsp; Công thức tính toán entropy là: Đặt p = 5 và n = 8, chúng tôi nhận được & nbsp; Entropy = a = -(5/8 log (5/8) + 3/8 log (3/8))) 27. Chúng tôi muốn dự đoán xác suất tử vong do bệnh tim dựa trên ba yếu tố nguy cơ: tuổi, giới tính và mức cholesterol trong máu. Thuật toán thích hợp nhất cho trường hợp này là gì?Chọn phương án đúng:
Thuật toán thích hợp nhất cho trường hợp này là một, hồi quy logistic. & Nbsp; 28. Sau khi nghiên cứu hành vi của dân số, bạn đã xác định được bốn loại riêng lẻ cụ thể có giá trị cho nghiên cứu của bạn. Bạn muốn tìm tất cả người dùng giống với từng loại riêng lẻ nhất. Thuật toán nào phù hợp nhất cho nghiên cứu này?Chọn phương án đúng:
Vì chúng tôi đang tìm kiếm nhóm mọi người với nhau cụ thể bởi bốn điểm tương đồng khác nhau, nó chỉ ra giá trị của k. Do đó, phân cụm K-MEAN (Trả lời A) là thuật toán phù hợp nhất cho nghiên cứu này. 29. Bạn đã chạy thuật toán Quy tắc liên kết trên bộ dữ liệu của bạn và hai quy tắc {chuối, Apple} => {Grape} và {Apple, Orange} => {Grape} đã được tìm thấy có liên quan. Điều gì khác phải là sự thật?Chọn đáp án đúng:
Câu trả lời là: {nho, táo} phải là một vật phẩm thường xuyên 30. Tổ chức của bạn có một trang web nơi khách truy cập ngẫu nhiên nhận được một trong hai phiếu giảm giá. Cũng có thể khách truy cập vào trang web sẽ không nhận được phiếu giảm giá. Bạn đã được yêu cầu xác định xem việc cung cấp phiếu giảm giá cho khách truy cập trang web có bất kỳ tác động nào đến quyết định mua hàng của họ không. Bạn nên sử dụng phương pháp phân tích nào?
Cây quyết định Vì chúng tôi đang tìm kiếm nhóm mọi người với nhau cụ thể bởi bốn điểm tương đồng khác nhau, nó chỉ ra giá trị của k. Do đó, phân cụm K-MEAN (Trả lời A) là thuật toán phù hợp nhất cho nghiên cứu này.
Chọn đáp án đúng: {chuối, táo, nho, cam} phải là vật phẩm thường xuyên TPR=TP/TP+FN
{Grape} => {chuối, Apple} phải là một quy tắc có liên quan {chuối, táo, nho, cam} phải là vật phẩm thường xuyên FPR=FP/TN+FP {chuối, táo} => {cam} phải là một quy tắc có liên quan{Grape} => {chuối, Apple} phải là một quy tắc có liên quan {nho, táo} phải là một vật phẩm thường xuyên Câu trả lời là: {nho, táo} phải là một vật phẩm thường xuyên 30. Tổ chức của bạn có một trang web nơi khách truy cập ngẫu nhiên nhận được một trong hai phiếu giảm giá. Cũng có thể khách truy cập vào trang web sẽ không nhận được phiếu giảm giá. Bạn đã được yêu cầu xác định xem việc cung cấp phiếu giảm giá cho khách truy cập trang web có bất kỳ tác động nào đến quyết định mua hàng của họ không. Bạn nên sử dụng phương pháp phân tích nào? ANOVA & NBSP một chiều;Quy tắc hiệp hội & NBSP; T-Test của sinh viên & NBSP;Câu trả lời là A: ANOVA một chiều 31. Bạn hiểu gì về tỷ lệ tích cực thực sự và tỷ lệ dương tính giả? Tỷ lệ dương thực sự (TPR) xác định xác suất mà một dương tính thực tế sẽ hóa ra là dương. & NBSP;Tỷ lệ dương tính thực (TPR) thực sự được tính bằng cách lấy tỷ lệ của [dương tính thực (TP)] và [Đúng dương tính (TP) & phủ định sai (FN)]. & NBSP; Công thức cho cùng được nêu dưới đây -Tỷ lệ dương tính giả (FPR) xác định xác suất rằng kết quả âm tính thực tế sẽ được hiển thị dưới dạng dương tính, tức là xác suất mô hình sẽ tạo ra báo động sai. & NBSP; Tỷ lệ dương tính giả (FPR) được tính bằng cách lấy tỷ lệ của [dương tính giả (FP)] và [dương tính thực sự (TP) & dương tính giả (FP)]. Bảng định dạng dài:
Bảng định dạng rộng:
CHIỀU CAOBảng định dạng rộng: 37. Đề cập đến một số kỹ thuật được sử dụng để lấy mẫu. Ưu điểm chính của việc lấy mẫu là gì?Lấy mẫu là lựa chọn các thành viên cá nhân hoặc một tập hợp con của dân số để ước tính các nhân vật của toàn bộ dân số. Có hai loại lấy mẫu, cụ thể là xác suất và lấy mẫu không xác suất. 38. Tại sao Python được sử dụng để làm sạch dữ liệu trong DS?Các nhà khoa học dữ liệu và các nhà phân tích kỹ thuật phải chuyển đổi một lượng dữ liệu khổng lồ thành dữ liệu hiệu quả. Làm sạch dữ liệu bao gồm loại bỏ các bản ghi Malwared, Outliners, giá trị không nhất quán, định dạng dự phòng, v.v. Matplotlib, Pandas, vv là những chất tẩy rửa dữ liệu Python được sử dụng nhiều nhất.
LibrosaMatplotlib 40. Phương sai trong khoa học dữ liệu là gì?Phương sai là giá trị mô tả các số liệu riêng lẻ trong một tập hợp dữ liệu tự phân phối về giá trị trung bình và mô tả sự khác biệt của từng giá trị so với giá trị trung bình. Các nhà khoa học dữ liệu sử dụng phương sai để hiểu sự phân phối của một tập dữ liệu. 41. Cắt tỉa trong thuật toán cây quyết định là gì?Trong khoa học dữ liệu và học máy, cắt tỉa là một kỹ thuật liên quan đến cây quyết định. Cắt tỉa đơn giản hóa cây quyết định bằng cách giảm các quy tắc. Cắt tỉa giúp tránh sự phức tạp và cải thiện độ chính xác. Giảm cắt tỉa lỗi, cắt tỉa phức tạp chi phí, vv là các loại cắt tỉa khác nhau. 42. Entropy trong thuật toán cây quyết định là gì?Entropy là thước đo của sự ngẫu nhiên hoặc rối loạn trong nhóm các quan sát. Nó cũng xác định cách một cây quyết định chuyển sang phân chia dữ liệu. Entropy cũng được sử dụng để kiểm tra tính đồng nhất của dữ liệu đã cho. Nếu entropy bằng không, thì mẫu dữ liệu hoàn toàn đồng nhất và nếu entropy là một, thì nó chỉ ra rằng mẫu được chia đều như nhau. 43. Thông tin nào có được trong thuật toán cây quyết định?Thu nhập thông tin là giảm dự kiến trong entropy. Thông tin đạt được quyết định xây dựng cây. Thu nhập thông tin làm cho cây quyết định thông minh hơn. Thu nhập thông tin bao gồm nút cha R và một bộ E của các ví dụ đào tạo K. Nó tính toán sự khác biệt giữa entropy trước và sau khi chia. 44. Xử lý chéo K-Fold là gì?Xác thực chéo K-gấp là một quy trình được sử dụng để ước tính kỹ năng của mô hình trong dữ liệu mới. Trong xác thực chéo gấp K, mọi quan sát từ bộ dữ liệu ban đầu có thể xuất hiện trong tập huấn luyện và thử nghiệm. Xác thực chéo K-gấp ước tính độ chính xác nhưng không giúp bạn cải thiện độ chính xác. 45. Phân phối bình thường là gì?Phân phối bình thường còn được gọi là phân phối Gaussian. Phân phối bình thường cho thấy dữ liệu gần giá trị trung bình và tần suất của dữ liệu cụ thể đó. Khi được biểu diễn ở dạng đồ họa, phân phối bình thường xuất hiện giống như một đường cong chuông. Các tham số bao gồm trong phân phối bình thường là trung bình, độ lệch chuẩn, trung bình, v.v. 46. Học sâu là gì?Học sâu là một trong những yếu tố thiết yếu trong khoa học dữ liệu, bao gồm cả thống kê. Học sâu làm cho chúng ta làm việc chặt chẽ hơn với bộ não con người và đáng tin cậy với những suy nghĩ của con người. Các thuật toán được tạo ra chân thành để giống với bộ não con người. Trong học tập sâu, nhiều lớp được hình thành từ đầu vào thô để trích xuất lớp cấp cao với các tính năng tốt nhất. 47. RNN (mạng thần kinh tái phát) là gì?RNN là một thuật toán sử dụng dữ liệu tuần tự. RNN được sử dụng trong dịch ngôn ngữ, nhận dạng giọng nói, chụp ảnh, v.v. RNN được sử dụng trong tìm kiếm giọng nói của Google và Apple Sir Siri. Câu hỏi phỏng vấn khoa học dữ liệu cơ bảnHãy để chúng tôi bắt đầu với một vài câu hỏi phỏng vấn khoa học dữ liệu cơ bản! 48. Các vectơ tính năng là gì?
50. Phân tích nguyên nhân gốc là gì?Phân tích nguyên nhân gốc ban đầu được phát triển để phân tích tai nạn công nghiệp nhưng hiện được sử dụng rộng rãi trong các lĩnh vực khác. Nó là một kỹ thuật giải quyết vấn đề được sử dụng để cô lập nguyên nhân gốc của lỗi hoặc vấn đề. Một yếu tố được gọi là nguyên nhân gốc rễ nếu sự khấu trừ của nó từ chuỗi lỗi có vấn đề ngăn chặn sự kiện không mong muốn cuối cùng khỏi tái phát. 51. Hồi quy logistic là gì?Hồi quy logistic còn được gọi là mô hình logit. Nó là một kỹ thuật được sử dụng để dự báo kết quả nhị phân từ sự kết hợp tuyến tính của các biến dự đoán. 52. Hệ thống đề xuất là gì?Các hệ thống đề xuất là một lớp con của các hệ thống lọc thông tin nhằm dự đoán các ưu tiên hoặc xếp hạng mà người dùng sẽ cung cấp cho sản phẩm. 53. Giải thích xác thực chéo.Xác nhận chéo là một kỹ thuật xác nhận mô hình để đánh giá cách kết quả của phân tích thống kê sẽ khái quát thành một tập dữ liệu độc lập. Nó chủ yếu được sử dụng trong các nền trong đó mục tiêu là dự báo và người ta muốn ước tính mức độ chính xác của một mô hình sẽ thực hiện trong thực tế. & NBSP; Mục tiêu của xác thực chéo là thuật ngữ một tập dữ liệu để kiểm tra mô hình trong giai đoạn đào tạo (nghĩa là tập dữ liệu xác thực) để hạn chế các vấn đề như quá mức và hiểu rõ hơn về cách mô hình sẽ khái quát thành một tập dữ liệu độc lập. 54. Lọc hợp tác là gì?Hầu hết các hệ thống đề xuất sử dụng quy trình lọc này để tìm các mẫu và thông tin bằng cách hợp tác các quan điểm, nhiều nguồn dữ liệu và một số tác nhân. 55. Phương pháp gốc gradient có luôn hội tụ đến các điểm tương tự không?Họ không, bởi vì trong một số trường hợp, họ đạt đến một cực tiểu cục bộ hoặc điểm tối ưu cục bộ. Bạn sẽ không đạt đến điểm tối ưu toàn cầu. Điều này được điều chỉnh bởi dữ liệu và các điều kiện bắt đầu. 56. Mục tiêu của thử nghiệm A/B là gì?Đây là thử nghiệm giả thuyết thống kê cho các thí nghiệm ngẫu nhiên với hai biến, A và B. Mục tiêu của thử nghiệm A/B là phát hiện bất kỳ thay đổi nào đối với một trang web để tối đa hóa hoặc tăng kết quả của chiến lược. 57. Hạn chế của mô hình tuyến tính là gì?
58. Luật của số lượng lớn là gì?Đó là một định lý mô tả kết quả của việc thực hiện cùng một thử nghiệm rất thường xuyên. Định lý này tạo thành cơ sở của tư duy theo phong cách tần số. Nó nói rằng trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu hội tụ đến những gì họ đang cố gắng ước tính. 59. & nbsp; Các biến gây nhiễu là gì?Đây là các biến ngoại lai trong một mô hình thống kê tương quan trực tiếp hoặc nghịch đảo với cả biến phụ thuộc và biến độc lập. Ước tính không tính đến yếu tố gây nhiễu. 60. Lược đồ sao là gì?Đó là một lược đồ cơ sở dữ liệu truyền thống với một bảng trung tâm. Bảng vệ tinh ánh xạ ID đến tên hoặc mô tả vật lý và có thể được kết nối với bảng thực tế trung tâm bằng các trường ID; Các bảng này được gọi là bảng tra cứu và chủ yếu là hữu ích trong các ứng dụng thời gian thực, vì chúng tiết kiệm rất nhiều bộ nhớ. Đôi khi, các lược đồ sao liên quan đến một số lớp tóm tắt để khôi phục thông tin nhanh hơn. 61. Làm thế nào thường xuyên một thuật toán được cập nhật?Bạn sẽ muốn cập nhật một thuật toán khi:
62. & nbsp; Eigenvalue và eigenvector là gì?Giá trị riêng là các hướng dọc theo đó một phép biến đổi tuyến tính cụ thể hoạt động bằng cách lật, nén hoặc kéo dài. Eigenvector là để hiểu các biến đổi tuyến tính. Trong phân tích dữ liệu, chúng tôi thường tính toán các hàm riêng cho một ma trận tương quan hoặc hiệp phương sai. & NBSP; 63. Tại sao lại được lấy mẫu lại?Việc lấy mẫu lại được thực hiện trong bất kỳ trường hợp nào trong số này:
64. Sự lựa chọn sai lệch là gì?Sự thiên vị lựa chọn, nói chung, là một tình huống có vấn đề trong đó lỗi được đưa ra do mẫu dân số không ngẫu nhiên. 65. Các loại sai lệch có thể xảy ra trong quá trình lấy mẫu là gì?
66. Bias sống sót là gì?Bias Survivorship là lỗi logic của việc tập trung vào các khía cạnh hỗ trợ tồn tại một quá trình và tình cờ nhìn ra những người không vì sự thiếu nổi bật của họ. Điều này có thể dẫn đến kết luận sai theo nhiều cách. 67. Làm thế nào để bạn làm việc đối với một khu rừng ngẫu nhiên?Nguyên tắc cơ bản của kỹ thuật này là một số người học yếu kết hợp để cung cấp một người học mạnh. Các bước liên quan là:
Danh sách đầy đủ này chắc chắn sẽ tăng cường sự chuẩn bị của bạn cho các câu hỏi phỏng vấn khoa học dữ liệu. 68. Sự đánh đổi sai lệch thiên vị là gì?Xu hướng: Do việc đơn giản hóa thuật toán học máy, một lỗi xảy ra trong mô hình của chúng tôi, được gọi là sai lệch. Điều này có thể dẫn đến một vấn đề thiếu hụt và có thể dẫn đến các giả định quá mức tại thời điểm đào tạo mô hình để làm cho các chức năng mục tiêu dễ hiểu hơn và đơn giản hơn. Một số thuật toán học máy phổ biến thấp theo thang điểm sai lệch là - Hỗ trợ máy vector (SVM), hàng xóm k-gần nhất (KNN) và cây quyết định. Các thuật toán cao trên thang đo thiên vị - Hồi quy logistic và hồi quy tuyến tính. Phương sai: Do thuật toán học máy phức tạp, một mô hình thực hiện thực sự tồi tệ trên tập dữ liệu thử nghiệm khi mô hình học được thậm chí tiếng ồn từ tập dữ liệu đào tạo. Lỗi này xảy ra trong mô hình học máy được gọi là phương sai và có thể tạo ra sự quá mức và siêu nhạy cảm trong các mô hình học máy. Trong khi cố gắng vượt qua sự thiên vị trong mô hình của chúng tôi, chúng tôi cố gắng tăng sự phức tạp của thuật toán học máy. Mặc dù nó giúp giảm sự thiên vị, sau một điểm nhất định, nó tạo ra hiệu ứng quá mức trên mô hình do đó dẫn đến độ nhạy và phương sai cao. Sự đánh đổi sai lệch thiên vị: Để đạt được hiệu suất tốt nhất, mục tiêu chính của thuật toán học máy được giám sát là có phương sai và sai lệch thấp. & NBSP; Những điều sau đây được quan sát về một số thuật toán học máy phổ biến -
69. Mô tả chuỗi Markov?Chuỗi Markov định nghĩa rằng xác suất tương lai của bang chỉ phụ thuộc vào trạng thái hiện tại của nó. & NBSP; Chuỗi Markov thuộc loại quy trình ngẫu nhiên. Biểu đồ dưới đây giải thích một mô hình từng bước của các chuỗi Markov có đầu ra phụ thuộc vào trạng thái hiện tại của chúng. Một ví dụ hoàn hảo về chuỗi Markov là hệ thống khuyến nghị từ. Trong hệ thống này, mô hình nhận ra và đề xuất từ tiếp theo dựa trên từ trước đó và không phải bất cứ điều gì trước đó. Các chuỗi Markov lấy các đoạn trước tương tự như các bộ dữ liệu đào tạo và tạo ra các đề xuất cho các đoạn hiện tại dựa trên từ trước. 70. Tại sao r được sử dụng trong trực quan hóa dữ liệu?R được sử dụng rộng rãi trong trực quan hóa dữ liệu vì những lý do sau-
71. Sự khác biệt giữa biểu đồ hộp và biểu đồ là gì?Tần suất của một tính năng nhất định Giá trị của các giá trị được biểu thị trực quan bằng cả hai ô hộp và biểu đồ. & nbsp; Boxplots thường được sử dụng hơn trong việc so sánh một số bộ dữ liệu và so sánh với biểu đồ, chiếm ít không gian hơn và chứa ít chi tiết hơn. Biểu đồ được sử dụng để biết và hiểu phân phối xác suất nằm dưới một bộ dữ liệu. Sơ đồ trên biểu thị một hộp dữ liệu của một bộ dữ liệu. 72. NLP đại diện cho cái gì?NLP là viết tắt để xử lý ngôn ngữ tự nhiên. Nó liên quan đến nghiên cứu về cách máy tính học một lượng lớn dữ liệu văn bản thông qua lập trình. Một vài ví dụ phổ biến về NLP là xuất phát, phân tích tình cảm, mã thông báo, loại bỏ các từ dừng, v.v. 73. Sự khác biệt giữa lỗi và lỗi dưSự khác biệt giữa lỗi dư và lỗi được xác định dưới đây -
74. Sự khác biệt giữa bình thường hóa và tiêu chuẩn hóa
75. Sự khác biệt giữa ước tính điểm và khoảng tin cậyKhoảng tin cậy: Một loạt các giá trị có thể chứa tham số dân số được đưa ra bởi khoảng tin cậy. Hơn nữa, nó thậm chí còn cho chúng ta biết có khả năng khoảng thời gian cụ thể đó có thể chứa tham số dân số như thế nào. Hệ số niềm tin (hoặc mức độ tin cậy) được biểu thị bằng 1-alpha, mang lại xác suất hoặc sự giống nhau. Mức độ ý nghĩa được đưa ra bởi Alpha. & NBSP; Ước tính điểm: Ước tính tham số dân số được đưa ra bởi một giá trị cụ thể gọi là ước tính điểm. Một số phương pháp phổ biến được sử dụng để lấy các tham số dân số Ước tính điểm là - công cụ ước tính khả năng tối đa và phương pháp của các khoảnh khắc. Để kết luận, sự thiên vị và phương sai tỷ lệ nghịch với nhau, tức là, sự gia tăng sai lệch dẫn đến giảm phương sai và sự gia tăng phương sai dẫn đến giảm sai lệch. Câu hỏi phỏng vấn khoa học dữ liệu một chọi mộtĐể bẻ khóa một cuộc phỏng vấn khoa học dữ liệu là không đi bộ trong công viên. Nó đòi hỏi kiến thức chuyên sâu và chuyên môn trong các chủ đề khác nhau. Hơn nữa, các dự án mà bạn đã làm việc có thể tăng đáng kể tiềm năng của bạn trong rất nhiều cuộc phỏng vấn. Để giúp bạn với các cuộc phỏng vấn của bạn, chúng tôi đã biên soạn một bộ câu hỏi để bạn liên quan. Vì khoa học dữ liệu là một lĩnh vực rộng lớn, không có giới hạn về loại câu hỏi có thể được hỏi. Với điều đó đã được nói, bạn có thể trả lời từng câu hỏi này tùy thuộc vào các dự án bạn đã làm và các ngành công nghiệp bạn đã tham gia. Hãy cố gắng trả lời từng câu hỏi mẫu này và sau đó chia sẻ câu trả lời của bạn với chúng tôi thông qua các bình luận. Mẹo chuyên nghiệp: Cho dù câu hỏi có vẻ cơ bản như thế nào, luôn luôn cố gắng xem nó từ góc độ kỹ thuật và sử dụng từng câu hỏi để thể hiện các kỹ năng và khả năng kỹ thuật độc đáo của bạn.No matter how basic a question may seem, always try to view it from a technical perspective and use each question to demonstrate your unique technical skills and abilities. 76. Thuật toán học máy yêu thích của bạn là gì và tại sao? 77. Theo bạn là kỹ năng quan trọng nhất tạo nên một nhà khoa học dữ liệu tốt? 78. Tại sao bạn nghĩ rằng khoa học dữ liệu rất phổ biến ngày hôm nay? 79. Giải thích dự án khoa học dữ liệu thách thức nhất mà bạn đã làm việc. 80. Làm thế nào để bạn thường thích làm việc trong một dự án - cá nhân, nhóm nhỏ hoặc nhóm lớn? 81. Dựa trên kinh nghiệm của bạn trong ngành, hãy cho tôi biết về 5 dự đoán hàng đầu của bạn trong 10 năm tới. 82. Một số kỹ năng độc đáo mà bạn có thể mang đến cho nhóm với tư cách là một nhà khoa học dữ liệu là gì? 83. Bạn có luôn ở trong lĩnh vực khoa học dữ liệu không? Nếu không, điều gì đã khiến bạn thay đổi con đường sự nghiệp của mình và bạn đã nâng cấp kỹ năng của mình như thế nào? & NBSP; 84. Nếu chúng tôi cung cấp cho bạn một bộ dữ liệu ngẫu nhiên, bạn sẽ tìm hiểu xem nó có phù hợp với nhu cầu kinh doanh hay không? 85. Cho một cơ hội, nếu bạn có thể chọn một sự nghiệp ngoài việc là một nhà khoa học dữ liệu, bạn sẽ chọn gì? 86. Với sự thay đổi liên tục trong lĩnh vực khoa học dữ liệu, bạn có thể thích nghi với các công nghệ mới như thế nào? 87. Bạn đã bao giờ gặp xung đột với các đồng nghiệp của mình về các chiến lược khác nhau để thực hiện một dự án? Làm thế nào bạn có thể giải quyết nó? 88. Bạn có thể phá vỡ một thuật toán bạn đã sử dụng trong một dự án gần đây không? 89. Bạn đã sử dụng những công cụ nào trong dự án cuối cùng của bạn và tại sao? 90. Hãy nghĩ về vấn đề kỹ thuật cuối cùng mà bạn đã giải quyết. Nếu bạn không có giới hạn với ngân sách dự án, điều gì sẽ là điều đầu tiên bạn sẽ làm để giải quyết vấn đề tương tự? 91. Khi bạn được chỉ định nhiều dự án cùng một lúc, bạn sẽ tổ chức thời gian tốt nhất như thế nào? & NBSP; 92. Hãy kể cho tôi nghe về một thời gian mà dự án của bạn đã đi theo kế hoạch và những gì bạn học được từ nó. 93. Bạn đã bao giờ tạo một thuật toán gốc chưa? Làm thế nào bạn đi làm điều đó và cho mục đích gì? 94. Chiến lược được ưa thích nhất của bạn để làm sạch một bộ dữ liệu lớn và tại sao? 95. Bạn có đóng góp cho bất kỳ dự án nguồn mở nào không? Bạn có mong muốn trở thành một chuyên gia khoa học dữ liệu? Hướng dẫn nghề nghiệp này là một bài đọc hoàn hảo để giúp bạn bắt đầu trong lĩnh vực khoa học dữ liệu thịnh vượng. Tải xuống Sách điện tử ngay bây giờ! Giữ sắc nét với các câu hỏi phỏng vấn khoa học dữ liệu của chúng tôiĐối với các nhà khoa học dữ liệu, công việc không dễ dàng, nhưng nó rất bổ ích và có rất nhiều vị trí có sẵn ngoài kia. Những câu hỏi phỏng vấn khoa học dữ liệu này có thể giúp bạn tiến một bước gần hơn với công việc mơ ước của bạn. Vì vậy, hãy chuẩn bị cho sự khắc nghiệt của việc phỏng vấn và giữ sắc nét với các loại hạt và bu lông của khoa học dữ liệu. Chương trình sau đại học toàn diện của SimplileArn về Khoa học dữ liệu, hợp tác với Đại học Purdue và hợp tác với IBM sẽ chuẩn bị cho bạn một trong những biên giới công nghệ thú vị nhất thế giới. |