Hướng dẫn how do you split data into training and testing in python sklearn? - làm cách nào để bạn chia dữ liệu thành đào tạo và thử nghiệm trong python sklearn?

sklearn.model_selection.train_test_split (*mảng, test_size = none, trobre_size = nonetrain_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)[source]

Chia mảng hoặc ma trận thành các tập hợp con và kiểm tra ngẫu nhiên.

Tiện ích nhanh chóng kết thúc việc xác thực đầu vào và next(ShuffleSplit().split(X, y)) và ứng dụng vào dữ liệu nhập vào một cuộc gọi để phân tách (và lấy mẫu tùy chọn) trong một oneliner.

Đọc thêm trong Hướng dẫn sử dụng.User Guide.

Tham số:*Mảng phần tự chỉ mục có cùng độ dài / hình dạng [0]:*arrayssequence of indexables with same length / shape[0]

Đầu vào được phép là danh sách, mảng numpy, ma trận scipy-sparse hoặc gấu trúc dữ liệu.

test_sizefloat hoặc int, mặc định = không cófloat or int, default=None

Nếu nổi, nên nằm trong khoảng 0,0 đến 1,0 và biểu thị tỷ lệ của bộ dữ liệu để đưa vào phân tách thử nghiệm. Nếu int, đại diện cho số lượng mẫu thử nghiệm tuyệt đối. Nếu không có, giá trị được đặt thành phần bổ sung của kích thước tàu. Nếu train_size cũng không có, nó sẽ được đặt thành 0,25.

Train_SizeFloat hoặc int, mặc định = Không cófloat or int, default=None

Nếu nổi, nên nằm trong khoảng từ 0,0 đến 1,0 và biểu thị tỷ lệ của bộ dữ liệu để bao gồm trong phân chia tàu. Nếu int, đại diện cho số lượng mẫu xe lửa tuyệt đối. Nếu không có, giá trị được tự động đặt thành bổ sung cho kích thước thử nghiệm.

Random_Stateint, IndandState thể hiện hoặc không có, mặc định = khôngint, RandomState instance or None, default=None

Kiểm soát sự xáo trộn áp dụng cho dữ liệu trước khi áp dụng phân chia. Vượt qua INT cho đầu ra có thể tái tạo qua nhiều cuộc gọi chức năng. Xem Thuật ngữ.Glossary.

shufflebool, mặc định = truebool, default=True

Có hay không xáo trộn dữ liệu trước khi chia tách. Nếu shuffle = false thì stratify phải là không có.

StratifyArray-like, default = nonearray-like, default=None

Nếu không phải là không, dữ liệu được chia theo kiểu phân tầng, sử dụng điều này làm nhãn lớp. Đọc thêm trong Hướng dẫn sử dụng.User Guide.

Trả về: SPLITTHERLIST, LEGN = 2 * LEN (mảng):splittinglist, length=2 * len(arrays)

Danh sách chứa phân chia thử nghiệm đào tạo của các đầu vào.

Mới trong phiên bản 0.16: Nếu đầu vào thưa thớt, đầu ra sẽ là scipy.sparse.csr_matrix. Khác, loại đầu ra giống như loại đầu vào.If the input is sparse, the output will be a scipy.sparse.csr_matrix. Else, output type is the same as the input type.

Ví dụ

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> X, y = np.arange(10).reshape((5, 2)), range(5)
>>> X
array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])
>>> list(y)
[0, 1, 2, 3, 4]

>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, test_size=0.33, random_state=42)
...
>>> X_train
array([[4, 5],
       [0, 1],
       [6, 7]])
>>> y_train
[2, 0, 3]
>>> X_test
array([[2, 3],
       [8, 9]])
>>> y_test
[1, 4]

>>> train_test_split(y, shuffle=False)
[[0, 1, 2], [3, 4]]

Ví dụ sử dụng ________ 6¶

Làm thế nào để kiểm tra tàu phân chia công việc sklearn?

Chức năng Sklearn Train_Test_Split giúp chúng tôi tạo dữ liệu đào tạo và dữ liệu kiểm tra. Điều này là do thông thường, dữ liệu đào tạo và dữ liệu kiểm tra đến từ cùng một bộ dữ liệu gốc. Để có được dữ liệu để xây dựng một mô hình, chúng tôi bắt đầu với một bộ dữ liệu duy nhất và sau đó chúng tôi chia nó thành hai bộ dữ liệu: đào tạo và kiểm tra.To get the data to build a model, we start with a single dataset, and then we split it into two datasets: train and test.

Phương thức nào () được sử dụng trong Python để chia các bộ dữ liệu thành dữ liệu đào tạo và thử nghiệm?

Dataset Split: Thư viện Scikit-learn cung cấp cho chúng tôi mô-đun Model_Selection trong đó chúng tôi có chức năng chia tay Train_Test_Split ().Tham số: *Mảng: Các đầu vào như danh sách, mảng, khung dữ liệu hoặc ma trận.test_size: Đây là giá trị nổi có giá trị nằm trong khoảng từ 0,0 đến 1,0.train_test_split(). Parameters: *arrays: inputs such as lists, arrays, data frames, or matrices. test_size: this is a float value whose value ranges between 0.0 and 1.0.

Phân chia thử nghiệm tàu trong Python là gì?

Phân chia thử nghiệm đào tạo là một kỹ thuật để đánh giá hiệu suất của thuật toán học máy.Nó có thể được sử dụng cho các vấn đề phân loại hoặc hồi quy và có thể được sử dụng cho bất kỳ thuật toán học tập có giám sát nào.Quy trình liên quan đến việc lấy một bộ dữ liệu và chia nó thành hai tập hợp con.