Hướng dẫn create dummy dataset python - tạo tập dữ liệu giả python

Bài viết này giải thích nhiều cách khác nhau để tạo dữ liệu giả hoặc ngẫu nhiên trong Python để thực hành. Giống như R, chúng ta có thể tạo các khung dữ liệu giả bằng gấu trúc và các gói numpy. Hầu hết các nhà phân tích chuẩn bị dữ liệu trong MS Excel. Sau đó, họ nhập nó vào Python để trau dồi kỹ năng gây tranh cãi dữ liệu của họ trong Python. Đây không phải là một cách tiếp cận hiệu quả. Cách tiếp cận hiệu quả là chuẩn bị dữ liệu ngẫu nhiên trong Python và sử dụng nó sau để thao tác dữ liệu.

Nội dung chính Show

1. Nhập dữ liệu theo cách thủ công trong cửa sổ Trình chỉnh sửa
2. Read Data from Clipboard
3. Entering Data into Python like SAS
4. Chuẩn bị dữ liệu bằng cách sử dụng chuỗi các giá trị số và ký tự
5. Tạo dữ liệu ngẫu nhiên
6. Create Categorical Variables
7. Nhập tệp CSV hoặc Excel

1. Nhập dữ liệu theo cách thủ công trong cửa sổ Trình chỉnh sửa

Bước đầu tiên là tải gói pandas và sử dụng

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

5Function

import pandas as pd
data = pd.DataFrame({"A" : ["John","Deep","Julia","Kate","Sandy"], 
                     "MonthSales" : [25,30,35,40,45]})

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

Lưu ý: Giá trị ký tự phải được xác định trong trích dẫn đơn hoặc đôi. Character values should be defined in single or double quotes.

Nếu bạn nhận thấy cú pháp của Pandas DataFrame, các cột và giá trị hàng được xác định trong từ điển. Nếu bạn hiểu khái niệm từ điển, bạn sẽ không cần phải thêm nơi để thêm

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

6 và

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

Cú pháp của DataFrame: PD.DataFrame (Từ điển)

d = {"A" : ["John","Deep","Julia","Kate","Sandy"], 
                     "MonthSales" : [25,30,35,40,45]}
pd.DataFrame(d)

2. Đọc dữ liệu từ Clipboard

2. Read Data from Clipboard

Nói chung, MS Excel là công cụ báo cáo yêu thích của các nhà phân tích, đặc biệt là khi tạo ra dữ liệu giả. Mọi người thường thích nhập dữ liệu vào Excel và dán nó vào Python để tạo khung dữ liệu. Trong Pandas, có một tùy chọn để nhập dữ liệu từ Clipboard (tức là dữ liệu được sao chép) bằng hàm read_clipboard () từ gói gandas.read_clipboard( ) function from pandas package.

Đọc dữ liệu được sao chép trong Python

import pandas as pd
df = pd.read_clipboard()

   Name  Score Section
0     W     26       A
1     M     62       A
2     Q     69       A
3     Y     86       A
4     J     16       B
5     A     83       B
6     O     53       D
7     C     35       D
8     S     68       D
9     P     98       D
10    Q     42       E

3. Nhập dữ liệu vào Python như SAS

3. Entering Data into Python like SAS

Tương tự như SAS, chúng ta có thể nhập dữ liệu vào cửa sổ Trình chỉnh sửa với Delimiter hoặc Diactor. Chúng ta có thể sử dụng bất kỳ dấu phân cách nào - dấu phẩy, không gian, tab, v.v.

import pandas as pd
from pandas.compat import StringIO

text = """
Name,Score,Section
W,26,A
M,62,A
Q,69,A
"""
df =pd.read_csv(StringIO(text))

import pandas as pd
from pandas.compat import StringIO

text = """
Name Score Section
W 26 A
M 62 A
Q 69 A
"""

df =pd.read_csv(StringIO(text), sep="\s+")

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

8 có nghĩa là một hoặc nhiều không gian dưới dạng phân tách tại thời điểm đọc dữ liệu.

4. Chuẩn bị dữ liệu bằng cách sử dụng chuỗi các giá trị số và ký tự

Chúng ta hãy nhập hai gói Python phổ biến cho tác vụ này - Chuỗi và Numpy. Chuỗi gói được sử dụng để tạo ra loạt bảng chữ cái. Trong khi gói numpy được sử dụng để tạo chuỗi các số được tăng lên bởi một giá trị cụ thể.string is used to generate series of alphabets. Whereas numpy package is used to generate sequence of numbers incremented by a specific value.

import pandas as pd
import string
import numpy as np
data2 = pd.DataFrame({"A": np.arange(1,10,2),
                     "B" : list(string.ascii_lowercase)[0:5],
                     })

Giải thích 1.

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

9 bảo Python tạo ra các giá trị trong khoảng từ 1 đến 10, tăng lên 2. 2 .____ ____ 20 Trả về abcdefghijklmnopqrstuvwxyz. Danh sách (String.ascii_LowerCase) [0: 5] được sử dụng để chọn 5 chữ cái đầu tiên.
1.

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

9 tells python to generate values between 1 and 10, incremented by 2.
2.

d = {"A" : ["John","Deep","Julia","Kate","Sandy"], 
                     "MonthSales" : [25,30,35,40,45]}
pd.DataFrame(d)

0 returns abcdefghijklmnopqrstuvwxyz. list(string.ascii_lowercase)[0:5] is used to pick first 5 letters.

5. Tạo dữ liệu ngẫu nhiên

Trong Numpy, có nhiều chức năng để tạo ra các giá trị ngẫu nhiên. Hai hàm ngẫu nhiên phổ biến nhất là

d = {"A" : ["John","Deep","Julia","Kate","Sandy"], 
                     "MonthSales" : [25,30,35,40,45]}
pd.DataFrame(d)

1 và

d = {"A" : ["John","Deep","Julia","Kate","Sandy"], 
                     "MonthSales" : [25,30,35,40,45]}
pd.DataFrame(d)

import pandas as pd
import numpy as np
np.random.seed(1)
data3 = pd.DataFrame({"C" : np.random.randint(low=1, high=100, size=10),
                     "D"  : np.random.normal(0.0, 1.0, size=10)
                     })

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

Giải thích

d = {"A" : ["John","Deep","Julia","Kate","Sandy"], 
                     "MonthSales" : [25,30,35,40,45]}
pd.DataFrame(d)

3 bảo Python tạo ra cùng một giá trị ngẫu nhiên với hạt giống này khi bạn chạy nó vào lần tới.
d = {"A" : ["John","Deep","Julia","Kate","Sandy"], "MonthSales" : [25,30,35,40,45]} pd.DataFrame(d)
4 Trả về 10 giá trị ngẫu nhiên trong khoảng từ 1 đến 100.
d = {"A" : ["John","Deep","Julia","Kate","Sandy"], "MonthSales" : [25,30,35,40,45]} pd.DataFrame(d)
5 trả về 10 giá trị ngẫu nhiên sau phân phối bình thường tiêu chuẩn có trung bình 0 và độ lệch chuẩn 1.

d = {"A" : ["John","Deep","Julia","Kate","Sandy"], 
                     "MonthSales" : [25,30,35,40,45]}
pd.DataFrame(d)

3 tells python to generate same random values with this seed when you run it next time.

d = {"A" : ["John","Deep","Julia","Kate","Sandy"], 
                     "MonthSales" : [25,30,35,40,45]}
pd.DataFrame(d)

4 returns 10 random values between 1 and 100.

d = {"A" : ["John","Deep","Julia","Kate","Sandy"], 
                     "MonthSales" : [25,30,35,40,45]}
pd.DataFrame(d)

5 returns 10 random values following standard normal distribution having mean 0 and standard deviation 1.

Kiểm tra mức trung bình và độ lệch chuẩn của phân phối bình thường

np.round (np.std (np.random.nquaral (0,0, 1.0, size = 1000)))
np.round(np.mean(np.random.normal(0.0,1.0, size=1000)))

Tạo nhiều hơn 1 biến ngẫu nhiên với một hàm duy nhất ____26 bảo Python tạo 6 giá trị ngẫu nhiên từ "phân phối bình thường tiêu chuẩn" trong 4 cột

d = {"A" : ["John","Deep","Julia","Kate","Sandy"], 
                     "MonthSales" : [25,30,35,40,45]}
pd.DataFrame(d)

6 tells Python to generate 6 random values from the "standard normal distribution" in 4 columns

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

2 6. Tạo các biến phân loại

6. Create Categorical Variables

Trong bước này, chúng tôi sẽ tạo hai loại biến phân loại:

Danh mục từ 1 đến 4
Biến nhị phân (0/1)

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

       A  MonthSales
0   John          25
1   Deep          30
2  Julia          35
3   Kate          40
4  Sandy          45

Giải trình

np.random.choice (phạm vi (1,5), 20, thay thế = true) có nghĩa là tạo 20 giá trị từ 1 đến 4 (không bao gồm 5) với sự thay thế (nghĩa là các giá trị lặp đi lặp lại).means generating 20 values from 1 to 4 (excluding 5) with replacement (i.e. repeated values).
np.where(np.random.normal(size=20)implies if random value is either zero or negative, make it 0. Otherwise 1. np.where( ) is used to construct IF-ELSE statement in python.

Giống như hàm R của R (), bạn có thể định nghĩa (các) biến là biến phân loại. Xem mã bên dưới.

data4.x & nbsp; = data4.x.aSype ("Category") data4.x1 = data4.x1.Arype ("danh mục")
data4.X1 = data4.X1.astype("category")

7. Nhập tệp CSV hoặc Excel

Sử dụng các hàm gấu trúc Read_csv () và read_excel (), bạn có thể đọc dữ liệu từ Excel hoặc CSV đến Python.read_csv( ) and read_excel( ) functions, you can read data from excel or CSV to Python.

Nhập gấu trúc dưới dạng pd mydata = pd.read_csv ("c: \\ users \\ deepanshu \\ samplefile.csv") mydata = pd.read_excel ("C: \\ users \\ Deepanshu
mydata= pd.read_csv("C:\\Users\\Deepanshu\\samplefile.csv")
mydata = pd.read_excel("C:\\Users\\Deepanshu\\samplefile.xlsx")