Bài viết này giải thích nhiều cách khác nhau để tạo dữ liệu giả hoặc ngẫu nhiên trong Python để thực hành. Giống như R, chúng ta có thể tạo các khung dữ liệu giả bằng gấu trúc và các gói numpy. Hầu hết các nhà phân tích chuẩn bị dữ liệu trong MS Excel. Sau đó, họ nhập nó vào Python để trau dồi kỹ năng gây tranh cãi dữ liệu của họ trong Python. Đây không phải là một cách tiếp cận hiệu quả. Cách tiếp cận hiệu quả là chuẩn bị dữ liệu ngẫu nhiên trong Python và sử dụng nó sau để thao tác dữ liệu. Show 1. Nhập dữ liệu theo cách thủ công trong cửa sổ Trình chỉnh sửaBước đầu tiên là tải gói pandas và sử dụng A MonthSales 0 John 25 1 Deep 30 2 Julia 35 3 Kate 40 4 Sandy 455Function import pandas as pd data = pd.DataFrame({"A" : ["John","Deep","Julia","Kate","Sandy"], "MonthSales" : [25,30,35,40,45]}) A MonthSales 0 John 25 1 Deep 30 2 Julia 35 3 Kate 40 4 Sandy 45 Lưu ý: Giá trị ký tự phải được xác định trong trích dẫn đơn hoặc đôi. Character values should be defined in single or double quotes. Nếu bạn nhận thấy cú pháp của Pandas DataFrame, các cột và giá trị hàng được xác định trong từ điển. Nếu bạn hiểu khái niệm từ điển, bạn sẽ không cần phải thêm nơi để thêm A MonthSales 0 John 25 1 Deep 30 2 Julia 35 3 Kate 40 4 Sandy 456 và A MonthSales 0 John 25 1 Deep 30 2 Julia 35 3 Kate 40 4 Sandy 457. Cú pháp của DataFrame: PD.DataFrame (Từ điển) d = {"A" : ["John","Deep","Julia","Kate","Sandy"], "MonthSales" : [25,30,35,40,45]} pd.DataFrame(d)2. Đọc dữ liệu từ Clipboard 2. Read Data from ClipboardNói chung, MS Excel là công cụ báo cáo yêu thích của các nhà phân tích, đặc biệt là khi tạo ra dữ liệu giả. Mọi người thường thích nhập dữ liệu vào Excel và dán nó vào Python để tạo khung dữ liệu. Trong Pandas, có một tùy chọn để nhập dữ liệu từ Clipboard (tức là dữ liệu được sao chép) bằng hàm read_clipboard () từ gói gandas.read_clipboard( ) function from pandas package.
import pandas as pd df = pd.read_clipboard() Name Score Section 0 W 26 A 1 M 62 A 2 Q 69 A 3 Y 86 A 4 J 16 B 5 A 83 B 6 O 53 D 7 C 35 D 8 S 68 D 9 P 98 D 10 Q 42 E3. Nhập dữ liệu vào Python như SAS 3. Entering Data into Python like SASTương tự như SAS, chúng ta có thể nhập dữ liệu vào cửa sổ Trình chỉnh sửa với Delimiter hoặc Diactor. Chúng ta có thể sử dụng bất kỳ dấu phân cách nào - dấu phẩy, không gian, tab, v.v. import pandas as pd from pandas.compat import StringIO text = """ Name,Score,Section W,26,A M,62,A Q,69,A """ df =pd.read_csv(StringIO(text)) import pandas as pd from pandas.compat import StringIO text = """ Name Score Section W 26 A M 62 A Q 69 A """ df =pd.read_csv(StringIO(text), sep="\s+") A MonthSales 0 John 25 1 Deep 30 2 Julia 35 3 Kate 40 4 Sandy 458 có nghĩa là một hoặc nhiều không gian dưới dạng phân tách tại thời điểm đọc dữ liệu. 4. Chuẩn bị dữ liệu bằng cách sử dụng chuỗi các giá trị số và ký tựChúng ta hãy nhập hai gói Python phổ biến cho tác vụ này - Chuỗi và Numpy. Chuỗi gói được sử dụng để tạo ra loạt bảng chữ cái. Trong khi gói numpy được sử dụng để tạo chuỗi các số được tăng lên bởi một giá trị cụ thể.string is used to generate series of alphabets. Whereas numpy package is used to generate sequence of numbers incremented by a specific value. import pandas as pd import string import numpy as np data2 = pd.DataFrame({"A": np.arange(1,10,2), "B" : list(string.ascii_lowercase)[0:5], }) A B 0 1 a 1 3 b 2 5 c 3 7 d 4 9 e Giải thích 1. A MonthSales 0 John 25 1 Deep 30 2 Julia 35 3 Kate 40 4 Sandy 459 tells python to generate values between 1 and 10, incremented by 2. 2. d = {"A" : ["John","Deep","Julia","Kate","Sandy"], "MonthSales" : [25,30,35,40,45]} pd.DataFrame(d)0 returns abcdefghijklmnopqrstuvwxyz. list(string.ascii_lowercase)[0:5] is used to pick first 5 letters. 5. Tạo dữ liệu ngẫu nhiênTrong Numpy, có nhiều chức năng để tạo ra các giá trị ngẫu nhiên. Hai hàm ngẫu nhiên phổ biến nhất là d = {"A" : ["John","Deep","Julia","Kate","Sandy"], "MonthSales" : [25,30,35,40,45]} pd.DataFrame(d)1 và d = {"A" : ["John","Deep","Julia","Kate","Sandy"], "MonthSales" : [25,30,35,40,45]} pd.DataFrame(d)2 import pandas as pd import numpy as np np.random.seed(1) data3 = pd.DataFrame({"C" : np.random.randint(low=1, high=100, size=10), "D" : np.random.normal(0.0, 1.0, size=10) }) A MonthSales 0 John 25 1 Deep 30 2 Julia 35 3 Kate 40 4 Sandy 450 Giải thích d = {"A" : ["John","Deep","Julia","Kate","Sandy"], "MonthSales" : [25,30,35,40,45]} pd.DataFrame(d)3 tells python to generate same random values with this seed when you run it next time. d = {"A" : ["John","Deep","Julia","Kate","Sandy"], "MonthSales" : [25,30,35,40,45]} pd.DataFrame(d)4 returns 10 random values between 1 and 100. d = {"A" : ["John","Deep","Julia","Kate","Sandy"], "MonthSales" : [25,30,35,40,45]} pd.DataFrame(d)5 returns 10 random values following standard normal distribution having mean 0 and standard deviation 1. Kiểm tra mức trung bình và độ lệch chuẩn của phân phối bình thường np.round (np.std (np.random.nquaral (0,0, 1.0, size = 1000))) Tạo nhiều hơn 1 biến ngẫu nhiên với một hàm duy nhất ____26 bảo Python tạo 6 giá trị ngẫu nhiên từ "phân phối bình thường tiêu chuẩn" trong 4 cột d = {"A" : ["John","Deep","Julia","Kate","Sandy"], "MonthSales" : [25,30,35,40,45]} pd.DataFrame(d)6 tells Python to generate 6 random values from the "standard normal distribution" in 4 columns A MonthSales 0 John 25 1 Deep 30 2 Julia 35 3 Kate 40 4 Sandy 451 A MonthSales 0 John 25 1 Deep 30 2 Julia 35 3 Kate 40 4 Sandy 452 6. Tạo các biến phân loại 6. Create Categorical VariablesTrong bước này, chúng tôi sẽ tạo hai loại biến phân loại:
A MonthSales 0 John 25 1 Deep 30 2 Julia 35 3 Kate 40 4 Sandy 453 A MonthSales 0 John 25 1 Deep 30 2 Julia 35 3 Kate 40 4 Sandy 454 Giải trình
Giống như hàm R của R (), bạn có thể định nghĩa (các) biến là biến phân loại. Xem mã bên dưới. data4.x & nbsp; = data4.x.aSype ("Category") data4.x1 = data4.x1.Arype ("danh mục") 7. Nhập tệp CSV hoặc ExcelSử dụng các hàm gấu trúc Read_csv () và read_excel (), bạn có thể đọc dữ liệu từ Excel hoặc CSV đến Python.read_csv( ) and read_excel( ) functions, you can read data from excel or CSV to Python. Nhập gấu trúc dưới dạng pd mydata = pd.read_csv ("c: \\ users \\ deepanshu \\ samplefile.csv") mydata = pd.read_excel ("C: \\ users \\ Deepanshu |