iddietpulsetime kind01ít béo851 phút nghỉ ngơi11ít béo8515 phút nghỉ ngơi21ít béo8830 phút nghỉ ngơi32ít béo901 phút nghỉ ngơi42ít béo9215 phút nghỉ ngơi
4. 5. 3. Chia Khung dữ liệu gấu trúc lớn thành các phần
Là một chuyên gia dữ liệu, bạn có thể làm việc với các tập dữ liệu lớn không vừa với bộ nhớ
Khi xử lý các bộ dữ liệu này, bạn có thể chia dữ liệu thành các phần nhỏ hơn bằng cách sử dụng tham số df = pd.read_csv('data2.csv', index_col=0) print(df) 2 của gấu trúc
Trong đoạn mã dưới đây, không sử dụng df = pd.read_csv('data2.csv', index_col=0) print(df) 2 mất trung bình 2. 33s để chạy. Sử dụng df = pd.read_csv('data2.csv', index_col=0) print(df) 4 mất trung bình 424 µs để chạy, nhanh hơn 563 nghìn lần
import pandas as pd import warnings warnings.filterwarnings("ignore")
%%timeit pd.read_csv('../data/flight_data_2018_to_2022.csv')
2.33 s ± 58.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
df = pd.read_csv('../data/flight_data_2018_to_2022.csv') df.shape
Unnamed: 0 a b 0 0 1 4 1 1 2 5 2 2 3 6 0
Unnamed: 0 a b 0 0 1 4 1 1 2 5 2 2 3 6 1
Unnamed: 0 a b 0 0 1 4 1 1 2 5 2 2 3 6 2
Chúng ta có thể thấy rằng việc sử dụng df = pd.read_csv('data2.csv', index_col=0) print(df) 4 chia DataFrame thành 6 phần, 5 trong số đó có 100000 hàng
Unnamed: 0 a b 0 0 1 4 1 1 2 5 2 2 3 6 3
Unnamed: 0 a b 0 0 1 4 1 1 2 5 2 2 3 6 4
4. 5. 4. Đọc bảng HTML bằng Pandas
Nếu bạn muốn nhanh chóng trích xuất một bảng trên trang web và biến nó thành Khung dữ liệu Pandas, hãy sử dụng df = pd.read_csv('data2.csv', index_col=0) print(df) 6. Trong đoạn mã dưới đây, tôi đã trích xuất bảng từ trang Wikipedia trong một dòng mã
Unnamed: 0 a b 0 0 1 4 1 1 2 5 2 2 3 6 5
Vùng$1 mỗi ngày$1. 25 mỗi ngày[94]$1. 90 mỗi ngày[95]Khu vực199020022004198120081981199020002010201520180Đông Á và Thái Bình Dương15. 4%12. 3%9. 1%77. 2%14. 3%80. 2%60. 9%34. 8%10. 8%2. 1%1. 2%1Châu Âu và Trung Á3. 6%1. 3%1. 0%1. 9%0. 5%——7. 3%2. 4%1. 5%1. 1%2 Mỹ Latinh và Caribê 9. 6%9. 1%8. 6%11. 9%6. 5%13. 7%15. 5%12. 7%6%3. 7%3. 7%3 Trung Đông và Bắc Phi 2. 1%1. 7%1. 5%9. 6%2. 7%—6. 5%3. 5%2%4. 3%7%4Nam Á35. 0%33. 4%30. 8%61. 1%36%58%49. 1%—26%——5 Châu Phi cận Sahara 46. 1%42. 6%41. 1%51. 5%47. 5%—54. 9%58. 4%46. 6%42. 3%40. 4%6Thế giới———52. 2%22. 4%42. 7%36. 2%27. 8%16%10. 1%—
4. 5. 5. Khung dữ liệu. sao chép(). Tạo một bản sao của DataFrame
Bạn đã bao giờ thử tạo một bản sao của DataFrame bằng cách sử dụng df = pd.read_csv('data2.csv', index_col=0) print(df) 7 chưa? . Như vậy, việc thay đổi DataFrame mới cũng sẽ thay đổi DataFrame ban đầu
Unnamed: 0 a b 0 0 1 4 1 1 2 5 2 2 3 6 6
col1col2014125236
Unnamed: 0 a b 0 0 1 4 1 1 2 5 2 2 3 6 7
col1col2074185296
Một cách tốt hơn để tạo một bản sao là sử dụng df = pd.read_csv('data2.csv', index_col=0) print(df) 8. Bây giờ, việc thay đổi bản sao sẽ không ảnh hưởng đến DataFrame gốc