Chúng ta có thể sử dụng chức năng mô -đun pandas read_excel () để đọc dữ liệu tệp excel vào đối tượng DataFrame. Nếu bạn nhìn vào một tờ Excel, thì đó là một bảng hai chiều. Đối tượng DataFrame cũng đại diện cho cấu trúc dữ liệu bảng hai chiều. Show
1. Ví dụ 1. Pandas read_excel ()Hãy nói rằng chúng tôi có một tập tin Excel với hai tờ - nhân viên và xe hơi. Hàng trên cùng chứa tiêu đề của bảng. Dữ liệu trang tệp ExcelDưới đây là ví dụ để đọc dữ liệu bảng nhân viên của người Viking và in nó.
Output:
2. Danh sách các tiêu đề cột của tờ ExcelChúng ta có thể nhận danh sách các tiêu đề cột bằng thuộc tính 7 của đối tượng DataFrame.
Output:
3. In dữ liệu cộtChúng ta có thể lấy dữ liệu cột và chuyển đổi nó thành một danh sách các giá trị.
Output:
4. Pandas read_excel () usecols ví dụChúng ta có thể chỉ định tên cột sẽ được đọc từ tệp Excel. Nó rất hữu ích khi bạn chỉ quan tâm đến một vài cột của tờ Excel.
Output:
5. Đọc tệp excel mà không có hàng tiêu đềNếu bảng Excel không có hàng tiêu đề nào, hãy chuyển giá trị tham số tiêu đề là không có.
Nếu bạn vượt qua giá trị tiêu đề dưới dạng một số nguyên, hãy để nói 3. Sau đó, hàng thứ ba sẽ được coi là hàng tiêu đề và các giá trị sẽ được đọc từ hàng tiếp theo trở đi. Bất kỳ dữ liệu trước khi hàng tiêu đề sẽ bị loại bỏ. 6. Tờ Excel cho Dict, CSV và JSONĐối tượng DataFrame có các phương thức tiện ích khác nhau để chuyển đổi dữ liệu bảng thành định dạng Dict, CSV hoặc JSON.
Output: 07. Tài liệu tham khảo
Đọc một tập tin Excel vào một bản dữ liệu gấu trúc. Hỗ trợ XLS, XLSX, XLSM, XLSB, ODF, ODF và Tệp ODT được đọc từ hệ thống tập tin hoặc URL cục bộ. Hỗ trợ một tùy chọn để đọc một tờ hoặc một danh sách các tờ. Tham số, byte, excelfile, xlrd.book, đối tượng đường dẫn hoặc đối tượng giống như tệpiostr, bytes, ExcelFile, xlrd.Book, path object, or file-like objectBất kỳ đường dẫn chuỗi hợp lệ đều được chấp nhận. Chuỗi có thể là một url. Các sơ đồ URL hợp lệ bao gồm HTTP, FTP, S3 và Tệp. Đối với URL tệp, một máy chủ được dự kiến. Một tập tin cục bộ có thể là: 8.Nếu bạn muốn vượt qua trong một đối tượng đường dẫn, Pandas chấp nhận bất kỳ 9 nào.Theo đối tượng giống như tệp, chúng tôi đề cập đến các đối tượng bằng phương thức 0, chẳng hạn như xử lý tệp (ví dụ: thông qua hàm tích hợp 1) hoặc 2.sheet_namestr, int, danh sách hoặc không có, mặc định 0str, int, list, or None, default 0Chuỗi được sử dụng cho tên trang. Các số nguyên được sử dụng trong các vị trí tấm không chỉ số (bảng biểu đồ không được tính là một vị trí bảng). Danh sách các chuỗi/số nguyên được sử dụng để yêu cầu nhiều tờ. Chỉ định không có để có được tất cả các bảng tính. Các trường hợp có sẵn:
Hàng (0 chỉ số) để sử dụng cho các nhãn cột của khung dữ liệu được phân tích cú pháp. Nếu một danh sách các số nguyên được thông qua các vị trí hàng, các vị trí hàng sẽ được kết hợp thành 7. Không sử dụng nếu không có tiêu đề.tên tuổi giống như mặc định, không có gìarray-like, default NoneDanh sách các tên cột để sử dụng. Nếu tệp không chứa hàng tiêu đề, thì bạn nên chuyển tiêu đề một cách rõ ràng = không có. index_colint, danh sách int, không có mặc địnhint, list of int, default NoneCột (0 chỉ số) để sử dụng làm nhãn hàng của DataFrame. Không có nếu không có cột như vậy. Nếu một danh sách được thông qua, các cột đó sẽ được kết hợp thành 7. Nếu một tập hợp dữ liệu được chọn với 9, index_col dựa trên tập hợp con.Các giá trị bị thiếu sẽ được lấp đầy để cho phép khứ hồi với 0 cho 1. Để tránh chuyển tiếp, việc sử dụng các giá trị bị thiếu 2 sau khi đọc dữ liệu thay vì 3.
usecolsstr, danh sách giống như hoặc có thể gọi được, không có mặc địnhstr, list-like, or callable, default None
Trả về một tập hợp con của các cột theo hành vi ở trên. Squeezebool, mặc định saibool, default FalseNếu dữ liệu được phân tích cú pháp chỉ chứa một cột thì hãy trả về một chuỗi. Đã không dùng nữa kể từ phiên bản 1.4.0: Phụ lục 5 to the call to 6 to squeeze the data.Tên DTYPETYPE hoặc DIGNT của cột -> Loại, mặc định không cóType name or dict
of column -> type, default NoneKiểu dữ liệu cho dữ liệu hoặc cột. Ví dụ. {‘A, Nếu các bộ chuyển đổi được chỉ định, chúng sẽ được áp dụng thay vì chuyển đổi DTYPE. enginest, mặc định không cóstr, default NoneNếu IO không phải là bộ đệm hoặc đường dẫn, điều này phải được đặt để xác định IO. Động cơ được hỗ trợ: Hồi XLRD ,, OpenPyxl ,, ODF, ODF, Khả năng tương thích động cơ:
Đã thay đổi trong phiên bản 1.2.0: Công cụ XLRD hiện chỉ hỗ trợ các tệp 7 files. When 8, the following logic will be
used to determine the engine:
Diễn ngôn của các chức năng để chuyển đổi các giá trị trong các cột nhất định. Các phím có thể là số nguyên hoặc nhãn cột, các giá trị là các hàm lấy một đối số đầu vào, nội dung ô Excel và trả về nội dung được chuyển đổi. true_valuesList, mặc định không cólist, default NoneGiá trị để xem là đúng. false_valuesList, mặc định không cólist, default NoneGiá trị để coi là sai. SkipRowsList giống như, int hoặc có thể gọi, tùy chọnlist-like, int, or callable, optionalSố dòng để bỏ qua (0 chỉ số) hoặc số dòng để bỏ qua (int) khi bắt đầu tệp. Nếu có thể gọi được, hàm có thể gọi sẽ được đánh giá theo các chỉ số hàng, trả về đúng nếu hàng nên được bỏ qua và sai. Một ví dụ về một đối số có thể gọi hợp lệ sẽ là 5.nrowsint, mặc định không cóint, default NoneSố lượng hàng để phân tích cú pháp. NA_VALUESSCALAR, STR, DANH SÁCH, HOẶC DINHscalar, str, list-like, or dict, default NoneCác chuỗi bổ sung để nhận ra là NA/NAN. Nếu Dict vượt qua, các giá trị NA mỗi cột cụ thể. Theo mặc định, các giá trị sau được hiểu là nan: '', '#n/a', '#n/a n/a', '#na', '-1.#Ind', '-1.#Qnan', '-Nan', '-nan', '1.#ind', '1.#qnan', '', 'n/a', 'na', 'null', 'nan', 'n/a' , 'nan', 'null'. keep_default_nabool, mặc định đúngbool, default TrueCó hay không bao gồm các giá trị NAN mặc định khi phân tích dữ liệu. Tùy thuộc vào việc NA_Values được thông qua, hành vi như sau:
Lưu ý rằng nếu Na_Filter được truyền dưới dạng sai, các tham số keep_default_na và na_values sẽ bị bỏ qua. na_filterbool, mặc định đúngbool, default TruePhát hiện các điểm đánh dấu giá trị bị thiếu (chuỗi trống và giá trị của NA_Values). Trong dữ liệu mà không có NAS, việc truyền Na_Filter = Sai có thể cải thiện hiệu suất của việc đọc một tệp lớn. verbosebool, mặc định saibool, default FalseChỉ ra số lượng giá trị Na được đặt trong các cột không phải là số. Parse_datesbool, Danh sách giống như hoặc Dict, mặc định FALSEbool, list-like, or dict, default FalseHành vi như sau:
Nếu một cột hoặc chỉ mục chứa một ngày không thể làm được, toàn bộ cột hoặc chỉ mục sẽ được trả về không thay đổi dưới dạng kiểu dữ liệu đối tượng. Nếu bạn không muốn phân tích một số ô như ngày, chỉ cần thay đổi loại của chúng trong Excel thành văn bản. Đối với phân tích dữ liệu không chuẩn, sử dụng 6 sau 7.Lưu ý: Một đường dẫn nhanh tồn tại trong các ngày được định dạng ISO8601. date_parserfunction, tùy chọnfunction, optionalChức năng sử dụng để chuyển đổi một chuỗi các cột chuỗi thành một mảng các phiên bản DateTime. Mặc định sử dụng 8 để thực hiện chuyển đổi. Pandas sẽ cố gắng gọi DATE_PARSER theo ba cách khác nhau, tiến sang cách tiếp theo nếu xảy ra ngoại lệ: 1) Truyền một hoặc nhiều mảng (theo định nghĩa của parse_dates) làm đối số; 2) Concatenate (hàng khôn ngoan) Các giá trị chuỗi từ các cột được xác định bởi parse_dates thành một mảng duy nhất và truyền cái đó; và 3) CALL DATE_PARSER một lần cho mỗi hàng bằng một hoặc nhiều chuỗi (tương ứng với các cột được xác định bởi parse_dates) làm đối số.hàng ngàn, mặc định không cóstr,
default NoneHàng ngàn phân tách để phân tích các cột chuỗi vào số. Lưu ý rằng tham số này chỉ cần thiết cho các cột được lưu trữ dưới dạng văn bản trong Excel, bất kỳ cột số nào sẽ tự động được phân tích cú pháp, bất kể định dạng hiển thị. DecimalStr, mặc định ‘.str, default ‘.’Ký tự để nhận ra là điểm thập phân để phân tích các cột chuỗi vào số. Lưu ý rằng tham số này chỉ cần thiết cho các cột được lưu trữ dưới dạng văn bản trong Excel, bất kỳ cột số nào sẽ tự động được phân tích cú pháp, bất kể định dạng hiển thị. (Ví dụ: sử dụng ‘, đối với dữ liệu châu Âu). Mới trong phiên bản 1.4.0. bình luận, không có mặc địnhstr, default NoneNhận xét ra phần còn lại của dòng. Chuyển một ký tự hoặc ký tự cho đối số này để chỉ ra nhận xét trong tệp đầu vào. Bất kỳ dữ liệu giữa chuỗi nhận xét và phần cuối của dòng hiện tại đều bị bỏ qua. Skipfooterint, mặc định 0int, default 0Hàng ở cuối để bỏ qua (0 chỉ số). convert_floatbool, mặc định đúngbool, default TrueChuyển đổi phao tích phân sang int (tức là, 1.0 -> 1). Nếu sai, tất cả dữ liệu số sẽ được đọc dưới dạng phao: Excel lưu trữ tất cả các số dưới dạng nổi trong nội bộ. Không dùngconvert_float will be removed in a future version manggle_dupe_colsbool, mặc định đúngbool, default TrueCác cột trùng lặp sẽ được chỉ định là ‘X,‘ X.1 ,, Truyền sai sẽ khiến dữ liệu bị ghi đè nếu có tên trùng lặp trong các cột. Đã không dùng nữa kể từ phiên bản 1.5.0: Không được triển khai và một đối số mới để chỉ định mẫu cho tên của các cột trùng lặp sẽ được thêm vào thay thếNot implemented, and a new argument to specify the pattern for the names of duplicated columns will be added instead Storage_OptionsDict, Tùy chọndict, optionalCác tùy chọn bổ sung có ý nghĩa cho một kết nối lưu trữ cụ thể, ví dụ: máy chủ, cổng, tên người dùng, mật khẩu, v.v. cho URL HTTP (s), các cặp giá trị khóa được chuyển tiếp đến 9 dưới dạng tùy chọn tiêu đề. Đối với các URL khác (ví dụ: bắt đầu với S3: //, và GC GCS: //), các cặp giá trị khóa được chuyển tiếp đến 0. Vui lòng xem 1 và 2 để biết thêm chi tiết và để biết thêm ví dụ về các tùy chọn lưu trữ, hãy tham khảo tại đây.Mới trong phiên bản 1.2.0. Trả về DataFrame hoặc Dict of DataFramesDataFrame từ tệp được truyền trong tệp Excel. Xem Ghi chú trong Đối số Sheet_Name để biết thêm thông tin về khi nào một DID of DataFrames được trả về. Xem thêm 3Viết dataFrame vào một tệp excel. 4Viết DataFrame vào tệp Giá trị được phân tách bằng dấu phẩy (CSV). 5Đọc một tệp giá trị được phân tách bằng dấu phẩy (CSV) vào DataFrame. 6Đọc một bảng các dòng định dạng chiều rộng cố định vào DataFrame. Ví dụ Tệp có thể được đọc bằng tên tệp dưới dạng chuỗi hoặc đối tượng tệp mở: 1 2Chỉ mục và tiêu đề có thể được chỉ định thông qua các đối số index_col và tiêu đề 3Các loại cột được suy ra nhưng có thể được chỉ định rõ ràng 4Đúng, các giá trị sai và NA và hàng ngàn phân tách có mặc định, nhưng cũng có thể được chỉ định rõ ràng. Cung cấp các giá trị bạn muốn là chuỗi hoặc danh sách các chuỗi! 5Có thể bỏ qua các dòng bình luận trong tệp đầu vào excel bằng cách sử dụng bình luận kwarg 6Read_excel trong Python là gì?Phương thức read_excel () từ thư viện gandas đọc các tệp excel, nghĩa là các tệp ở định dạng .xls. Nó lấy tên tệp hoặc thư mục làm đối số đầu tiên với tên trang này làm giá trị đối số thứ hai.reads excel files, that is, files in the . xls format. It takes the file name or directory as the first argument with the sheet name as the second argument value.
Làm thế nào để pd read_excel hoạt động?Để đọc một tệp excel dưới dạng dataFrame, hãy sử dụng phương thức pandas read_excel ().Bạn có thể đọc tờ đầu tiên, tờ cụ thể, nhiều tờ hoặc tất cả các tờ.Pandas chuyển đổi điều này thành cấu trúc DataFrame, là một cấu trúc giống như bảng.Pandas converts this to the DataFrame structure, which is a tabular like structure.
Gói nào là read_excel?Gói READXL giúp dễ dàng lấy dữ liệu ra khỏi Excel và thành R. so với nhiều gói hiện có (ví dụ: GDATA, XLSX, XLSREADWRITE) READXL không có phụ thuộc bên ngoài, vì vậy dễ dàng cài đặt và sử dụng trên tất cả các hệ điều hành.Nó được thiết kế để làm việc với dữ liệu bảng.ReadXL hỗ trợ cả di sản. makes it easy to get data out of Excel and into R. Compared to many of the existing packages (e.g. gdata, xlsx, xlsReadWrite) readxl has no external dependencies, so it's easy to install and use on all operating systems. It is designed to work with tabular data. readxl supports both the legacy .
PD read_excel có tạo ra một khung dữ liệu không?DataFrame được tạo bằng cách sử dụng hàm read_excel ().Từ DataFrame, chúng tôi có thể sử dụng một dữ liệu cột để tạo một danh sách bằng cách sử dụng Tolist ().. From the DataFrame we can use one column data to create one list by using tolist(). |