Đọc một tệp giá trị được phân tách bằng dấu phẩy (CSV) vào DataFrame. Show Cũng hỗ trợ tùy chọn lặp hoặc phá tệp thành các phần. Trợ giúp bổ sung có thể được tìm thấy trong các tài liệu trực tuyến cho các công cụ IO. ParameterSfilePath_or_bufferstr, đối tượng đường dẫn hoặc đối tượng giống như tệpfilepath_or_bufferstr, path object or file-like objectBất kỳ đường dẫn chuỗi hợp lệ đều được chấp nhận. Chuỗi có thể là một url. Các sơ đồ URL hợp lệ bao gồm HTTP, FTP, S3, GS và FILE. Đối với URL tệp, một máy chủ được dự kiến. Một tệp cục bộ có thể là: Tệp: //localhost/path/to/table.csv. Nếu bạn muốn vượt qua trong một đối tượng đường dẫn, Pandas chấp nhận bất kỳ Theo đối tượng giống như tệp, chúng tôi đề cập đến các đối tượng bằng phương thức Phân định để sử dụng. Nếu SEP không có, động cơ C không thể tự động phát hiện bộ phân cách, nhưng công cụ phân tích cú pháp Python có thể, nghĩa là cái sau sẽ được sử dụng và tự động phát hiện bộ tách bằng công cụ Sniffer tích hợp Python, None str, default None Bí danh cho sep. headerint, danh sách int, none, mặc định ‘suy raint, list of int, None, default ‘infer’(Các) số hàng để sử dụng làm tên cột và bắt đầu dữ liệu. Hành vi mặc định là suy ra tên cột: Nếu không có tên nào được truyền thì hành vi giống hệt với Danh sách các tên cột để sử dụng. Nếu tệp chứa hàng tiêu đề, thì bạn nên vượt qua rõ ràng None int, str, sequence of int / str, or False, optional, default None (Các) cột để sử dụng làm nhãn hàng của Lưu ý: Trả về một tập hợp con của các cột. Nếu giống như danh sách, tất cả các phần tử phải là vị trí (nghĩa là các chỉ số số nguyên vào các cột tài liệu) hoặc các chuỗi tương ứng với tên cột được người dùng cung cấp trong tên hoặc suy ra từ (các) hàng tiêu đề tài liệu. Nếu Nếu có thể gọi được, hàm có thể gọi sẽ được đánh giá theo tên cột, trả về các tên trong đó hàm có thể gọi được đánh giá là true. Một ví dụ về một đối số có thể gọi hợp lệ sẽ là Nếu dữ liệu được phân tích cú pháp chỉ chứa một cột thì hãy trả về một chuỗi. Đã không dùng nữa kể từ phiên bản 1.4.0: Phụ lục Tiền tố để thêm vào số cột khi không có tiêu đề, ví dụ: ‘X, cho x0, x1, Đã không dùng nữa kể từ phiên bản 1.4.0: Sử dụng danh sách hiểu trên các cột DataFrame sau khi gọi Các cột trùng lặp sẽ được chỉ định là ‘X,‘ X.1 ,, Truyền sai sẽ khiến dữ liệu bị ghi đè nếu có tên trùng lặp trong các cột. Đã không dùng nữa kể từ phiên bản 1.5.0: Không được triển khai và một đối số mới để chỉ định mẫu cho tên của các cột trùng lặp sẽ được thêm vào thay thếNot implemented, and a new argument to specify the pattern for the names of duplicated columns will be added instead Tên DTYPETYPE hoặc DIGNT CỦA Cột -> Loại, Tùy chọnType name or dict of column -> type, optionalKiểu dữ liệu cho dữ liệu hoặc cột. Ví dụ. {’A, Nếu các bộ chuyển đổi được chỉ định, chúng sẽ được áp dụng thay vì chuyển đổi DTYPE. Mới trong phiên bản 1.5.0: Hỗ trợ cho DefaultDict đã được thêm vào. Chỉ định một mặc định là đầu vào trong đó mặc định xác định DTYPE của các cột không được liệt kê rõ ràng.Support for defaultdict was added. Specify a defaultdict as input where the default determines the dtype of the columns which are not explicitly listed. Động cơ {‘C,‘ Python, ‘Pyarrow,}, tùy chọn{‘c’, ‘python’, ‘pyarrow’}, optionalĐộng cơ phân tích cú pháp để sử dụng. Các động cơ C và Pyarrow nhanh hơn, trong khi động cơ Python hiện đang hoàn thành tính năng hơn. MultiThreading hiện chỉ được hỗ trợ bởi động cơ Pyarrow. Mới trong phiên bản 1.4.0: Động cơ của Py Pyarrow đã được thêm vào dưới dạng động cơ thử nghiệm và một số tính năng không được hỗ trợ hoặc không hoạt động chính xác với động cơ này.The “pyarrow” engine was added as an experimental engine, and some features are unsupported, or may not work correctly, with this engine. ConvertersDict, tùy chọndict, optionalDiễn ngôn của các chức năng để chuyển đổi các giá trị trong các cột nhất định. Các phím có thể là số nguyên hoặc nhãn cột. true_valuesList, tùy chọnlist, optionalGiá trị để xem là đúng. false_valuesList, tùy chọnlist, optionalGiá trị để coi là sai. SkipinitialSpacebool, mặc định saibool, default FalseBỏ qua không gian sau khi phân trang. SkipRowsList giống như, int hoặc có thể gọi, tùy chọnlist-like, int or callable, optionalSố dòng để bỏ qua (0 chỉ số) hoặc số dòng để bỏ qua (int) khi bắt đầu tệp. Nếu có thể gọi được, hàm có thể gọi sẽ được đánh giá theo các chỉ số hàng, trả về đúng nếu hàng nên được bỏ qua và sai. Một ví dụ về một đối số có thể gọi hợp lệ sẽ là Số lượng dòng ở dưới cùng của tệp để bỏ qua (không được hỗ trợ với động cơ = xông C,). NrowsInt, tùy chọnint, optionalSố lượng hàng của tập tin để đọc. Hữu ích cho việc đọc các mảnh của các tập tin lớn. NA_VALUESSCALAR, STR, DANH SÁCH, HOẶC QUỐCscalar, str, list-like, or dict, optionalCác chuỗi bổ sung để nhận ra là NA/NAN. Nếu Dict vượt qua, các giá trị NA mỗi cột cụ thể. Theo mặc định, các giá trị sau được hiểu là nan: '', '#n/a', '#n/a n/a', '#na', '-1.#Ind', '-1.#Qnan', '-Nan', '-nan', '1.#ind', '1.#qnan', '', 'n/a', 'na', 'null', 'nan', 'n/a' , 'nan', 'null'. keep_default_nabool, mặc định đúngbool, default TrueCó hay không bao gồm các giá trị NAN mặc định khi phân tích dữ liệu. Tùy thuộc vào việc NA_Values được thông qua, hành vi như sau:
Lưu ý rằng nếu Na_Filter được truyền dưới dạng sai, các tham số keep_default_na và na_values sẽ bị bỏ qua. na_filterbool, mặc định đúngbool, default TruePhát hiện các điểm đánh dấu giá trị bị thiếu (chuỗi trống và giá trị của NA_Values). Trong dữ liệu mà không có NAS, việc truyền Na_Filter = Sai có thể cải thiện hiệu suất của việc đọc một tệp lớn. verbosebool, mặc định saibool, default FalseChỉ ra số lượng giá trị Na được đặt trong các cột không phải là số. skip_blank_linesbool, mặc định đúngbool, default TrueNếu đúng, hãy bỏ qua các dòng trống thay vì diễn giải như các giá trị NAN. parse_datesbool hoặc danh sách int hoặc tên hoặc danh sách danh sách hoặc dict, mặc định saibool or list of int or names or list of lists or dict, default FalseHành vi như sau:
Nếu một cột hoặc chỉ mục không thể được biểu diễn dưới dạng một mảng các dữ liệu, hãy nói vì giá trị không thể ghi hoặc hỗn hợp của múi giờ, cột hoặc chỉ mục sẽ được trả về không thay đổi dưới dạng loại dữ liệu đối tượng. Đối với phân tích dữ liệu không chuẩn, sử dụng Lưu ý: Một đường dẫn nhanh tồn tại trong các ngày được định dạng ISO8601. Infer_datetime_formatbool, mặc định saibool, default FalseNếu true và parse_dates được bật, gấu trúc sẽ cố gắng suy ra định dạng của chuỗi DateTime trong các cột và nếu nó có thể được suy ra, hãy chuyển sang phương pháp phân tích nhanh hơn. Trong một số trường hợp, điều này có thể tăng tốc độ phân tích cú pháp thêm 5-10 lần. keep_date_colbool, mặc định saibool, default FalseNếu true và parse_dates chỉ định kết hợp nhiều cột thì hãy giữ các cột gốc. date_parserfunction, tùy chọnfunction, optionalChức năng sử dụng để chuyển đổi một chuỗi các cột chuỗi thành một mảng các phiên bản DateTime. Mặc định sử dụng Ngày định dạng DD/mm, định dạng quốc tế và châu Âu. cache_datesbool, mặc định đúngbool, default TrueNếu đúng, hãy sử dụng bộ nhớ cache của ngày duy nhất, được chuyển đổi để áp dụng chuyển đổi DateTime. Có thể tạo ra tốc độ tăng tốc đáng kể khi phân tích các chuỗi ngày trùng lặp, đặc biệt là các chuỗi có thời gian bù thời gian. Mới trong phiên bản 0.25.0. iteratorbool, mặc định saibool, default FalseTrả về TextFileReader Object cho Lặp lại hoặc nhận các khối với Thay đổi trong phiên bản 1.2: Trả về đối tượng textfileReader cho lặp. Xem tài liệu Công cụ IO để biết thêm thông tin về Thay đổi trong phiên bản 1.2: Trả về đối tượng textfileReader cho lặp. Xem tài liệu Công cụ IO để biết thêm thông tin về
Cho việc giải nén dữ liệu trên đĩa. Nếu 'suy luận' và 'filepath_or_buffer' giống như đường dẫn, thì hãy phát hiện nén từ các phần mở rộng sau: '.gz', '.bz2', '.zip', '.xz', '.zst', '.tar' , '.tar.gz', '.tar.xz' hoặc '.tar.bz2' (nếu không thì không nén). Nếu sử dụng ‘zip, hoặc‘ tar, tệp zip phải chỉ chứa một tệp dữ liệu được đọc. Đặt thành Đã thay đổi trong phiên bản 1.4.0: Hỗ trợ Zstandard. Hàng ngàn, tùy chọnstr, default ‘.’Hàng ngàn người phân tách. DecimalStr, mặc định ‘.str (length 1), optionalKý tự để nhận ra là dấu thập phân (ví dụ: sử dụng ‘, cho dữ liệu châu Âu). lineterminatorstr (chiều dài 1), tùy chọnstr (length 1), optionalKý tự để phá vỡ tệp thành các dòng. Chỉ hợp lệ với trình phân tích cú pháp C. quotecharstr (chiều dài 1), tùy chọnint or csv.QUOTE_* instance, default 0Nhân vật được sử dụng để biểu thị sự khởi đầu và kết thúc của một mục được trích dẫn. Các mục được trích dẫn có thể bao gồm dấu phân cách và nó sẽ bị bỏ qua. trích dẫn hoặc csv.quote_* phiên bản, mặc định 0bool, defaultcsv.Sniffer 8Kiểm soát trường trích dẫn hành vi trên các hằng số csv.Sniffer 8str (length 1), optionalKhi Quotechar được chỉ định và trích dẫn không phải là Chuỗi một ký tự được sử dụng để thoát khỏi các ký tự khác. bình luận, tùy chọnstr, optionalChỉ ra phần còn lại của dòng không nên được phân tích cú pháp. Nếu được tìm thấy ở đầu một dòng, dòng sẽ bị bỏ qua hoàn toàn. Tham số này phải là một ký tự duy nhất. Giống như các dòng trống (miễn là EncodingTr, tùy chọnWhen Mã hóa để sử dụng cho UTF khi đọc/viết (ví dụ: UTF-8,). Danh sách mã hóa tiêu chuẩn Python. '\s+' 5 là None , '\s+' 7 được chuyển sang '\s+' 8. Nếu không, '\s+' 9 được truyền đến '\s+' 8. Hành vi này trước đây chỉ là trường hợp cho '\r\t' 1.str,
optional, default “strict”Thay đổi trong phiên bản 1.3.0: Encoding_errorsstr, tùy chọn, mặc định là nghiêm ngặt Cách xử lý lỗi mã hóa. Danh sách các giá trị có thể.str or csv.Dialect, optionalNếu được cung cấp, tham số này sẽ ghi đè các giá trị (mặc định hoặc không) cho các tham số sau: Delimiter, DoubleQuote, Escapechar, SkipinitialSpace, Quotechar và trích dẫn. Nếu cần phải ghi đè các giá trị, phân tích cú pháp sẽ được phát hành. Xem tài liệu CSV.Dialect để biết thêm chi tiết. ERROR_BAD_LINESBOOL, Tùy chọn, mặc địnhNone bool, optional, default None Các dòng có quá nhiều trường (ví dụ: dòng CSV có quá nhiều dấu phẩy) theo mặc định sẽ gây ra một ngoại lệ được nêu ra và sẽ không có DataFrame nào được trả về. Nếu sai, thì những dòng xấu của người Viking này sẽ bị loại khỏi khung dữ liệu được trả về. Thay vào đó, không dùng nữa vì phiên bản 1.3.0: Tham số None bool, optional, default None Nếu ERROR_BAD_LINES là sai và WARN_BAD_LINES là đúng, một cảnh báo cho mỗi dòng xấu của người Hồi giáo sẽ là đầu ra. Thay vào đó, không dùng nữa vì phiên bản 1.3.0: Tham số None {‘error’, ‘warn’, ‘skip’} or callable, default ‘error’Nếu ERROR_BAD_LINES là sai và WARN_BAD_LINES là đúng, một cảnh báo cho mỗi dòng xấu của người Hồi giáo sẽ là đầu ra.
‘Cảnh báo, hãy đưa ra một cảnh báo khi gặp phải một dòng xấu và bỏ qua dòng đó. Bỏ qua, bỏ qua các dòng xấu mà không nêu ra hoặc cảnh báo khi chúng gặp phải.
Có thể gọi, chức năng với chữ ký Chỉ định xem có phải khoảng trắng hay không (ví dụ: Trong nội bộ xử lý tệp trong các khối, dẫn đến sử dụng bộ nhớ thấp hơn trong khi phân tích cú pháp, nhưng có thể là loại suy luận hỗn hợp. Để đảm bảo không có loại hỗn hợp nào được đặt sai hoặc chỉ định loại với tham số DTYPE. Lưu ý rằng toàn bộ tệp được đọc vào một khung dữ liệu duy nhất bất kể, sử dụng tham số chunksize hoặc iterator để trả về dữ liệu trong các khối. (Chỉ hợp lệ với trình phân tích cú pháp C). memory_mapbool, mặc định saistr, optionalNếu FilePath được cung cấp cho FilePath_or_buffer, hãy ánh xạ trực tiếp đối tượng tệp lên bộ nhớ và truy cập dữ liệu trực tiếp từ đó. Sử dụng tùy chọn này có thể cải thiện hiệu suất vì không còn bất kỳ chi phí I/O nào nữa. float_preciststr, tùy chọn Chỉ định bộ chuyển đổi động cơ C nào nên sử dụng cho các giá trị dấu phẩy động. Các tùy chọn làNone hoặc ’cao cho bộ chuyển đổi thông thường,‘ di sản cho bộ chuyển đổi Pandas chính xác thấp hơn và ‘Round_Trip, cho bộ chuyển đổi Trip Trip.dict, optionalĐã thay đổi trong phiên bản 1.2. Storage_OptionsDict, Tùy chọn Các tùy chọn bổ sung có ý nghĩa cho một kết nối lưu trữ cụ thể, ví dụ: máy chủ, cổng, tên người dùng, mật khẩu, v.v. cho URL HTTP (s), các cặp giá trị khóa được chuyển tiếp đếnNone 9 dưới dạng tùy chọn tiêu đề. Đối với các URL khác (ví dụ: bắt đầu với S3: //, và GC GCS: //), các cặp giá trị khóa được chuyển tiếp đến header=0 0. Vui lòng xem header=0 1 và header=0 2 để biết thêm chi tiết và để biết thêm ví dụ về các tùy chọn lưu trữ, hãy tham khảo tại đây.Mới trong phiên bản 1.2. ReturnSdatAframe hoặc textParser header=0 3Một tệp các giá trị được phân tách bằng dấu phẩy (CSV) được trả về dưới dạng cấu trúc dữ liệu hai chiều với các trục được dán nhãn. open 0Xem thêm header=0 5Viết DataFrame vào tệp Giá trị được phân tách bằng dấu phẩy (CSV). Đọc một tệp giá trị được phân tách bằng dấu phẩy (CSV) vào DataFrame. >>> pd.read_csv('data.csv') Làm thế nào để bạn đọc một tệp CSV trong một python tiêu đề?Đọc CSV bằng mô -đun sẵn có của Python có tên CSV bằng CSV ... Nhập thư viện CSV. Nhập CSV .. Mở tệp CSV. Các . .... Sử dụng đối tượng CSV.Reader để đọc tệp CSV. csvreader = csv.Reader (tệp). Trích xuất tên trường. Tạo một danh sách trống gọi là tiêu đề. .... Trích xuất các hàng/hồ sơ. .... Đóng tệp .. Làm cách nào để đọc tệp CSV trong Pandas Python?Đọc tệp CSV.. Tải CSV vào DataFrame: Nhập Pandas dưới dạng PD. df = pd.read_csv ('data.csv') .... In DataFrame mà không cần phương thức TO_STRING (): Nhập gấu trúc dưới dạng pd. .... Kiểm tra số lượng các hàng được trả lại tối đa: nhập pandas dưới dạng PD. .... Tăng số lượng hàng tối đa để hiển thị toàn bộ DataFrame: Nhập Pandas dưới dạng PD .. Làm cách nào để đọc một cột dữ liệu khôn ngoan từ tệp CSV trong Python?Python3. Trong phương thức này, chúng tôi sẽ nhập thư viện CSV và mở tệp ở chế độ đọc, sau đó chúng tôi sẽ sử dụng hàm dictreader () để đọc dữ liệu của tệp CSV. Hàm này giống như một người đọc thông thường, nhưng nó ánh xạ thông tin đến một từ điển có các khóa được đưa ra bởi các tên cột và tất cả các giá trị dưới dạng các khóa.use the DictReader() function to read the data of the CSV file. This function is like a regular reader, but it maps the information to a dictionary whose keys are given by the column names and all the values as keys.
Làm cách nào để đọc một tệp CSV liên tiếp trong Python?Bước 1: Để đọc các hàng trong Python, trước tiên, chúng ta cần tải tệp CSV trong một đối tượng.Vì vậy, để tải tệp CSV vào một đối tượng sử dụng phương thức Open ().Bước 2: Tạo một đối tượng đầu đọc bằng cách chuyển đối tượng tệp được tạo ở trên cho hàm đầu đọc.Bước 3: Sử dụng cho vòng lặp trên đối tượng đầu đọc để có được mỗi hàng. |