Hướng dẫn pandas read html from string - gấu trúc đọc html từ chuỗi

pandas.read_html (io, *, match = '.+', fault = none, header = none, index_col = none = '.', bộ chuyển đổi = none, na_values ​​= none, keep_default_na = trueread_html(io, *, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, thousands=',', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True, extract_links=None)[source]#

Đọc các bảng HTML thành list của các đối tượng DataFrame.

Tham số iostr, đối tượng đường dẫn hoặc đối tượng giống như tệpiostr, path object, or file-like object

Chuỗi, đối tượng đường dẫn (triển khai os.PathLike[str]) hoặc đối tượng giống như tệp thực hiện hàm read() chuỗi. Chuỗi có thể biểu thị một URL hoặc chính HTML. Lưu ý rằng LXML chỉ chấp nhận các giao thức URL HTTP, FTP và tệp. Nếu bạn có một URL bắt đầu với 'https', bạn có thể thử xóa 's'.

Matchstr hoặc được biên soạn biểu thức chính quy, tùy chọnstr or compiled regular expression, optional

Tập hợp các bảng chứa văn bản khớp với regex hoặc chuỗi này sẽ được trả về. Trừ khi HTML cực kỳ đơn giản, có lẽ bạn sẽ cần phải vượt qua một chuỗi không trống ở đây. Mặc định là ‘.+(Khớp với bất kỳ chuỗi không trống nào). Giá trị mặc định sẽ trả về tất cả các bảng có trên một trang. Giá trị này được chuyển đổi thành một biểu thức thông thường để có hành vi nhất quán giữa súp đẹp và LXML.

hương vị, tùy chọnstr, optional

Động cơ phân tích cú pháp để sử dụng. ‘BS4, và‘ HTML5LIB, đồng nghĩa với nhau, cả hai đều ở đó để tương thích ngược. Mặc định của None cố gắng sử dụng lxml để phân tích cú pháp và nếu điều đó không thành công thì nó rơi trở lại trên bs4 + list0.

tiêu đề hoặc giống như danh sách, tùy chọnint or list-like, optional

Hàng (hoặc danh sách các hàng cho list1) để sử dụng để tạo các tiêu đề cột.

index_colint hoặc giống như danh sách, tùy chọnint or list-like, optional

Cột (hoặc danh sách các cột) để sử dụng để tạo chỉ mục.

SkipRowsInt, Danh sách giống hoặc lát, tùy chọnint, list-like or slice, optional

Số lượng hàng để bỏ qua sau khi phân tích số nguyên cột. Dựa trên 0. Nếu một chuỗi số nguyên hoặc một lát được đưa ra, sẽ bỏ qua các hàng được lập chỉ mục theo chuỗi đó. Lưu ý rằng một chuỗi phần tử duy nhất có nghĩa là ‘Bỏ qua hàng thứ n, trong khi số nguyên có nghĩa là‘ bỏ qua n hàng.

attrsdict, tùy chọndict, optional

Đây là một từ điển các thuộc tính mà bạn có thể vượt qua để sử dụng để xác định bảng trong HTML. Chúng không được kiểm tra tính hợp lệ trước khi được chuyển cho LXML hoặc súp đẹp. Tuy nhiên, các thuộc tính này phải là các thuộc tính bảng HTML hợp lệ để hoạt động chính xác. Ví dụ,

là một từ điển thuộc tính hợp lệ vì thuộc tính thẻ HTML id id là một thuộc tính HTML hợp lệ cho bất kỳ thẻ HTML nào theo tài liệu này.

attrs = {'asdf': 'table'}

không phải là từ điển thuộc tính hợp lệ vì ‘ASDF không phải là thuộc tính HTML hợp lệ ngay cả khi đó là thuộc tính XML hợp lệ. Có thể tìm thấy các thuộc tính bảng HTML 4.01 hợp lệ ở đây. Một bản nháp hoạt động của thông số HTML 5 có thể được tìm thấy ở đây. Nó chứa thông tin mới nhất về các thuộc tính bảng cho web hiện đại.

parse_datesbool, tùy chọnbool, optional

Xem list2 để biết thêm chi tiết.

Hàng ngàn, tùy chọnstr, optional

Phân tách để sử dụng để phân tích hàng ngàn. Mặc định là list3.

EncodingTr, tùy chọnstr, optional

Mã hóa được sử dụng để giải mã trang web. Mặc định là ________ 7.`none`` bảo tồn hành vi mã hóa trước đó, phụ thuộc vào thư viện trình phân tích cú pháp cơ bản (ví dụ: thư viện trình phân tích cú pháp sẽ cố gắng sử dụng mã hóa được cung cấp bởi tài liệu).

DecimalStr, mặc định ‘.str, default ‘.’

Ký tự để nhận ra là dấu thập phân (ví dụ: sử dụng ‘, cho dữ liệu châu Âu).

ConverterSdict, mặc định không códict, default None

Diễn ngôn của các chức năng để chuyển đổi các giá trị trong các cột nhất định. Các khóa có thể là số nguyên hoặc nhãn cột, các giá trị là các hàm lấy một đối số đầu vào, nội dung ô (không phải cột) và trả về nội dung được chuyển đổi.

na_valuesIterable, mặc định không cóiterable, default None

Giá trị Na tùy chỉnh.

keep_default_nabool, mặc định đúngbool, default True

Nếu NA_Values ​​được chỉ định và Keep_Default_NA là sai, các giá trị NAN mặc định bị ghi đè, nếu không chúng được thêm vào.

Displaned_onlyBool, mặc định đúngbool, default True

Cho dù các yếu tố có màn hình hiển thị: Không nên phân tích cú pháp.

Extract_Links {none, all all all, tiêu đề trực tiếp{None, “all”, “header”, “body”, “footer”}

Các phần tử bảng trong (các) phần được chỉ định với các thẻ sẽ được trích xuất HREF.

Mới trong phiên bản 1.5.0.

ReturnSdfs

Một danh sách các khung dữ liệu.

Xem thêm

list5

Đọc một tệp giá trị được phân tách bằng dấu phẩy (CSV) vào DataFrame.

Ghi chú

Trước khi sử dụng chức năng này, bạn nên đọc các gotchas về các thư viện phân tích cú pháp HTML.gotchas about the HTML parsing libraries.

Mong đợi để làm sạch sau khi bạn gọi chức năng này. Ví dụ: bạn có thể cần phải gán thủ công tên cột nếu tên cột được chuyển đổi thành NAN khi bạn chuyển đối số tiêu đề = 0. Chúng tôi cố gắng giả sử càng ít càng tốt về cấu trúc của bảng và đẩy các đặc điểm riêng của HTML có trong bảng cho người dùng.

Hàm này tìm kiếm các phần tử list6 và chỉ cho các hàng list7 và list8 và các phần tử list9 trong mỗi phần tử list7 hoặc list8 trong bảng. list9 là viết tắt của dữ liệu bảng. Hàm này cố gắng xử lý đúng các thuộc tính DataFrame3 và DataFrame4. Nếu hàm có đối số DataFrame5, nó được sử dụng để xây dựng tiêu đề, nếu không, hàm cố gắng tìm tiêu đề trong phần thân (bằng cách đặt các hàng chỉ với các phần tử list8 vào tiêu đề).

Tương tự như list2 đối số tiêu đề được áp dụng sau khi bỏ qua được áp dụng.after skiprows is applied.

Hàm này sẽ luôn trả về danh sách DataFrame hoặc nó sẽ thất bại, ví dụ: nó sẽ không trả về một danh sách trống.

Ví dụ

Xem tài liệu read_html trong phần IO của các tài liệu để biết một số ví dụ về đọc trong các bảng HTML.read_html documentation in the IO section of the docs for some examples of reading in HTML tables.

Pandas có thể đọc HTML không?

Bạn có thể sử dụng chức năng pandas read_html () để đọc các bảng HTML vào khung dữ liệu gấu trúc.Ví dụ sau đây cho thấy cách sử dụng chức năng này để đọc trong một bảng tên nhóm NBA từ trang wikipedia này.. The following example shows how to use this function to read in a table of NBA team names from this Wikipedia page.

Làm thế nào trích xuất dữ liệu bảng HTML từ Python?

Đối với điều này, bạn có thể sử dụng các thư viện Python khác nhau giúp bạn trích xuất nội dung từ bảng HTML.Một phương pháp như vậy có sẵn trong thư viện Python Pandas phổ biến, nó được gọi là read_html ().Phương thức chấp nhận nhiều đối số cho phép bạn tùy chỉnh cách bảng sẽ được phân tích cú pháp.read_html(). The method accepts numerous arguments that allow you to customize how the table will be parsed.

Những phần tử HTML nào được hỗ trợ bởi Pandas read_html ()?

Hàm này tìm kiếm các phần tử và chỉ cho và các hàng và các phần tử trong mỗi hoặc phần tử trong bảng. elements and only for and or
rows and elements within each
element in the table.

Làm thế nào để bạn đọc một bảng trong html?

Chúng ta có thể đọc các bảng của tệp HTML bằng hàm read_html ().Hàm này đọc các bảng của các tệp HTML dưới dạng các khung dữ liệu gấu trúc.Nó có thể đọc từ một tập tin hoặc một url.using the read_html() function. This function read tables of HTML files as Pandas DataFrames. It can read from a file or a URL.