Đọc các bảng HTML thành list của các đối tượng DataFrame. Chuỗi, đối tượng đường dẫn (triển khai os.PathLike[str]) hoặc đối tượng giống như tệp thực hiện hàm read() chuỗi. Chuỗi có thể biểu thị một URL hoặc chính HTML. Lưu ý rằng LXML chỉ chấp nhận các giao thức URL HTTP, FTP và tệp. Nếu bạn có một URL bắt đầu với 'https', bạn có thể thử xóa 's'. Tập hợp các bảng chứa văn bản khớp với regex hoặc chuỗi này sẽ được trả về. Trừ khi HTML cực kỳ đơn giản, có lẽ bạn sẽ cần phải vượt qua một chuỗi không trống ở đây. Mặc định là ‘.+(Khớp với bất kỳ chuỗi không trống nào). Giá trị mặc định sẽ trả về tất cả các bảng có trên một trang. Giá trị này được chuyển đổi thành một biểu thức thông thường để có hành vi nhất quán giữa súp đẹp và LXML. Động cơ phân tích cú pháp để sử dụng. ‘BS4, và‘ HTML5LIB, đồng nghĩa với nhau, cả hai đều ở đó để tương thích ngược. Mặc định của None cố gắng sử dụng lxml để phân tích cú pháp và nếu điều đó không thành công thì nó rơi trở lại trên bs4 + list0. Hàng (hoặc danh sách các hàng cho list1) để sử dụng để tạo các tiêu đề cột. Cột (hoặc danh sách các cột) để sử dụng để tạo chỉ mục. Số lượng hàng để bỏ qua sau khi phân tích số nguyên cột. Dựa trên 0. Nếu một chuỗi số nguyên hoặc một lát được đưa ra, sẽ bỏ qua các hàng được lập chỉ mục theo chuỗi đó. Lưu ý rằng một chuỗi phần tử duy nhất có nghĩa là ‘Bỏ qua hàng thứ n, trong khi số nguyên có nghĩa là‘ bỏ qua n hàng. Đây là một từ điển các thuộc tính mà bạn có thể vượt qua để sử dụng để xác định bảng trong HTML. Chúng không được kiểm tra tính hợp lệ trước khi được chuyển cho LXML hoặc súp đẹp. Tuy nhiên, các thuộc tính này phải là các thuộc tính bảng HTML hợp lệ để hoạt động chính xác. Ví dụ, là một từ điển thuộc tính hợp lệ vì thuộc tính thẻ HTML id id là một thuộc tính HTML hợp lệ cho bất kỳ thẻ HTML nào theo tài liệu này.
attrs = {'asdf': 'table'}
không phải là từ điển thuộc tính hợp lệ vì ‘ASDF không phải là thuộc tính HTML hợp lệ ngay cả khi đó là thuộc tính XML hợp lệ. Có thể tìm thấy các thuộc tính bảng HTML 4.01 hợp lệ ở đây. Một bản nháp hoạt động của thông số HTML 5 có thể được tìm thấy ở đây. Nó chứa thông tin mới nhất về các thuộc tính bảng cho web hiện đại.
parse_datesbool, tùy chọnbool, optionalXem list2 để biết thêm chi tiết.
Hàng ngàn, tùy chọnstr, optionalPhân tách để sử dụng để phân tích hàng ngàn. Mặc định là list3.
EncodingTr, tùy chọnstr, optionalMã hóa được sử dụng để giải mã trang web. Mặc định là ________ 7.`none`` bảo tồn hành vi mã hóa trước đó, phụ thuộc vào thư viện trình phân tích cú pháp cơ bản (ví dụ: thư viện trình phân tích cú pháp sẽ cố gắng sử dụng mã hóa được cung cấp bởi tài liệu).
DecimalStr, mặc định ‘.str, default ‘.’Ký tự để nhận ra là dấu thập phân (ví dụ: sử dụng ‘, cho dữ liệu châu Âu).
ConverterSdict, mặc định không códict, default NoneDiễn ngôn của các chức năng để chuyển đổi các giá trị trong các cột nhất định. Các khóa có thể là số nguyên hoặc nhãn cột, các giá trị là các hàm lấy một đối số đầu vào, nội dung ô (không phải cột) và trả về nội dung được chuyển đổi.
na_valuesIterable, mặc định không cóiterable, default NoneGiá trị Na tùy chỉnh.
keep_default_nabool, mặc định đúngbool, default TrueNếu NA_Values được chỉ định và Keep_Default_NA là sai, các giá trị NAN mặc định bị ghi đè, nếu không chúng được thêm vào.
Displaned_onlyBool, mặc định đúngbool, default TrueCho dù các yếu tố có màn hình hiển thị: Không nên phân tích cú pháp.
Extract_Links {none, all all all, tiêu đề trực tiếp{None, “all”, “header”, “body”, “footer”}Các phần tử bảng trong (các) phần được chỉ định với các thẻ sẽ được trích xuất HREF.
Mới trong phiên bản 1.5.0.
ReturnSdfsMột danh sách các khung dữ liệu.
Xem thêm
list5Đọc một tệp giá trị được phân tách bằng dấu phẩy (CSV) vào DataFrame.
Ghi chú
Trước khi sử dụng chức năng này, bạn nên đọc các gotchas về các thư viện phân tích cú pháp HTML.gotchas about the HTML parsing libraries.
Mong đợi để làm sạch sau khi bạn gọi chức năng này. Ví dụ: bạn có thể cần phải gán thủ công tên cột nếu tên cột được chuyển đổi thành NAN khi bạn chuyển đối số tiêu đề = 0. Chúng tôi cố gắng giả sử càng ít càng tốt về cấu trúc của bảng và đẩy các đặc điểm riêng của HTML có trong bảng cho người dùng.
Hàm này tìm kiếm các phần tử list6 và chỉ cho các hàng list7 và list8 và các phần tử list9 trong mỗi phần tử list7 hoặc list8 trong bảng. list9 là viết tắt của dữ liệu bảng. Hàm này cố gắng xử lý đúng các thuộc tính DataFrame3 và DataFrame4. Nếu hàm có đối số DataFrame5, nó được sử dụng để xây dựng tiêu đề, nếu không, hàm cố gắng tìm tiêu đề trong phần thân (bằng cách đặt các hàng chỉ với các phần tử list8 vào tiêu đề).
Tương tự như list2 đối số tiêu đề được áp dụng sau khi bỏ qua được áp dụng.after skiprows is applied.
Hàm này sẽ luôn trả về danh sách DataFrame hoặc nó sẽ thất bại, ví dụ: nó sẽ không trả về một danh sách trống.
Ví dụ
Xem tài liệu read_html trong phần IO của các tài liệu để biết một số ví dụ về đọc trong các bảng HTML.read_html documentation in the IO section of the docs for some examples of reading in HTML tables.
Pandas có thể đọc HTML không?
Làm thế nào trích xuất dữ liệu bảng HTML từ Python?
Những phần tử HTML nào được hỗ trợ bởi Pandas read_html ()?
elements within each |