Hướng dẫn how to convert html into json in python? - làm thế nào để chuyển đổi html thành json trong python?

Hướng dẫn how to convert html into json in python? - làm thế nào để chuyển đổi html thành json trong python?

Chuyển đổi bảng HTML và/hoặc HTML thành JSON.

Cài đặt

pip install html-to-json

Cách sử dụng

HTML đến JSON

import html_to_json

html_string = """<head>
    <title>Test site</title>
    <meta charset="UTF-8"></head>"""
output_json = html_to_json.convert(html_string)
print(output_json)

Khi gọi hàm html_to_json.convert, bạn có thể chọn không nắm bắt các giá trị văn bản từ HTML bằng cách truyền trong đối số từ khóa capture_element_values=False. Bạn cũng có thể chọn không nắm bắt các thuộc tính của các phần tử bằng cách chuyển capture_element_attributes=False vào hàm.

Thí dụ

Ví dụ đầu vào:

<head>
    <title>Floyd Hightower's Projects</title>
    <meta charset="UTF-8">
    <meta name="description" content="Floyd Hightower&#39;s Projects">
    <meta name="keywords" content="projects,fhightower,Floyd,Hightower">
</head>

Ví dụ đầu ra:

{
    "head": [
    {
        "title": [
        {
            "_value": "Floyd Hightower's Projects"
        }],
        "meta": [
        {
            "_attributes":
            {
                "charset": "UTF-8"
            }
        },
        {
            "_attributes":
            {
                "name": "description",
                "content": "Floyd Hightower's Projects"
            }
        },
        {
            "_attributes":
            {
                "name": "keywords",
                "content": "projects,fhightower,Floyd,Hightower"
            }
        }]
    }]
}

Bàn HTML cho JSON

Ngoài việc chuyển đổi HTML thành JSON, thư viện này cũng có thể chuyển đổi các bảng HTML thành JSON một cách thông minh.

Hiện tại, thư viện này có thể xử lý ba loại bảng:

A. Những người có tiêu đề bảng ở hàng đầu tiên B. Những người có tiêu đề bảng trong cột đầu tiên C. Những người không có tiêu đề bảng

Bảng loại A và B được sơ đồ dưới đây:

Thí dụ

Ví dụ đầu vào:

import html_to_json

html_string = """<table>
    <tr>
        <th>#</th>
        <th>Malware</th>
        <th>MD5</th>
        <th>Date Added</th>
    </tr>

    <tr>
        <td>25548</td>
        <td><a href="/stats/DarkComet/">DarkComet</a></td>
        <td><a href="/config/034a37b2a2307f876adc9538986d7b86">034a37b2a2307f876adc9538986d7b86</a></td>
        <td>July 9, 2018, 6:25 a.m.</td>
    </tr>

    <tr>
        <td>25547</td>
        <td><a href="/stats/DarkComet/">DarkComet</a></td>
        <td><a href="/config/706eeefbac3de4d58b27d964173999c3">706eeefbac3de4d58b27d964173999c3</a></td>
        <td>July 7, 2018, 6:25 a.m.</td>
    </tr></table>"""
tables = html_to_json.convert_tables(html_string)
print(tables)

Ví dụ đầu ra:

[
    [
        {
            "#": "25548",
            "Malware": "DarkComet",
            "MD5": "034a37b2a2307f876adc9538986d7b86",
            "Date Added": "July 9, 2018, 6:25 a.m."
        }, {
            "#": "25547",
            "Malware": "DarkComet",
            "MD5": "706eeefbac3de4d58b27d964173999c3",
            "Date Added": "July 7, 2018, 6:25 a.m."
        }
    ]
]

Bàn HTML cho JSON

Ngoài việc chuyển đổi HTML thành JSON, thư viện này cũng có thể chuyển đổi các bảng HTML thành JSON một cách thông minh.

Chúng ta có thể chuyển đổi HTML thành JSON trong Python không?

Các nhà phát triển Python có thể dễ dàng tải và chuyển đổi các tệp HTML thành JSON chỉ trong một vài dòng mã..

Làm cách nào để chuyển đổi HTML thành JSON?

Từ HTML đến JSON cho phép tải URL trang web có các bảng chuyển đổi sang JSON.Nhấp vào nút URL, nhập URL và gửi.Phân tích cú pháp HTML vào JSON hỗ trợ tải tệp HTML để chuyển thành JSON.Nhấp vào nút Tải lên và chọn Tệp.Click on the URL button, Enter URL and Submit. Parsing HTML into JSON supports loading the HTML File to transform to JSON. Click on the Upload button and select File.

Làm thế nào để bạn chuyển đổi sang JSON trong Python?

Nếu bạn có một đối tượng Python, bạn có thể chuyển đổi nó thành chuỗi JSON bằng cách sử dụng phương thức json.dumps ().using the json.dumps() method.

Làm cách nào để chuyển đổi tệp HTML thành Python?

Thêm một tham chiếu thư viện (nhập thư viện) vào dự án Python của bạn.Mở tệp HTML nguồn trong Python.Gọi phương thức 'Lưu ()', chuyển tên tệp đầu ra với phần mở rộng docx.Nhận kết quả chuyển đổi HTML là docx.