Để chuyển đổi một chuỗi HTML thành HTML hoặc DOM thực, bạn có thể sử dụng API Web Show
TL;DR
Ví dụ: giả sử bạn có một chuỗi HTML gồm thẻ
Bây giờ, để chuyển đổi chuỗi này thành thẻ HTML thực, chúng ta có thể sử dụng API web Vì vậy, trước tiên, chúng ta phải tạo một trình phân tích cú pháp bằng cách sử dụng từ khóa
Sau đó, chúng ta có thể sử dụng phương thức 0 trong đối tượng 1 và truyền
Có các loại kịch câm khác mà chúng ta có thể sử dụng, chẳng hạn như
Vì vậy, nó sẽ trông như thế này,
Bây giờ chuỗi HTML được chuyển thành nút HTML DOM. Giờ đây, bạn có thể sử dụng các phương thức và thuộc tính thông thường có sẵn trên nút DOM, chẳng hạn như 8, 9, v.v. Chuyển đổi HTML thành văn bản bằng cách xóa tất cả các thẻ khỏi cú pháp HTML, chỉ trả về văn bản có trong đó cú pháp
đầu vàoScriptDesignerRequiredAcceptedTypesDescription--htmlHTMLRequiredTextNội dung ở định dạng HTML sẽ được chuyển đổi thành văn bảnđầu raScriptDesignerAcceptedTypesDescriptionvalueTextTextTrả về văn bản từ HTML không có thẻ HTMLThí dụChuyển đổi HTML thành văn bản bằng cách xóa tất cả các thẻ
Tải tập tin Nhận xétNếu nội dung được chèn vào tham số HTML không ở định dạng "HTML", Văn bản trả về sẽ là cùng một văn bản được chèn Để làm cho chuỗi có thể in được dưới dạng văn bản thuần túy, chúng ta cần tách chuỗi khỏi các thẻ của nó. Trong bài hôm nay chúng ta sẽ khảo sát một số phương pháp chuyển HTML sang văn bản thuần trong Golang
Phương pháp 1. Sử dụng regex và chức năng Thay thếChúng tôi đã có một bài viết về cách sử dụng regex trong Golang. Phương pháp này giúp loại bỏ các thẻ văn bản dễ dàng và thiết thực. Các giá trị thẻ HTML được thay thế bằng chuỗi trống bằng hàm html: <div><h1>GoLinuxCloud</h1>
<p>This is an html document!</p></div>
-----
html to plain text: GoLinuxCloud
This is an html document! 0. ReplaceAllString trả về một bản sao của src, thay thế các kết quả khớp của Regexp bằng chuỗi thay thế repl. Bên trong thay thế, các ký hiệu $ được diễn giải như trong Mở rộng, vì vậy, ví dụ: $1 đại diện cho văn bản của đối sánh phụ đầu tiênDưới đây là một ví dụ về chuyển đổi tài liệu HTML thành văn bản thuần túy bằng cách xóa tất cả các thẻ HTML
đầu ra html: <div><h1>GoLinuxCloud</h1>
<p>This is an html document!</p></div>
-----
html to plain text: GoLinuxCloud
This is an html document!
CONG ĐỌC. Giải thích chức năng Go Anonymous [Ví dụ thực tế] Phương pháp 2. Phân tích cú pháp HTML thành cây DOMCách tiếp cận này để hoàn thành nhiệm vụ là hiệu quả nhất. Gán văn bản HTML cho bên trongHTML của phần tử giả và chúng tôi sẽ nhận được văn bản thuần túy từ các đối tượng của phần tử văn bản
Với gói HTML, chúng ta có thể dễ dàng sử dụng hai bộ API cơ bản để phân tích cú pháp HTML. API mã thông báo và API phân tích cú pháp nút dựa trên cây Đây là một tệp HTML mẫu Quảng cáo
Đây là hàm html: <div><h1>GoLinuxCloud</h1>
<p>This is an html document!</p></div>
-----
html to plain text: GoLinuxCloud
This is an html document! 1 đọc chuỗi HTML và phân tích nó thành cây DOM
Chúng tôi sẽ duyệt qua tất cả các nút văn bản và thêm tất cả văn bản vào một lát, sau đó in ra lát vào nhật ký bảng điều khiển
đầu ra [ Pets A list of pets dog cat bird rabbit Go Linux Cloud page ]
CONG ĐỌC. Khai báo bản đồ hằng số golang - có thể không? Phương pháp 3. Sử dụng thư viện html2textGói Golang đơn giản để chuyển đổi HTML thành văn bản thuần túy (không có phụ thuộc không chuẩn) html: <div><h1>GoLinuxCloud</h1>
<p>This is an html document!</p></div>
-----
html to plain text: GoLinuxCloud
This is an html document! 2 của tài liệu HTML, cũng như hầu hết các thẻ khác bị loại bỏ nhưng các liên kết được chuyển đổi đúng thành thuộc tính href của chúngCài đặt
Cách sử dụng Đây là một ví dụ đơn giản về việc sử dụng html: <div><h1>GoLinuxCloud</h1>
<p>This is an html document!</p></div>
-----
html to plain text: GoLinuxCloud
This is an html document! 3 để lấy văn bản thuần túy từ tài liệu HTML
đầu ra Quảng cáo A list of pets
dog
cat
bird
rabbit
Go Linux Cloud page
Tóm lượcCác ví dụ dưới đây cho thấy cách chuyển đổi một chuỗi hoặc tệp HTML thành văn bản thuần túy. Lưu ý rằng, bạn không nên cố phân tích cú pháp HTML bằng regex. HTML không phải là ngôn ngữ thông thường, vì vậy bất kỳ biểu thức chính quy nào bạn nghĩ ra đều có thể sẽ thất bại trong một số trường hợp bí truyền. Vì vậy, phương pháp tốt nhất để chuyển đổi tài liệu HTML thành văn bản thuần túy là sử dụng html2text hoặc phân tích văn bản thành cây DOM và duyệt qua các nút văn bản trong cây Làm cách nào để lưu trữ các thẻ HTML trong chuỗi?Bạn có thể lưu trữ mã HTML trong chuỗi của mình chỉ bằng cách đặt mã vào trong dấu ngoặc kép . Điều duy nhất bạn phải ghi nhớ là bạn cần "thoát" các trích dẫn trong chuỗi của mình ở bất cứ đâu bạn tìm thấy chúng trong mã HTML của mình. Dấu gạch chéo ngược \ sẽ thoát khỏi "" trong mã HTML của bạn.
Làm cách nào để chuyển đổi thẻ HTML thành chuỗi trong JS?Thông số. tên thẻ. Thông số này là bắt buộc. Nó chỉ định tên thẻ của các phần tử để lấy Thuộc tính HTML DOM bên trong HTML. Thuộc tính này đặt/trả về nội dung HTML (HTML bên trong) của một phần tử. cú pháp. Trả về thuộc tính InternalHTML Làm cách nào để chuyển đổi thẻ HTML thành chuỗi trong C#?Các bước chuyển đổi HTML thành văn bản trong C# . Cài đặt Aspose. HTML cho. NET từ trình quản lý gói NuGet Bao gồm Aspose. Không gian tên HTML trong dự án của bạn Tải nội dung tệp HTML vào Chuỗi Tạo một thể hiện của lớp HTMLDocument để tải Chuỗi chứa HTML Làm cách nào để chuyển đổi HTML thành chuỗi trực tuyến?Nhấp vào nút URL, Nhập URL và Gửi . Công cụ này hỗ trợ tải File HTML để chuyển đổi sang TEXT. Nhấp vào nút Tải lên và chọn Tệp. HTML to Plain TEXT Converter Online hoạt động tốt trên Windows, MAC, Linux, Chrome, Firefox, Edge và Safari. |