Xóa các thẻ HTML khỏi chuỗi

HTML Stripper xóa các thẻ HTML và chuyển đổi mã HTML thành văn bản, giúp loại bỏ định dạng văn bản của HTML để lưu và chia sẻ TEXT. Tước HTML là quá trình loại bỏ các thẻ HTML không cần thiết khỏi trang web

Trường hợp sử dụng phổ biến cho điều này là khi ai đó muốn xuất bản một bài viết trên một trang web mà họ không kiểm soát. Một số trang web áp đặt các giới hạn nghiêm ngặt về nội dung nào có thể được chèn vào HTML. Đôi khi, điều này thậm chí có thể bao gồm việc phải xóa các thẻ được yêu cầu để định dạng hoặc chỉ định bố cục của trang web

Đây là một công cụ hữu ích cho những người viết blog muốn có thông tin đầu vào từ độc giả của họ trên bài đăng trên blog mà không bị sa lầy bởi tất cả các định dạng không mong muốn mà hệ thống nhận xét có thể thêm vào

HTML Stripper có thể được người viết nội dung và nhà phát triển web sử dụng để xóa các thẻ html trong nội dung của họ trước khi xuất bản hoặc gửi nội dung đó đến danh sách liên hệ của họ

Bạn có thể làm gì với Công cụ xóa thẻ HTML?

  • Công cụ này giúp bạn tách các thẻ HTML, loại bỏ mã htm hoặc html và chuyển đổi thành TEXT String/Data
  • Công cụ này cho phép tải URL HTML chuyển đổi thành văn bản thuần túy. Nhấp vào nút URL, Nhập URL và Gửi
  • Công cụ này hỗ trợ tải File HTML để chuyển đổi sang stripHTML. Nhấp vào nút Tải lên và chọn Tệp
  • HTML Stripper Online hoạt động tốt trên Windows, MAC, Linux, Chrome, Firefox, Edge và Safari

Strip HTML loại bỏ các thẻ HTML như thế nào?

HTML Stripper sử dụng biểu thức chính quy JavaScript để xóa các thẻ và áp dụng để giữ dòng mới hoặc không logic trong đó

Chỉ cần Dán mã HTML của bạn và nhấp vào Dải HTML. Nó không gửi mã đến máy chủ để xóa mã thẻ HTML

Trong trường hợp tải lên tệp, Trình duyệt sẽ đọc tệp và xóa các thẻ và để tải lên URL, trình duyệt sẽ gửi url đến máy chủ và trả về dữ liệu html, sau đó xóa các thẻ html

Ví dụ về dải HTML

HTML Thử đi

h1 State Farm 😎

h2 Berkshire Hathaway

h3 Progressive Group

h4 Liberty Mutual

h5 Allstate
h6 Travelers Group

Đã xóa văn bản thẻ HTML

h1 State Farm 😎
h2 Berkshire Hathaway
h3 Progressive Group
h4 Liberty Mutual
h5 Allstate
h6 Travelers Group

Tại sao tôi cần sử dụng HTML Stripper?

Nó giúp người dùng xóa/xóa tất cả mã HTML khỏi Mã HTML được cung cấp và trả về chuỗi Văn bản thuần túy

Làm cách nào để bạn xóa Mã HTML của mình khỏi một URL HTML nhất định?

Người dùng có thể sao chép và dán mã HTML bằng nguồn xem của URL hoặc nhấp vào nút URL và nhập URL và nhấp vào Nút Strip HTML

Dành cho người dùng nâng cao

URL bên ngoài HTML

Tải URL bên ngoài HTML trong URL trình duyệt như thế này https. // làm đẹp mã. org/html-stripper?url=external-url

Vấn đề có vẻ khá đơn giản. Tuy nhiên, tùy thuộc vào yêu cầu, nó có thể có các biến thể khác nhau

Trong hướng dẫn này, chúng ta sẽ thảo luận cách thực hiện điều đó bằng cách sử dụng Java

2. Sử dụng Regex

Vì chúng tôi đã có HTML dưới dạng biến Chuỗi, chúng tôi cần thực hiện một loại thao tác văn bản

Khi đối mặt với các vấn đề thao tác văn bản, biểu thức chính quy (Regex) có thể là ý tưởng đầu tiên xuất hiện

Xóa các thẻ HTML khỏi một chuỗi sẽ không phải là một thách thức đối với Regex vì bất kể các phần tử HTML bắt đầu hay kết thúc, chúng đều tuân theo mẫu “< … >”

If we translate it into Regex, it would be “<[^>]*>” or “<.*?>”.

We should note that Regex does greedy matching by default. That is, the Regex “<.*>” won't work for our problem since we want to match from ‘<‘ until the next ‘>‘ instead of the last ‘>‘ in a line.

Bây giờ, hãy kiểm tra xem nó có thể xóa thẻ khỏi nguồn HTML không

2. 1. Xóa thẻ khỏi ví dụ1. html

Trước khi chúng tôi thử xóa các thẻ HTML, trước tiên hãy tạo một ví dụ HTML, chẳng hạn như ví dụ1. html

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
        "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
    <title>This is the page title</title>
</head>
<body>
    <p>
        If the application X doesn't start, the possible causes could be:<br/>
        1. <a href="maven.com">Maven</a> is not installed.<br/>
        2. Not enough disk space.<br/>
        3. Not enough memory.
    </p>
</body>
</html>

Bây giờ, hãy viết một bài kiểm tra và sử dụng String. replaceAll() để xóa các thẻ HTML

String html = .. // load example1.html
String result = html.replaceAll("<[^>]*>", "");
System.out.println(result);

Nếu chúng ta chạy phương thức thử nghiệm, chúng ta sẽ thấy kết quả



    This is the page title


    
        If the application X doesn't start, the possible causes could be:
        1. Maven is not installed.
        2. Not enough disk space.
        3. Not enough memory.


Đầu ra trông khá tốt. Điều này là do tất cả các thẻ HTML đã bị xóa

Nó bảo tồn khoảng trắng từ HTML bị tước. Nhưng chúng ta có thể dễ dàng loại bỏ hoặc bỏ qua những dòng trống hoặc khoảng trắng đó khi chúng ta xử lý văn bản được trích xuất. Càng xa càng tốt

2. 2. Xóa thẻ khỏi ví dụ2. html

Như chúng ta vừa thấy, sử dụng Regex để xóa các thẻ HTML khá đơn giản. Tuy nhiên, cách tiếp cận này có thể gặp vấn đề vì chúng tôi không thể dự đoán nguồn HTML nào chúng tôi sẽ nhận được

For example, an HTML document may have