HTML Stripper xóa các thẻ HTML và chuyển đổi mã HTML thành văn bản, giúp loại bỏ định dạng văn bản của HTML để lưu và chia sẻ TEXT. Tước HTML là quá trình loại bỏ các thẻ HTML không cần thiết khỏi trang web Show
Trường hợp sử dụng phổ biến cho điều này là khi ai đó muốn xuất bản một bài viết trên một trang web mà họ không kiểm soát. Một số trang web áp đặt các giới hạn nghiêm ngặt về nội dung nào có thể được chèn vào HTML. Đôi khi, điều này thậm chí có thể bao gồm việc phải xóa các thẻ được yêu cầu để định dạng hoặc chỉ định bố cục của trang web Đây là một công cụ hữu ích cho những người viết blog muốn có thông tin đầu vào từ độc giả của họ trên bài đăng trên blog mà không bị sa lầy bởi tất cả các định dạng không mong muốn mà hệ thống nhận xét có thể thêm vào HTML Stripper có thể được người viết nội dung và nhà phát triển web sử dụng để xóa các thẻ html trong nội dung của họ trước khi xuất bản hoặc gửi nội dung đó đến danh sách liên hệ của họ Bạn có thể làm gì với Công cụ xóa thẻ HTML?
Strip HTML loại bỏ các thẻ HTML như thế nào?HTML Stripper sử dụng biểu thức chính quy JavaScript để xóa các thẻ và áp dụng để giữ dòng mới hoặc không logic trong đó Chỉ cần Dán mã HTML của bạn và nhấp vào Dải HTML. Nó không gửi mã đến máy chủ để xóa mã thẻ HTML Trong trường hợp tải lên tệp, Trình duyệt sẽ đọc tệp và xóa các thẻ và để tải lên URL, trình duyệt sẽ gửi url đến máy chủ và trả về dữ liệu html, sau đó xóa các thẻ html Ví dụ về dải HTMLHTML Thử đi h1 State Farm 😎 Đã xóa văn bản thẻ HTML h1 State Farm 😎 h2 Berkshire Hathaway h3 Progressive Group h4 Liberty Mutual h5 Allstate h6 Travelers Group Tại sao tôi cần sử dụng HTML Stripper?Nó giúp người dùng xóa/xóa tất cả mã HTML khỏi Mã HTML được cung cấp và trả về chuỗi Văn bản thuần túy Làm cách nào để bạn xóa Mã HTML của mình khỏi một URL HTML nhất định?Người dùng có thể sao chép và dán mã HTML bằng nguồn xem của URL hoặc nhấp vào nút URL và nhập URL và nhấp vào Nút Strip HTML Dành cho người dùng nâng cao URL bên ngoài HTML Tải URL bên ngoài HTML trong URL trình duyệt như thế này https. // làm đẹp mã. org/html-stripper?url=external-url Vấn đề có vẻ khá đơn giản. Tuy nhiên, tùy thuộc vào yêu cầu, nó có thể có các biến thể khác nhau Trong hướng dẫn này, chúng ta sẽ thảo luận cách thực hiện điều đó bằng cách sử dụng Java 2. Sử dụng RegexVì chúng tôi đã có HTML dưới dạng biến Chuỗi, chúng tôi cần thực hiện một loại thao tác văn bản Khi đối mặt với các vấn đề thao tác văn bản, biểu thức chính quy (Regex) có thể là ý tưởng đầu tiên xuất hiện Xóa các thẻ HTML khỏi một chuỗi sẽ không phải là một thách thức đối với Regex vì bất kể các phần tử HTML bắt đầu hay kết thúc, chúng đều tuân theo mẫu “< … >” If we translate it into Regex, it would be “<[^>]*>” or “<.*?>”. We should note that Regex does greedy matching by default. That is, the Regex “<.*>” won't work for our problem since we want to match from ‘<‘ until the next ‘>‘ instead of the last ‘>‘ in a line. Bây giờ, hãy kiểm tra xem nó có thể xóa thẻ khỏi nguồn HTML không 2. 1. Xóa thẻ khỏi ví dụ1. htmlTrước khi chúng tôi thử xóa các thẻ HTML, trước tiên hãy tạo một ví dụ HTML, chẳng hạn như ví dụ1. html
Bây giờ, hãy viết một bài kiểm tra và sử dụng String. replaceAll() để xóa các thẻ HTML
Nếu chúng ta chạy phương thức thử nghiệm, chúng ta sẽ thấy kết quả
Đầu ra trông khá tốt. Điều này là do tất cả các thẻ HTML đã bị xóa Nó bảo tồn khoảng trắng từ HTML bị tước. Nhưng chúng ta có thể dễ dàng loại bỏ hoặc bỏ qua những dòng trống hoặc khoảng trắng đó khi chúng ta xử lý văn bản được trích xuất. Càng xa càng tốt 2. 2. Xóa thẻ khỏi ví dụ2. htmlNhư chúng ta vừa thấy, sử dụng Regex để xóa các thẻ HTML khá đơn giản. Tuy nhiên, cách tiếp cận này có thể gặp vấn đề vì chúng tôi không thể dự đoán nguồn HTML nào chúng tôi sẽ nhận được For example, an HTML document may have |