Hướng dẫn html to java converter

Chuyển đổi HTML thành DOC bằng cách sử dụng Java

Cần phải chuyển đổi HTML DOC file lập trình? Với Java for Java, bạn có thể chuyển đổi HTML thành DOC chỉ bằng một vài dòng mã Java.

Chúng tôi Java API tạo DOC từ HTML với chất lượng chuyên nghiệp. Kiểm tra chất lượng cao nhất HTML sang DOC ngay trong trình duyệt của bạn. Một mạnh mẽ Java chuyển đổi API cho phép chuyển HTML file với nhiều định dạng phổ biến.

Lưu HTML dưới dạng DOC trong Java

Ví dụ sau minh họa cách chuyển đổi HTML thành DOC trong Java.

Thực hiện theo các bước đơn giản để biến một HTML file vào DOC định dạng. Đọc HTML từ ổ đĩa cục bộ, sau đó chỉ cần lưu nó dưới dạng DOC, chỉ định định dạng tệp được yêu cầu bằng phần mở rộng DOC Đối với cả việc đọc HTML DOC bạn có thể sử dụng các tên tệp đủ điều kiện. Nội dung và định dạng DOC đầu ra sẽ giống với tài liệu HTML.

Java thư viện để chuyển đổi HTML thành DOC

Chúng tôi lưu trữ các gói Java trong kho Maven. 'Aspose.Words dành cho Java' là một JAR phổ biến chứa mã byte. Vui lòng làm theo hướng dẫn từng bước về cách cài đặt nó vào môi trường nhà phát triển Java của bạn.

yêu cầu hệ thống

Java SE 7 và Java phiên bản Java mới hơn được hỗ trợ. Chúng tôi cũng cung cấp một gói riêng cho Java SE 6 trong trường hợp bạn bắt buộc phải sử dụng JRE lỗi thời này.

Java của chúng tôi đa nền tảng và chạy trên tất cả các hệ điều hành có JVM, bao gồm Microsoft Windows, Linux, macOS, Android và iOS.

Để biết thông tin về các gói phụ thuộc tùy chọn, chẳng hạn như JogAmp JOGL, công cụ phông chữ Harfbuzz Java Advanced Imaging JAI, vui lòng tham khảo Tài liệu sản phẩm.

Chuyển đổi chữ thành HTML bằng cách sử dụng Java

Cần phải chuyển đổi chữ HTML file lập trình? Với Java for Java, bạn có thể chuyển đổi chữ thành HTML chỉ bằng một vài dòng mã Java.

Chúng tôi Java API tạo HTML từ chữ với chất lượng chuyên nghiệp. Kiểm tra chất lượng cao nhất chữ sang HTML ngay trong trình duyệt của bạn. Một mạnh mẽ Java chuyển đổi API cho phép chuyển chữ file với nhiều định dạng phổ biến.

Lưu chữ dưới dạng HTML trong Java

Ví dụ sau minh họa cách chuyển đổi chữ thành HTML trong Java.

Thực hiện theo các bước đơn giản để biến một chữ file vào HTML định dạng. Đọc chữ từ ổ đĩa cục bộ, sau đó chỉ cần lưu nó dưới dạng HTML, chỉ định định dạng tệp được yêu cầu bằng phần mở rộng HTML Đối với cả việc đọc chữ HTML bạn có thể sử dụng các tên tệp đủ điều kiện. Nội dung và định dạng HTML đầu ra sẽ giống với tài liệu chữ.

Java thư viện để chuyển đổi chữ thành HTML

Chúng tôi lưu trữ các gói Java trong kho Maven. 'Aspose.Words dành cho Java' là một JAR phổ biến chứa mã byte. Vui lòng làm theo hướng dẫn từng bước về cách cài đặt nó vào môi trường nhà phát triển Java của bạn.

yêu cầu hệ thống

Java SE 7 và Java phiên bản Java mới hơn được hỗ trợ. Chúng tôi cũng cung cấp một gói riêng cho Java SE 6 trong trường hợp bạn bắt buộc phải sử dụng JRE lỗi thời này.

Java của chúng tôi đa nền tảng và chạy trên tất cả các hệ điều hành có JVM, bao gồm Microsoft Windows, Linux, macOS, Android và iOS.

Để biết thông tin về các gói phụ thuộc tùy chọn, chẳng hạn như JogAmp JOGL, công cụ phông chữ Harfbuzz Java Advanced Imaging JAI, vui lòng tham khảo Tài liệu sản phẩm.

Introduction

In this tutorial, we are going to show how to use jsoup library to convert HTML content into plain text without HTML tag in a Java application.

Nội dung chính

  • How do I convert HTML to plain text?
  • How do I remove text tags in HTML?
  • How do I convert HTML to PDF?
  • How do I convert HTML to plain text in Excel?

Add jsoup library to your Java project

To use jsoup Java library in the Gradle build project, add the following dependency into the build.gradle file.

compile 'org.jsoup:jsoup:1.13.1'

To use jsoup Java library in the Maven build project, add the following dependency into the pom.xml file.

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

To download the jsoup-1.13.1.jar file you can visit jsoup download page at jsoup.org/download

Convert HTML String into Plain Text

The Java application below, we use Jsoup.clean() method to remove HTML tags in a HTML content to return plain text content.

import org.jsoup.Jsoup;
import org.jsoup.safety.Whitelist;

public class ConvertHtmlToText {
    public static void main(String... args) {
        String htmlString = "<div><h2>Simple Solution</h2><p>Convert HTML to Text</p></div>";
        String outputText = Jsoup.clean(htmlString, new Whitelist());

        System.out.println(outputText);
    }
}

The output is:

Simple SolutionConvert HTML to Text

Convert HTML from Website into Plain Text

In the following example Java program, we combine Jsoup.clean() with Jsoup.connect() method provided by jsoup library to download HTML content from URL and then remove HTML tags.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.safety.Whitelist;

import java.io.IOException;

public class ConvertHtmlToTextFromUrl {
    public static void main(String... args) {
        try {
            String url = "https://simplesolution.dev/";
            Document document = Jsoup.connect(url).get();
            String htmlString = document.html();
            String outputText = Jsoup.clean(htmlString, new Whitelist());

            System.out.println(outputText);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

The output is:

Convert HTML File into Plain Text

Following examples to show how to read HTML content from a file and remove HTML tags. For example, we have a sample.html file with the following content.

<!DOCTYPE html>
<html>
<body>
    <span class="test">Simple Solution</span>
</body>
</html>

Example 1 read file content NIO classes .

import org.jsoup.Jsoup;
import org.jsoup.safety.Whitelist;

import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;

public class ConvertHtmlToTextFromFile1 {
    public static void main(String... args) {
        try {
            String fileName = "sample.html";
            Path filePath = Paths.get(fileName);
            byte[] fileBytes = Files.readAllBytes(filePath);
            String htmlString = new String(fileBytes, "UTF-8");
            String outputText = Jsoup.clean(htmlString, new Whitelist());

            System.out.println(outputText);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

The output is:

Example 2 read HTML file using Jsoup.parse() method.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.safety.Whitelist;

import java.io.File;
import java.io.IOException;

public class ConvertHtmlToTextFromFile2 {
    public static void main(String... args) {
        try {
            String fileName = "sample.html";
            File file = new File(fileName);
            Document document = Jsoup.parse(file, "UTF-8");
            String htmlString = document.html();
            String outputText = Jsoup.clean(htmlString, new Whitelist());

            System.out.println(outputText);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

The output is:

Happy Coding 😊

Related Articles

jsoup parse HTML Document from a File and InputStream in Java

jsoup parse HTML Document from an URL in Java

Read Text Files in Java

How do I convert HTML to plain text?

Convert HTML file to a text file (preserving HTML code and text)..

Click the File tab again, then click the Save as option..

In the Save as type drop-down list, select the Plain Text (*. txt) option. ... .

Click the Save button to save as a text document..

How do I remove text tags in HTML?

Removing HTML Tags from Text.

Press Ctrl+H. ... .

Click the More button, if it is available. ... .

Make sure the Use Wildcards check box is selected..

In the Find What box, enter the following: \<i\>([!<]@)\.

In the Replace With box, enter the following: \1..

With the insertion point still in the Replace With box, press Ctrl+I once..

How do I convert HTML to PDF?

How to convert HTML pages into PDF files:.

On a Windows computer, open an HTML web page in Internet Explorer, Google Chrome, or Firefox. ... .

Click the “Convert to PDF” button in the Adobe PDF toolbar to start the PDF conversion..

Enter a file name and save your new PDF file in a desired location..

How do I convert HTML to plain text in Excel?

Remove HTML from Text in Excel Select the cell that contains the HTML and hit Ctrl + H to go to the Find/Replace window. In the Find what: input, type <*> and then leave the Replace with: input blank.