HTML sử dụng mã hóa văn bản nào?

TL; DR – Chỉ định mã hóa HTML phù hợp sẽ ngăn trình duyệt không hiển thị các ký tự đặc biệt

nội dung

Hiểu mã hóa ký tự HTML

Nhu cầu mã hóa ký tự phát sinh từ việc lựa chọn rất nhiều ký tự có sẵn. Ngoài các chữ cái Latinh và số Ả Rập thông thường của bạn, còn có các bảng chữ cái nước ngoài, ký hiệu toán học và các ký tự đặc biệt khác. Tuy nhiên, các tài liệu có mã hóa HTML khác nhau được xác định có thể hiển thị chúng khác nhau

Một văn bản giải thích không chính xác dẫn đến một loạt các vấn đề

  • Người dùng không thể đọc đúng văn bản
  • Công cụ tìm kiếm không thể tìm thấy dữ liệu
  • Máy không thể xử lý thông tin

Tất cả các ký tự có sẵn được nhóm thành các bộ cụ thể (còn được gọi tắt là bộ ký tự). Bằng cách xác định mã hóa HTML, bạn cho phép trình duyệt truy cập vào tập hợp cụ thể và hiển thị chính xác các ký tự của nó

Ghi chú. người Nhật thậm chí còn có một thuật ngữ đặc biệt cho một loạt các ký tự được giải thích kém – mojibake (文字化け)

ASCII. Bộ ký tự cơ bản nhất

Mã hóa ký tự HTML đầu tiên và đơn giản nhất được gọi là ASCII. Hầu hết các bộ ký tự hiện đại đều sử dụng nó làm cơ sở tiêu chuẩn

ASCII là viết tắt của Mã tiêu chuẩn Mỹ để trao đổi thông tin. Nó đã được phát triển từ mã điện báo vào đầu những năm 1960 và chứa 128 ký tự, 95 trong số đó có thể in được

  • Chữ cái Latinh viết thường
  • Chữ cái Latinh viết hoa
  • ký hiệu dấu câu
  • Các số từ 0 đến 9

33 ký tự không in được còn được gọi là ký tự điều khiển. Đây là những biểu tượng trong suốt – e. g. , những cái cho phép tách các từ hoặc đoạn văn

Tuy nhiên, mức độ phổ biến của ASCII đã giảm khi Internet ngày càng phát triển trên phạm vi quốc tế. Chỉ hỗ trợ các ký tự Latinh nhanh chóng trở nên không đủ

HTML sử dụng mã hóa văn bản nào?

ưu

  • Thiết kế đơn giản (không có thông tin không cần thiết)
  • Các khóa học chất lượng cao (ngay cả những khóa học miễn phí)
  • Tính năng đa dạng

Những đặc điểm chính

  • chương trình cấp bằng nano
  • Thích hợp cho doanh nghiệp
  • Giấy chứng nhận hoàn thành trả tiền

LOẠI TRỪ. GIẢM GIÁ 75%

HTML sử dụng mã hóa văn bản nào?

ưu

  • Dễ điều hướng
  • Không có vấn đề kỹ thuật
  • Có vẻ quan tâm đến người dùng của nó

Những đặc điểm chính

  • Rất nhiều khóa học đa dạng
  • chính sách hoàn tiền trong 30 ngày
  • Giấy chứng nhận hoàn thành miễn phí

THẤP NHƯ 12. 99$

HTML sử dụng mã hóa văn bản nào?

ưu

  • Trải nghiệm người dùng tuyệt vời
  • Cung cấp nội dung chất lượng
  • Rất minh bạch với giá cả của họ

Những đặc điểm chính

  • Giấy chứng nhận hoàn thành miễn phí
  • Tập trung vào các kỹ năng khoa học dữ liệu
  • Lịch học linh hoạt

GIẢM GIÁ 75%

Lựa chọn tốt nhất của bạn. UTF-8

Unicode là tiêu chuẩn công nghiệp được sử dụng để thống nhất mã hóa ký tự. Nó được xuất bản vào đầu những năm 1990 và có một vài bộ ký tự, chẳng hạn như UTF-8, UTF-16 và UTF-32

UTF-8 là viết tắt của Unicode Transformation Format 8-bit và đã giữ danh hiệu mã hóa ký tự HTML phổ biến nhất kể từ năm 2008. Đến năm 2019, hơn 90 phần trăm tất cả các trang web sử dụng UTF-8. Nó cũng được khuyến nghị sử dụng làm mã hóa ký tự HTML mặc định bởi World Web Consortium

Có nhiều lý do thuyết phục để sử dụng UTF-8

  • Nó hỗ trợ nhiều ngôn ngữ
  • Nó hoàn toàn tương thích với ASCII
  • Nó vốn được sử dụng bởi XML
  • Nó sử dụng ít không gian hơn so với các bảng mã Unicode khác

To declare UTF-8 as your preferred HTML character encoding, you will need to use the tag with the charset attribute and UTF-8 as its value:

<meta charset="UTF-8">

Mã hóa HTML thay thế

Bạn có thể tìm thấy rất nhiều mã hóa thay thế trong Tiêu chuẩn sống mã hóa do Nhóm làm việc về công nghệ ứng dụng siêu văn bản web (WHATWG) tạo ra. Tuy nhiên, chúng tôi thực sự khuyên bạn nên sử dụng UTF-8, vì các bộ ký tự khác chứa ít lựa chọn ký tự hơn và điều đó có thể gây ra sự cố khi hiển thị trang web của bạn

UTF-8 được định nghĩa là mã hóa ký tự mặc định cho HTML5 được sử dụng để hiển thị trang HTML một cách hoàn hảo. Nó khuyến khích các nhà phát triển web sử dụng UTF-8 vì nó bao gồm tất cả các ký tự và ký hiệu trong thực thể sử dụng một byte và hoạt động tốt trong tất cả các trình duyệt. Định dạng chuyển đổi Unicode – 8 bit là một phương thức chuyển đổi ký tự đã nhập thành mã có thể đọc được bằng máy. Thuộc tính bộ ký tự được sử dụng để thực hiện mã hóa ký tự cho HTML

Cú pháp của UTF-8 trong HTML

Specification of UTF-8 Character encoding in the tag is given as:

<meta charset="UTF-8">

Ở đây meta cung cấp dữ liệu về tài liệu HTML nhưng có thể đọc được bằng máy. Và các phần tử của chúng chỉ định một từ khóa, sửa đổi lần cuối, v.v. Thẻ meta này chứa bộ ký tự, cho trình duyệt web biết khi truy cập trang

Bắt đầu khóa học phát triển phần mềm miễn phí của bạn

Phát triển web, ngôn ngữ lập trình, kiểm thử phần mềm và những thứ khác

Mã hóa là cách các số đã cho được chuyển đổi thành số nhị phân mà máy hiểu. Ở đây, mỗi ký tự được tạo thành từ một hoặc nhiều byte tương ứng

Gói phát triển phần mềm tất cả trong một(hơn 600 khóa học, hơn 50 dự án)

HTML sử dụng mã hóa văn bản nào?
HTML sử dụng mã hóa văn bản nào?
HTML sử dụng mã hóa văn bản nào?
HTML sử dụng mã hóa văn bản nào?

HTML sử dụng mã hóa văn bản nào?
HTML sử dụng mã hóa văn bản nào?
HTML sử dụng mã hóa văn bản nào?
HTML sử dụng mã hóa văn bản nào?

Giá
Xem các khóa học

Hơn 600 khóa học trực tuyến. hơn 50 dự án. Hơn 3000 giờ. Giấy chứng nhận có thể kiểm chứng. Truy cập trọn đời
4. 6 (86.560 xếp hạng)

UTF-8 hoạt động như thế nào trong HTML?

  • Ký tự mã hóa phổ biến nhất là ASCII; . UTF-8 là mã hóa cho Unicode, gán một giá trị duy nhất được gọi là điểm mã cho tất cả các ký tự và biểu tượng cảm xúc. Hệ thống mã hóa này giải quyết vấn đề trong không gian ASCII và được coi là mã hóa chiếm ưu thế cho W3C. Và khuyến nghị rằng tất cả các thông báo e-mail có thể được tạo bằng UTF-8. Điều này kiểm tra xem trang có khai báo rõ ràng là UTF-8 hay không bằng cách sử dụng thẻ meta ở đầu tài liệu. Bit quan trọng của UTF-8 được xác định là 8,16, 24 hoặc 32 bit khi chúng được mã hóa thành một đến bốn byte. UTF-8 được coi là tiêu chuẩn toàn cầu cho các ứng dụng hiện có vì nó hiểu được nhiều ứng dụng hơn. Bảng mã này giúp mã hóa văn bản và truyền dữ liệu. Mã hóa UTF-8 thích hợp nhất trên hầu hết các trang web. Tiêu chuẩn này bao gồm tất cả các ký tự, biểu tượng, dấu chấm câu trên toàn thế giới
  • UTF-8 coi phạm vi 0-127 là mã ASCII và sau đó lên đến 192 là phím shift. Và các ký tự tiếp theo, 224-239, phải được chuyển hai lần. Do đó, nó được gọi là mã hóa biến nhiều byte
  • Unicode gán mã duy nhất cho mọi ký tự trong ngôn ngữ của con người. Bộ ký tự (Nhóm tất cả các ký tự có sẵn vào một bộ cụ thể) có thể được ghi đè bằng thuộc tính lang. Unicode này chuyển thành nhị phân và ngược lại. Nó ngăn các kết quả không mong muốn trong các ứng dụng gửi biểu mẫu. UTF-8 nên được xem xét khi chúng tôi thấy các trang web bị trễ dung lượng quá mức. Lưu trữ văn bản UTF-8 thành nhị phân trong khi char trở thành nhị phân, varchar hiển thị thành VARBINARY trong SQL

Ví dụ, hãy lấy văn bản Xin chào, EDUCBA

Mã hóa ký tự UTF-8 được đưa ra như bên dưới

01001000 01101001 00101100 01100101 01000100 01010101 01000011 01000010 01000001 00100001

Chuyển đổi thành cấu trúc nhị phân có thể đọc được bằng máy

Tầm quan trọng chính để sử dụng UTF-8

  • Nó cố tình tương thích với tiêu chuẩn mã hóa ASCII
  • Mã hóa HTML ưa thích này sử dụng ít không gian hơn và hỗ trợ nhiều ngôn ngữ
  • Điều này có lợi cho SEO. Giả sử bạn dùng 2 chuẩn thì dẫn đến vấn đề giải mã ảnh hưởng sai đến SEO. Điều đó có nghĩa là chúng ta cần triển khai ký tự một cách chính xác để hỗ trợ các nỗ lực SEO

Tiếp theo, chúng ta sẽ xem biểu diễn Unicode quan trọng như thế nào khi sử dụng tiếng nước ngoài trong nội dung

Ví dụ về UTF-8 trong HTML

Dưới đây là các ví dụ về UTF-8 trong HTML

Ví dụ 1

Ví dụ đơn giản với nội dung đoạn văn

Mã số

mới. html

<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>Page Title</title>
<style>
body {
background-color: red;
text-align: center;
color: yellow;
font-family: Arial, Helvetica, sans-serif;
}
</style>
</head>
<body>
<h1>!مرحبا بالعالم</h1>
<h2>你叫什么名字?<h2>
<p>This is Chinese Language.</p>
<p>This is the code demonstrating encoding Process</p>
</body>
</html>

Giải trình

  • Ảnh chụp màn hình bên dưới hiển thị nội dung được hiển thị bằng tiếng Trung cũng như tiếng Anh. Điều này là do khi mã HTML ở trên được thực thi trong Trình duyệt hiện đại, nó thường đề cập đến Unicode

đầu ra

HTML sử dụng mã hóa văn bản nào?

Ví dụ #2

Sử dụng các nút cho văn bản đầu vào

Mã số

lang thang. html

<!DOCTYPE HTML >
<html>
<head>
<title>HTML sample -buttons</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>
<form action="addressing" method="post">
<fieldset>
<legend>Selection list</legend>
Checkbox: <input type="checkbox" name="King" value="one"><br>
RadioButton1: <input type="radio" name="Queen" value="two"><br>
RadioButton2: <input type="radio" name="Jack" value="three"
checked="checked"><br>
</fieldset>
<fieldset>
<legend>Give Input</legend>
Login Id: <input type="text" name="Login name"><br>
Password: <input type="password" name="Strong Password"><br>
</fieldset>
<fieldset>
<legend>Designation</legend>
<p><input type="checkbox" name=" Software Engineer"> Software Engineer</p>
<p><input type="checkbox" name="Data Analyst"> Data Analyst</p>
<p><input type="checkbox" name="Web Developer"> Web Developer</p>
<p><input type="checkbox" name=" Senior Analyst"> Senior Analyst</p>
</fieldset>
<p><input type="submit" value="press"> <input type="reset"></p>
</form>
</body>
</html>

Giải trình

  • Ảnh chụp màn hình bên dưới hiển thị nội dung đầu vào được hiển thị bằng tiếng Trung cũng như tiếng Anh. Điều này là do khi mã HTML ở trên được thực thi trong Trình duyệt hiện đại, nó thường đề cập đến Unicode

đầu ra

HTML sử dụng mã hóa văn bản nào?

Ví dụ #3

Mã sử ​​dụng nội dung tiếng nước ngoài

Mã số

mett. html

<!DOCTYPE html>
<html>
<head>
<title>
HTML UTF-8 Charset
</title>
<meta name="keywords"
charset="UTF-8"
content="Meta Tags, Metadata" />
</head>
<body style="text-align:left">
<H1>Hi Instructor!</H1>
<h2>
This is my formal e-mail for the joining.
</h2>
<h3>Hola, me llamo Juan </h3>
<b>Mucho gusto </b>
</body>
</html>

Giải trình

  • Đoạn mã trên sử dụng ngôn ngữ tiếng Tây Ban Nha để kiểm tra tính tương thích trong trình duyệt web

đầu ra

HTML sử dụng mã hóa văn bản nào?

Ví dụ #4

Sử dụng JavaScript

Mã số

Tên. js

<!doctype html>
<html lang="en">
<head>
<meta charset="utf-8">
<title>UTF-8 Charset</title>
<style>
span {
color: blue;
}
span.name {
color: red;
font-weight: bolder;
}
</style>
<script src="https://code.jquery.com/jquery-3.5.0.js"></script>
</head>
<body>
<div>
<span>Thomas,</span>
<span>John Betson,</span>
<span>Valli Tromson</span>
</div>
<div>
<span>आभरणा,</span>
<span>आचुथान,</span>
<span>अभिनंध</span>
</div>
<script>
$( "div span:first-child" )
.css( "text-decoration", "Underline" )
.hover(function() {
$( this ).addClass( "name" );
});
</script>
</body>
</html>

Giải trình

  • The above code uses functions to class the respective class. Before that, we have declared metadata for the encoding process. Here we have assigned an element with another language. Unfortunately, ASCII doesn’t have compatibility to access. Therefore, we have declared UTF-8 to support the type.

đầu ra

HTML sử dụng mã hóa văn bản nào?

Phần kết luận

Vì vậy, đó là tất cả về mã hóa UTF-8 trong HTML. Chúng tôi đã xem qua Unicode và mã hóa trong HTML một cách ngắn gọn và việc triển khai HTML và JavaScript. Trong thế giới phần mềm mới nổi này, các bộ ký tự không khả thi lắm; . Do đó, người ta nói rằng tốt nhất nên sử dụng UTF-8 ở mọi nơi không cần bất kỳ mã hóa chuyển đổi nào

Bài viết được đề xuất

Đây là hướng dẫn về UTF-8 trong HTML. Ở đây chúng tôi thảo luận về phần giới thiệu, hoạt động, tầm quan trọng chính của việc sử dụng UTF-8 và các ví dụ tương ứng. Bạn cũng có thể xem các bài viết sau để tìm hiểu thêm –

Là HTML ASCII hay UTF

Chuẩn HTML5. Unicode UTF-8 . Unicode cho phép xử lý, lưu trữ và vận chuyển văn bản độc lập với nền tảng và ngôn ngữ. Mã hóa ký tự mặc định trong HTML-5 là UTF-8.

Tại sao lại là UTF

Tại sao lại sử dụng UTF-8? . Bạn không thể mã hóa các phần khác nhau của tài liệu bằng các mã hóa khác nhau. Mã hóa dựa trên Unicode chẳng hạn như UTF-8 có thể hỗ trợ nhiều ngôn ngữ và có thể chứa các trang và biểu mẫu trong bất kỳ hỗn hợp nào của các ngôn ngữ đó .

UTF là gì

UTF-8 (UCS Transformation Format 8) là mã hóa ký tự phổ biến nhất của World Wide Web. Mỗi ký tự được đại diện bởi một đến bốn byte. UTF-8 tương thích ngược với ASCII và có thể đại diện cho bất kỳ ký tự Unicode tiêu chuẩn nào

UTF là gì

UTF-8 mã hóa một ký tự thành chuỗi nhị phân gồm một, hai, ba hoặc bốn byte. UTF-16 mã hóa một ký tự Unicode thành một chuỗi hai hoặc bốn byte . Sự khác biệt này là hiển nhiên từ tên của họ. Trong UTF-8, biểu diễn nhị phân nhỏ nhất của một ký tự là một byte hoặc tám bit.