Cách xử lý lỗi 404 bằng robot txt năm 2024

Lỗi not found (404) và soft 404 trong Google Search Console (GSC) có thể ám chỉ đến các trang chưa được index. Cả hai lỗi này đều có thể gây ảnh hưởng tiêu cực đến việc SEO website của bạn. Do đó, hãy cùng Vietnix tìm hiểu nguyên nhân, cách khắc phục lỗi not found 404 và soft 404 trong GSC ngay sau đây.

Lỗi not found (404) là gì?

Lỗi not found (404) trong Google Search Console xảy ra khi máy chủ không tìm thấy trang được yêu cầu và trả về mã phản hồi HTTP 404. Các máy chủ giao tiếp với các trình thu thập thông tin và trình duyệt thông qua mã trạng thái (status code). Khi bạn có thể truy cập một trang mà không gặp vấn đề gì, điều này có nghĩa là máy chủ đã trả lời yêu cầu trình duyệt của bạn bằng mã trạng thái 200.

Cách xử lý lỗi 404 bằng robot txt năm 2024
Lỗi not found (404) là gì?

Cũng có nhiều mã trạng thái liên quan đến các lỗi có thể xảy ra, làm cho máy chủ không thể cho bạn truy cập vào một trang. Mã trạng thái 404 là một trong số đó. Có nghĩa là trang không khả dụng vì máy chủ không thể tìm thấy – Google không index các trang 404 vì chúng không có giá trị cho người dùng.

Nguyên nhân gây ra lỗi not found (404) trong Google Search Console

Lỗi not found (404) trong Google Search Console có thể xảy ra do những nguyên nhân dưới đây:

Xóa một trang

Bạn có thể vô tình xóa một trang trong quá trình quản lý website. Nếu đó là một trang quan trọng có nhiều liên kết trỏ đến có thể làm mất một lượng traffic đáng kể cho website của bạn. Tuy nhiên, cũng có trường hợp bạn muốn xóa nội dung một cách có mục đích vì những lý do sau đây:

  • * Tối ưu những nội dung bị trùng lặp (duplicate content) không mang giá trị cho doanh nghiệp và người dùng, bạn cũng không muốn chỉnh sửa nội dung đó.
  • * Có Orphan pages không mang traffic đến website, nhưng bạn không thể liên kết đến hoặc redirect chúng.
  • * Giải quyết các trang sản phẩm hết hàng không còn nhu cầu tìm kiếm hoặc backlink và không quay trở lại website của bạn.
  • * Ẩn nội dung mà bạn vô tình publish trên trang web chính ví dụ như trong quá trình di chuyển website.

Cách xử lý lỗi 404 bằng robot txt năm 2024
Xóa một trang gây ra lỗi 404

Việc xóa bỏ một trang không mang lại giá trị cho website hoặc có thể ảnh hưởng xấu đến quy trình SEO là hoàn toàn phù hợp, nếu bạn không thể giải quyết các vấn đề của mình bằng cách khác. Chẳng hạn như khi sửa đổi hoặc redirect nội dung, bạn hoàn toàn có thể thiết lập mã trạng thái 404.

Thay đổi cấu trúc URL

Website của bạn thường xuyên thay đổi, vì vậy việc một số địa chỉ URL thay đổi theo thời gian là điều bình thường. Tuy nhiên, nếu có liên kết trỏ đến một trang bị sai, máy chủ sẽ không thể hiển thị nội dung mà người dùng yêu cầu vì không thể tìm thấy trang đó. Một trường hợp khác là bạn viết sai chính tả trong URL khi thêm liên kết thủ công bằng tay hoặc gõ để truy cập vào một trang cụ thể.

Ví dụ: Việc sử dụng các từ có cách viết khác nhau như optimisation với optimization hoặc thêm khoảng trắng vào URL vì chúng sẽ bị thay thế bằng chuỗi %20 (vietnix.vn/web-%20hosting).

Mặc dù với bạn, những thay đổi này có thể dường như không quan trọng. Nhưng với bot công cụ tìm kiếm, một sự khác biệt nhỏ trong URL cũng được hiểu là một URL khác.

Lỗi not found (404) ảnh hưởng đến SEO như thế nào?

Tuy việc website có một vài trang not found (404) là điều bình thường, nhưng nếu không tối ưu chúng có thể gây ra các vấn đề khác trên website của bạn. Cụ thể như:

Ảnh hưởng đến trải nghiệm của người dùng

Khi truy cập vào một trang mà không thấy hiển thị nội dung, điều này sẽ tạo ra trải nghiệm không tốt cho người dùng và ảnh hưởng đến tỷ lệ chuyển đổi trên trang. Vì vậy, bạn nên tạo một trang 404 tùy chỉnh không chỉ có giao diện hấp dẫn mà còn cung cấp thông tin cho người dùng như sau:

  • Lý do tại sao người dùng thấy trang “Không tìm thấy (404)”.
  • Các hành động khác mà người dùng có thể thực hiện trên website của bạn, chẳng hạn như đọc các bài viết mới nhất hoặc bài viết hàng đầu trên trang.

Tạo một trang 404 chứa đầy đủ thông tin giúp bạn có thể khuyến khích người dùng tiếp tục ở lại website của bạn, ngay cả khi họ không thể truy cập được trang cụ thể mà họ đang tìm kiếm.

Cách xử lý lỗi 404 bằng robot txt năm 2024
Ảnh hưởng đến trải nghiệm của người dùng

Lãng phí crawl budget

Google không có tài nguyên vô tận để thu thập dữ liệu (crawl) trên toàn bộ website. Nếu các bot của Google gặp phải các trang lỗi 404 và dành nhiều thời gian để thu thập dữ liệu từ những trang này có thể khiến bot bỏ lỡ việc truy cập vào những trang có giá trị hơn trên website của bạn. Điều này dẫn đến việc lãng phí tài nguyên dành cho việc thu thập dữ liệu. Vì vậy, để đảm bảo các bot của Google có thể thu thập đủ dữ liệu trên website, bạn cần tối ưu hóa việc sử dụng crawl budget.

Làm giảm traffic và tín hiệu xếp hạng

Nếu bạn có nhiều internal link và external link trỏ đến các trang 404 sẽ làm lãng phí sự tích lũy của PageRank. Từ đó dẫn đến việc giảm traffic và ảnh hưởng đến thứ hạng website của bạn.

Cách khắc phục lỗi not found (404)

Đầu tiên, bạn cần kiểm tra danh sách các trang bị ảnh hưởng trong báo cáo Page indexing tại mục Index Coverage để xem chúng có phải là kết quả do bạn cố ý thực hiện hay không. Việc điều hướng các trang 404 sẽ dễ dàng hơn nếu bạn quản lý một website lớn. Bạn có thể sử dụng các công cụ như Screaming Frog hoặc WebSite Auditor.

Cách xử lý lỗi 404 bằng robot txt năm 2024
Cách khắc phục lỗi not found (404)

Ngoài ra, bạn cần đảm bảo XML sitemap không chứa trang bất kỳ trang not found (404) nào. Bạn có thể lọc các URL bị ảnh hưởng bằng cách chọn All submitted pages ở góc trên bên trái của trang trạng thái. Tốt nhất trong file sitemap chỉ nên bao gồm các trang phản hồi với mã trạng thái 200, không có URL nào trong danh sách All submitted pages (hoặc trong trạng thái Submitted URL Not found (404) như trước đây).

Nếu không, điều này có thể có nghĩa là:

Bạn không muốn trang được index nữa – bạn đã xóa một trang đã gửi nhưng chưa cập nhật file sitemap hoặc bạn đã cập nhật file sitemap nhưng vẫn còn trang lỗi.

Mỗi khi thực hiện thay đổi, bạn cần cập nhật lại file sitemap. Bởi vì khi bạn thực hiện thay đổi, chúng sẽ không được xử lý ngay. Bạn cần kiểm tra lại báo cáo All submitted pages của khi Google tiến hành thu thập dữ liệu từ sitemap.

  • Bạn muốn trang được index – bạn đã thêm trang vào file sitemap nhưng lại vô tình xóa mất URL.
  • Sitemap chứa các URL mà bạn không quan tâm đến việc index. Đối với trường hợp này, bạn cần áp dụng các phương pháp tốt nhất để tạo file sitemap XML cho SEO để tránh làm lãng phí crawl budget.

Nếu bạn xác nhận các trang not found (404) không tồn tại và chúng không gây ra vấn đề khác, bạn có thể bỏ qua trạng thái not found (404). Tuy nhiên, nếu không phải trường hợp của bạn hoặc bạn không chắc chắn các URL not found (404) ảnh hưởng đến website như thế nào, hãy theo dõi tiếp các bước sau đây.

Cách xử lý lỗi 404 bằng robot txt năm 2024
Lỗi not found 404 và soft 404 trong GSC là gì? Cách khắc phục lỗi 404 mới nhất 20

Thiết lập redirect 301

Khi cân nhắc redirect trang not found (404), bạn cần xem xét các trường hợp sau:

  • Bạn đã chuyển nội dung đến một trang khác có liên quan.
  • Bạn đã xóa trang, nhưng trên website vẫn còn một trang liên quan và bạn muốn điều hướng người dùng tới đó.
  • Bạn đã xóa trang trước đây mang lại traffic hoặc vẫn còn nhu cầu tìm kiếm cho các từ khóa mà trang đó nhắm đến.
  • Có nhiều internal link và external link trỏ đến trang not found (404), vì vậy bạn muốn chuyển tiếp quyền của trang đó.

Kết quả tốt nhất là sau khi thực hiện redirect đúng cách (và sau khi Google tiến hành thu thập lại dữ liệu URL), trang Not found (404) sẽ thay đổi trạng thái thành Page with redirect trong Google Search Console. Tuy nhiên, bạn không nên vội redirect các trang not found (404) tới các trang không liên quan ngữ cảnh chỉ vì muốn redirect. Bởi vì điều này có thể gây ra các vấn đề khác trên website. Ví dụ như lỗi soft 404.

Khi bạn muốn thiết lập một trang cụ thể về mã trạng thái HTTP 404, bạn cần đảm bảo trang đó không liên kết rộng rãi trên toàn bộ website và từ các nguồn bên ngoài. Bạn có thể thay thế internal link tới các trang 404 bằng các liên kết đến trang có liên quan trả về mã trạng thái 200.

Trường hợp liên kết từ bên ngoài, bạn có thể liên hệ với các website liên kết đến bạn để nhờ họ hỗ trợ cập nhật liên kết không còn tồn tại. Tuy nhiên, điều này không phải lúc nào cũng khả thi, nhất là khi có hàng ngàn backlink trỏ đến website của bạn. Với trường hợp này, bạn có thể thực hiện redirect 301 đến một trang hiện có, tạo nội dung mới có liên quan mà bạn có thể redirect tới) hoặc thiết lập mã trạng thái HTTP 410.

Lỗi soft 404 là gì?

Lỗi soft 404 không xảy ra khi máy chủ trả về lỗi 404. Google gắn nhãn một trang là soft 404 khi nội dung trên trang có vẻ bị thiếu nhưng máy chủ vẫn trả về mã trạng thái 200. Nói cách khác, Google cho rằng có những trường hợp cụ thể mà khi truy cập vào một URL, máy chủ nên trả về mã trạng thái 404 thay vì mã trạng thái 200, dù cho trang đó vẫn hiển thị nội dung. Dựa vào điều này, Google kết luận rằng trang này không nên được thêm vào danh sách các trang được index.

Cách xử lý lỗi 404 bằng robot txt năm 2024
Tìm hiểu về lỗi soft 404 trong Google Search Console

Cách khắc phục lỗi soft 404 trong Google Search Console

Để xem các trang bị ảnh hưởng bởi lỗi soft 404, bạn có thể truy cập vào Page Indexing tại thanh điều hướng bên trái trong Google Search Console. Để tìm hiểu thêm thông tin về những trang đó, bạn nhấp vào tên tình trạng. Sau đó sẽ xuất hiện một đồ thị thể hiện cách số lượng trang bị ảnh hưởng đã thay đổi theo thời gian và danh sách các URL. Bạn có thể xuất danh sách này bằng cách nhấn vào nút ở góc phải trên cùng.

Cách xử lý lỗi 404 bằng robot txt năm 2024
5 cách khắc phục lỗi soft 404 trong Google Search Console

Dưới đây là những nguyên nhân và cách khắc phục lỗi soft 404:

Đảm bảo các trang không tồn tại trả về mã trạng thái 404

Thay vì chỉ thông báo về lỗi, nhiều website cung cấp trang 404 tùy chỉnh, giúp người dùng có thể điều hướng đến thông tin cần thiết và tăng khả năng họ khám phá thêm trên website. Tuy nhiên, quá trình này đôi khi trở nên rối rắm khi bị không được giám sát và những trang 404 này trả về mã trạng thái 200.

Việc này sẽ gây ảnh hưởng xấu đến SEO vì những trang trống với mã 200 làm Google lãng phí crawl budget. Để khắc phục tình trạng này, bạn thực hiện cấu hình máy chủ để trả về mã trạng thái chính xác cho những trang không tồn tại – 404 Not Found (ngay cả khi nó được tùy chỉnh).

Không nên redirect tới các trang không liên quan

Khi gặp phải những trang đã cũ hoặc trang trống, bạn thường muốn redirect chúng đến một nơi chung, ví dụ như trang chủ. Tuy nhiên, điều này không có ích cho người dùng truy cập vào website của bạn. Khi gặp loại redirect này, Google có thể xem nó như một soft 404. Để giải quyết vấn đề này, bạn thực hiện như sau:

  • Giữ cho các redirect có liên quan theo chủ đề.
  • Khi bạn không thể tìm thấy trang nào phù hợp với ý định của người dùng, bạn hãy thiết lập trang 404 thay vì thực hiện redirect.

Tránh các trang không có content hoặc thin content

Giả sử các trang thư mục trống trên một website thương mại điện tử, nơi các sản phẩm thường xuyên hết hàng. Google có thể phân loại nó như một trang soft 404. Các trang thin content không mang lại giá trị cho người dùng và ảnh hưởng xấu cho SEO, chẳng hạn như:

  • Lãng phí crawl budget.
  • Khiến Google đánh giá website của bạn thiếu chất lượng, điều này có thể làm cho Google không thường xuyên thu thập dữ liệu từ website của bạn.
  • Làm giảm thứ hạng của website sau khi bị thực hiện thao tác thủ công về thin content.
    Cách xử lý lỗi 404 bằng robot txt năm 2024
    Tránh các trang không có content hoặc thin content

Để ngăn chặn việc index các trang có ít hoặc không có nội dung là sử dụng thẻ meta noindex. Ngoài ra, bạn cũng cần xem lại kiến trúc website và xem xét những danh mục sản phẩm nào không đáp ứng mục đích hoặc không cần thiết.

Cẩn thận với những từ giống 404

Các thuật toán của Google đôi khi có thể nhận nhầm một trang nếu nó chứa những từ thường xuất hiện trên một trang 404. Điều này có thể xảy ra trên các website thương mại điện tử khi một trang sản phẩm sử dụng các thuật ngữ như:

  • “hết hàng”.
  • “sản phẩm không có sẵn”.
  • “chúng tôi không giao hàng đến địa chỉ của bạn”.

Để khắc phục tình trạng này, bạn hãy xóa bỏ những từ đó hoặc sử dụng từ đồng nghĩa mang tính trung lập hơn.

Khắc phục các vấn đề hiển thị

Một số nội dung có thể không thể nhìn thấy bởi Google vì nó không thể hiển thị được. Tình trạng này thường xảy ra khi file robots.txt chặn các trình thu thập khỏi truy cập vào các file CSS hoặc JavaScript. Để kiểm tra Google có hiển thị đúng trang của bạn hay không, bạn có thể sử dụng Công cụ URL Inspection. Bạn chỉ cần nhấp vào biểu tượng kính lúp bên cạnh URL được chọn từ danh sách “Soft 404”.

Cách xử lý lỗi 404 bằng robot txt năm 2024
Khắc phục các vấn đề hiển thị

Để khắc phục vấn đề, bạn cần đảm bảo Google có quyền truy cập đến các tài nguyên cần thiết để hiển thị trang. Đồng thời xem lại file robots.txt và cho phép trình thu thập truy cập vào file CSS và JavaScript.

Lời kết

Hy vọng rằng những thông tin mà Vietnix chia sẻ trên đây đã giúp bạn hiểu rõ hơn về nguyên nhân gây ra lỗi not found 404 và soft 404 trong Google Search Console, cũng như cách để khắc phục chúng một cách hiệu quả. Nếu bạn vẫn còn bất kỳ điều gì không rõ, xin hãy để lại bình luận phía dưới, Vietnix sẽ hỗ trợ giải đáp nhanh nhất.