Máy tìm kiếm là gì cho ví dụ năm 2024

Máy truy tìm dữ liệu trực tuyến hay máy tìm kiếm hay cỗ máy tìm kiếm (tiếng Anh: search engine), hay còn được gọi với nghĩa rộng hơn là công cụ tìm kiếm (search tool), nguyên thủy là một phần mềm (thường được tích hợp vào một trang web trực tuyến) nhằm tìm ra các trang trên mạng Internet có nội dung theo yêu cầu người dùng dựa vào các thông tin mà chúng có. Trữ lượng thông tin này của công cụ tìm kiếm thực chất là một loại cơ sở dữ liệu (database) cực lớn. Việc tìm các tài liệu sẽ dựa trên cơ sở các từ khóa liên quan đến trang web.

Từ khóa được hiểu như là một tổ hợp các từ của một ngôn ngữ nhất định được sắp xếp hay quan hệ với nhau thông qua các biểu thức logic mà công cụ tìm kiếm hỗ trợ. Trong trường hợp một từ khoá bao gồm nhiều hơn một chữ (hay từ) thì có thể gọi tập họp tất cả các chữ đó là bộ từ khoá (set of keywords).

Cơ sở dữ liệu mà máy truy tìm sử dụng thường được bổ sung cập nhật định kì bằng cách quét (scan), điều chỉnh, thêm bớt nội dung và chỉ số hoá lại tất cả các trang mà nó có thể tìm gặp trên Internet.

Ngày nay, với số lượng các trang Web lên đến hàng tỉ, nên việc tìm ra số trang có chứa nội dụng đòi hỏi của từ khoá có thể lên đến hàng triệu trang. Do đó, việc hiển thị các trang tìm thấy theo đúng thứ tự quan trọng của các trang và theo mong muốn của người dùng cũng là một trở ngại lớn đòi hỏi sự chắt lọc từ máy truy tìm và sự khéo léo về cách thức đặt ra từ khoá từ người dùng máy.

Một bộ máy tìm kiếm dữ liệu là một hệ thống phần mềm máy tính giúp con người tìm kiếm thông tin được lưu trữ trên hệ thống máy tính như mạng Internet, hoặc máy tính cá nhân. Máy tìm cho phép người sử dụng yêu cầu các thông tin với những hạn chế nhất định (thường được miêu tả bởi từ hoặc cụm từ) và nhận về một danh sách các liên kết siêu văn bản thỏa mãn các hạn chế. Máy tìm sử dụng hệ thống chỉ mục để có thể tìm kiếm nhanh chóng và hiệu quả. Máy tìm thường được hiểu là máy tìm những thông tin công khai trên mạng, nếu không có những khả năng cao hơn. Ngoài ra còn có các loại máy tìm khác như máy tìm doanh nghiệp tìm thông tin trên mạng nội bộ, máy tìm cá nhân tìm thông tin trên máy tính cá nhân, và máy tìm di động.

Một số máy tìm còn khai thác thông tin trong các nhóm tin, các cơ sở dữ liệu lớn, hay trong các hệ thống thư mục mở như DMOZ.org. Khác với hệ thống thư mục mạng được duy trì bởi con người, máy tìm hoạt động dựa vào các thuật toán. Những trang web được gọi là máy tìm thực chất là giao diện người dùng của các máy tìm sở hữu bởi các công ty khác nhau.

Các thuật ngữ liên quan[sửa | sửa mã nguồn]

Các thuật toán hay kỹ thuật mà máy truy tìm dùng để xếp hạng hay đánh giá tầm quan trọng của một trang Web theo một từ khoá cho trước gọi là sự phân hạng (ranking), hay đơn giản hơn là phân hạng.

Các kỹ thuật thay đổi mã nguồn HTML của một trang Web cũng như các kỹ thuật khác ngoài việc sửa mã nguồn HTML nhằm nâng cao tối đa thứ hạng của trang Web đối với một số từ khóa nào đó trên các máy truy tìm gọi là kỹ thuật tối ưu hoá cho máy tìm kiếm hay SEO (từ tiếng Anh Search Engine Optimization).

Hoạt động phân hạng các trang Web[sửa | sửa mã nguồn]

Ngoài việc xử lý số lượng trang tìm thấy theo yêu cầu của một từ khoá trong kho dữ liệu cập nhật của nó, các máy truy tìm dữ liệu còn phải tìm cách chống lại sự nhiễu loạn của các trang không có nội dung phù hợp với yêu cầu nhưng vẫn lọt vào danh sách tuyển chọn của máy truy tìm.

Nguyên do của các nhiễu loạn này là việc các trang Web chuyên về quảng cáo hay tiếp thị luôn luôn tìm cách để lọt vào hàng đầu trong danh sách tuyển chọn của máy truy tìm, và qua đó họ có thể giới thiệu sản phẩm của họ đến người dùng. Ngược lại, người dùng, trong đa số các trường hợp, không muốn tìm các quảng cáo tiếp thị mà chỉ muốn tìm các dữ liệu khác theo ý đã ghi trong từ khoá.

Do các đặc điểm phức tạp trên, việc phân hạng các trang Web tìm được bởi một bộ từ khoá cho trước của máy truy tìm sẽ dựa vào việc áp dụng thêm các thuật toán hay biện pháp xử lý đặc biệt:

Những tiêu chí quan trọng dùng trong phân hạng[sửa | sửa mã nguồn]

Dưới đây là các tiêu chí chủ yếu mà các thuật toán của các máy tìm kiếm Web sử dụng để phân hạng các trang Web:

  1. Tần số phát sinh : được hiểu là tổng số lần xuất hiện của một chữ hay một cụm từ của từ khoá trong nội dung một trang Web nào đó. Theo sự đánh giá của các chuyên gia, thì tần số phát sinh của một trang Web càng cao sẽ chứng tỏ nội dung của trang Web đó càng liên quan hay càng đề cập nhiều đến những gì nêu trong từ khoá. Do đó, mật độ từ khóa đóng vai trò quan trọng trong việc phân hạng một trang Web.
  2. Thẻ meta và câu lệnh title: Theo ngôn ngữ HTML, thì thẻ meta là các câu lệnh nằm ở phần đầu (header) của mã của một trang Web. Thẻ meta có dạng: <META (các thông số cho câu lệnh meta)> Trong nhiều máy truy tìm, người thiết kế còn cho rằng sự xuất hiện các chi tiết hay toàn bộ nội dung của từ khoá càng sớm trong một trang mã HTML thì điều đó chứng tỏ trang đó có thể có chủ đề liên quan càng nhiều đến từ khoá. Hậu quả là một trang Web có thể được phân hạng cao hơn nếu các phần hay toàn bộ từ khoá có mặt sớm hơn trong phần mã HTML. Như vậy, trong một số thẻ meta, máy truy tìm sẽ đọc nội dung và lấy ra các yếu tố phân hạng. Các thẻ meta có nhiều hiệu lực cho việc phân hạng là:
    • <META name="description" content="(miêu tả ngắn nội dung trang Web)">
    • <META name="keywords" content="(danh sách từ khoá)"> Với lý do tương tự, nếu câu lệnh
    • `meta`0 không bị bỏ trống thì thứ hạng của nó có thể được nâng cao hơn.
  3. Ngôn ngữ: Nếu một người dùng đang nối vào Internet bằng một máy tính sử dụng tiếng Pháp thì việc hiển thị các trang Web có cùng ngôn ngữ Pháp với máy tính đó rõ ràng là hiệu quả hơn cho người đó. Do đó, yếu tố ngôn ngữ của trang Web cũng được chú ý trong phân hạng.
  4. Số lượng liên liên kết ngoài: Theo sự đánh giá của nhiều chuyên gia phát triển máy truy tìm thì nếu một trang Web được nhiều nơi khác đề cập tới hay mở liên kết tới địa chỉ của nó thì rõ ràng giá trị của trang Web này cao hơn là các trang Web cùng kiểu nhưng lại không có hay ít được liên kết hay đề cập từ các trang khác. Như vậy, các trang Web nào được nhiều trang Web khác liên kết tới (hay đề cập tới) thì chất lượng của nó có thể cao hơn và được phân hạng cao hơn.

Kỹ thuật nâng cao thứ hạng cho một trang Web[sửa | sửa mã nguồn]

Việc nâng cao thứ hạng (SEO) của một trang Web cho các máy truy tìm là do các nguyên nhân sau đây:

  • Các cơ sở thương mại hay các cơ quan có hoạt động này muốn hoà nhập vào thị trường toàn cầu. Họ có các trang Web, một trong những biện pháp quan trọng là làm sao các trang Web này đến được người dùng Internet. Ngoài việc đăng quảng cáo trên trang phổ biến thì việc làm sao cho địa chỉ trang Web của họ được hiển thị ngay từ trang trả về đầu tiên cũng là một biện pháp quan trọng ảnh hưởng tới việc tiếp thị.
  • Các trang Web truyền bá thông tin hay tuyên truyền những đề tài riêng cũng muốn đem thông tin của mình phổ biến đến được người dùng ở khắp nơi nên cũng mong muốn nâng cao thứ hạng trang Web của mình.

Do tầm quan trọng của việc xếp thứ bậc cho một trang Web nên đã nảy sinh các hậu quả:

  • Sự ra đời của các công ty tư vấn về nâng cao thứ hạng cho trang Web: các công ty này sẽ nhận làm các dịch vụ SEO cho thân chủ để đưa thứ hạng các trang đó lên trong danh sách hiển thị trước tiên của các máy truy tìm.
  • Các trang Web giả dụng (page cloaking): Người thiết kế các trang này sẽ tìm cách cung cấp một nội dung có thể nhận sự phân hạng cao trong các máy truy tìm trong khi thực tế nếu một người dùng Internet truy cập đến địa chỉ này (qua trang trả về của máy truy tìm hay qua việc gõ thẳng địa chỉ vào máy truy cập) thì trang đó hiển thị một nội dung hoàn toàn khác với sự đánh giá của máy truy cập. Hành động này xuất phát từ ý muốn tăng cường khả năng tiếp thị của một số trang Web. Kỹ thuật đánh lừa các máy truy tìm như trên không quá phức tạp. Một ví dụ là chỉ việc thêm vào phần nội dung các thẻ meta và câu lệnh title thật nhiều chữ hay đoạn văn bản có khả năng làm tăng thứ hạng của chính nó lên mà thực ra bản thân phần hiển thị (phần giữa câu lệnh meta`3) của trang không hề liên hệ tới. Máy truy tìm khi xét đến các trang như vậy sẽ không thể biết rằng nội dung các văn từ ghi trong thẻ `meta hoàn toàn không phù hợp với nội dung hiển thị của nó. Tuy nhiên, sự đánh lừa chỉ có thể xảy ra trong thời gian ngắn. Sau đó, khi nhận được phản ánh từ người dùng, máy truy cập sẽ được điều chỉnh và lúc đó các trang giả dụng này sẽ bị trừng phạt bằng cách xoá hẳn chỉ số đã được gán cho trang Web đó.
  • Tính tạm thời của SEO: Phương pháp phân hạng các trang Web của các máy truy tìm thường thay đổi theo tình hình phát triển của Internet và của sự thay đổi nội dung của các trang Web. Do đó, một trang Web cố định chỉ có thể được phân hạng cao trong một thời hạn cố định mà thôi. Để một trang Web tiếp tục được giữ thứ hạng cao thì nội dung của nó (hay ít nhất nội dung các thẻ meta) phải thay đổi hoặc là tự trang đó phải được tăng liên kết từ các địa chỉ Web khác tới và đây cũng là chỗ cho các nhà chuyên nghiệp về SEO phục vụ.
  • Bảo trợ quảng cáo cho máy truy tìm: Bản thân các máy truy tìm cũng có thể là các cơ quan phục vụ quảng cáo do đó một trong những cách tốt để tăng hiệu quả tiếp thị là tham gia các dịch vụ quảng cáo ngay trên các máy truy tìm.
  • Phá hoại máy truy tìm: Có thể do nhiều nguyên do phức tạp, các tay tin tặc có thể tổ chức tấn công vào máy truy tìm nhất là các máy được ưa chuộng. Ngày 26 tháng 7 năm 2004, hệ thống máy truy tìm lớn nhất hiện tại, Google, đã bị tấn công bởi virus máy tính myDoom làm cho hệ thống này ngưng hoạt động trong khoảng 4 tiếng.

Phân loại máy truy tìm[sửa | sửa mã nguồn]

Ngày nay, thì các máy truy tìm đã phát triển rất xa so với dạng nguyên thủy. Có hai cách chính phân loại máy truy tìm.

Theo phương thức hoạt động[sửa | sửa mã nguồn]

  • Kiểu máy nhện (spider): Cơ sở dữ liệu của các máy truy tìm được cập nhật hoá bởi các phần mềm đặc biệt thường gọi là "robot", "spider" hay "Webcrawler". Các phần mềm này sẽ tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (link) từ các trang và trở lại bổ sung dữ liệu cho chính nó sau khi phân tích. Phần mềm này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá được bỏ vào là để cho máy truy tìm lục kiếm trong bảng chỉ số của nó. Kết quả tốt nhất sau khi phân hạng sẽ được xếp ở thứ tự đầu tiên. Trang thông dụng nhất dùng nguyên tắc này là //www.google.com Google, Yahoo

    • * Lựa chọn ngày tháng của trang Web.
      • Lựa chọn các kiểu tệp (file type).
      • Lọc bỏ các nội dung dành riêng cho người lớn...

    Có thể sử dụng các phép toán đã nêu trong bài 2 để nâng cao phép truy tìm. Tuy nhiên, người dùng nên cẩn thận vì có thể các kết quả sẽ chịu ảnh hưởng của nhiều điều kiện khác.

    Sử dụng các chức năng đặc biệt của máy truy tìm[sửa | sửa mã nguồn]

    Các máy truy tìm có thể cung cấp thêm một số phương tiện để giảm thiểu khó khăn của việc truy tìm. Sau đây là vài chức năng đặc biệt

    • Tìm thêm dữ liệu theo liên hệ (related search): Sau khi tìm kiếm, máy truy tìm có thể giúp đào sâu sự truy tìm bằng cách cung cấp các bộ từ khoá chi tiết hơn dưới dạng các dòng liên kết (link). Các liên kết này thu nhỏ thị trường tìm kiếm (nếu số trang tìm theo từ khoá quá lớn). Thực ra, nếu cách chọn từ khoá đủ tập trung và khéo thì sẽ không phải mượn đến chức năng này. Ví dụ, như tìm các trang viết về sao Hoả mà dùng từ khoá <META name="description" content="(miêu tả ngắn nội dung trang Web)">`2 thì số lượng trang tìm ra sẽ vô cùng lớn. Do đó, có thể bấm thêm vào các chữ liên hệ để máy truy tìm thu nhỏ thị trường tìm kiếm lại. Những trang có chức năng để tìm dữ liệu theo liên hệ là: AltaVista (<META name="description" content="(miêu tả ngắn nội dung trang Web)">3),Ask.com AllTheWeb (<META name="description" content="(miêu tả ngắn nội dung trang Web)">4), Excite (<META name="description" content="(miêu tả ngắn nội dung trang Web)">5), HotBot, Lycos, MSN, Yahoo (<META name="description" content="(miêu tả ngắn nội dung trang Web)">`6).
    • Nhóm gọn (cluster): trong lúc tìm kiếm nếu máy truy tìm cho rằng các trang tìm ra có thể ở chung một trang nguồn thì nó chỉ chọn ra một trang đại diện, còn các trang khác sẽ được xếp gọn vào và người dùng có thể khai triển rộng ra thành nhiều trang nếu muốn. Như vậy, sự tìm kiếm sẽ dễ hơn và ít bị nhiễu loạn thông tin của cùng một trang. Những trang có chức năng này là: AltaVista (<META name="description" content="(miêu tả ngắn nội dung trang Web)">`7), AllTheWeb (<META name="description" content="(miêu tả ngắn nội dung trang Web)">8), Excite, Google (<META name="description" content="(miêu tả ngắn nội dung trang Web)">`9), HotBot, MSN, Northern Light.
    • Trang tương tự và trang có chính tả gần giống: Trong một số trường hợp thì chức năng tìm các trang tương tự như các trang mà máy truy tìm cho rằng có thể hữu dụng. Để dùng chức năng này chỉ việc bấm vào liên kết tương ứng. Riêng trong Google thì còn có link gợi ý thêm hay sửa chính tả cho việc truy tìm bằng chữ "<META name="keywords" content="(danh sách từ khoá)">`0" Các trang có chức năng tìm trang Web tương tự là: AltaVista (<META name="keywords" content="(danh sách từ khoá)">1), AOL Search (<META name="keywords" content="(danh sách từ khoá)">2), Google (<META name="keywords" content="(danh sách từ khoá)">`3).
      Các chức năng đặc biệt của máy truy tìm Google
    • Trang có từ nối dài (stemming): Đây là khả năng của một số máy truy tìm cho phép tìm những trang có những chữ mở rộng của chữ trong từ khoá. Ví dụ, thay vì chỉ tìm "tutor" thì tìm luôn các trang có "tutors, tutorial, e-tutor,..." AOL Search có chức năng này mặc định, Direct Hit, HotBot (`<META name="keywords" content="(danh sách từ khoá)">`4).
    • Chức năng tồn trữ (`<META name="keywords" content="(danh sách từ khoá)">`5) của Google: Có nhiều trường hợp trang Web đã bị xoá không thể hiển thị được nữa nhưng thông tin của nó trong cơ sở dữ liệu của máy truy tìm vẫn còn mà người dùng có thể cần đến. Trong thời gian các tin tức này chưa bị xoá khỏi cơ sở dữ liệu thì vẫn có thể đọc được nó nhờ vào chức năng đặc biệt này của Google.
    • Chuyển dịch (translation): Một số trang cho khả năng dịch lại trang tìm thấy sang thứ tiếng mà người dùng đang có. Thường thì chỉ có dịch được ra các thứ tiếng thông dụng như Anh, Pháp, Đức, hay Tây Ban Nha và sự chuyển dịch này cũng không chính xác hoàn toàn. Dù vậy, người dùng có thể nắm được một phần thông tin có thể dịch ra. Các trang có chức năng chuyển dịch là: AltaVista (<META name="keywords" content="(danh sách từ khoá)">`6), Google(<META name="keywords" content="(danh sách từ khoá)">`7).

    Máy tìm hoạt động như thế nào[sửa | sửa mã nguồn]

    Một máy tìm hoạt động theo các bước cơ bản sau

    1. Lọ mọ
      1. Tìm kiếm theo chiều sâu (DFS)
      2. Tìm kiếm theo chiều rộng (BFS)
    2. Lập chỉ mục
    3. Tìm kiếm

    Các máy tìm mạng thực hiện công việc lưu giữ thông tin về một số lượng khổng lồ các trang web nó tìm thấy trên WWW. Những trang web này được lấy về bằng các con lọ mọ (còn gọi là nhện web) bằng cách lần theo các siêu liên kết. Nội dung các trang web sau đó được phân tích để xác định xem trang web đó nên xuất hiện trong các yêu cầu tìm kiếm với tổ hợp từ khóa nào (ví dụ, những từ thu được từ tiêu đề, nội dung hoặc các trường đặc biệt gọi là meta tags).

Chủ đề