Trình thu thập thông tin trang tính của Google

Bạn đã bao giờ muốn trích xuất dữ liệu từ một trang web nhưng không biết làm thế nào? . Trong bài đăng trên blog này, chúng ta sẽ tìm hiểu cách quét các trang web bằng Google Trang tính. Chúng tôi sẽ hướng dẫn bạn qua quy trình từng bước và chỉ cho bạn một số phương pháp hay nhất để thu thập dữ liệu trong google sheet. Bắt đầu nào.  

Quét trang web hoặc quét web là gì?

Nói một cách đơn giản, quét web là một phương pháp trích xuất dữ liệu trang web như Tiêu đề trang, Tiêu đề, mô tả meta, Liên kết nội bộ, Liên kết ngoài, v.v.

Có nhiều cách để trích xuất dữ liệu từ một trang web –

  • Sử dụng trình thu thập dữ liệu web
  • Sử dụng một số phần mềm
  • thông qua mã hóa
  • Sử dụng Google Trang tính

Sử dụng Google Trang tính để thu thập dữ liệu trang web là cách phổ biến nhất và cũng là cách dễ nhất vì nó không yêu cầu kiến ​​thức về mã hóa.   

Tôi sẽ chỉ cho bạn cách thực hiện trong phần sau của bài viết này, nhưng trước tiên, hãy hiểu tại sao một người có thể muốn cạo dữ liệu trang web

Tại sao phải cạo trang web bằng Google Trang tính

Có một số lý do khác nhau để cạo dữ liệu trang web. Một số được đề cập dưới đây.  

  • Để lấy danh sách tất cả các trang web về một chủ đề cụ thể. Ví dụ: bạn muốn tạo danh sách tất cả các trang web thương mại điện tử ở Ấn Độ.  
  • Để tìm chi tiết liên hệ như địa chỉ email và số điện thoại từ nhiều trang web.   
  • Để giám sát các trang web của đối thủ cạnh tranh và theo dõi tiến trình của họ.   
  • Để lấy dữ liệu cho nghiên cứu thị trường hoặc tạo khách hàng tiềm năng.  

Đây chỉ là một vài ví dụ, có thể có nhiều lý do khác để cạo dữ liệu trang web. Bây giờ, câu hỏi tiếp theo là, Tôi có thể thu thập loại dữ liệu nào bằng Google Trang tính?

Hãy cùng tìm hiểu

Tôi có thể loại bỏ loại dữ liệu nào bằng cách sử dụng Google Trang tính?

Câu trả lời là- Mọi loại dữ liệu.  

Bạn có thể cạo mọi thứ có sẵn trên trang web bằng Google Trang tính. Điêu nay bao gôm

  • Chữ
  • Hình ảnh
  • PDF
  • URL
  • tiêu đề
  • tiêu đề trang
  • số
  • Liên kết nội bộ
  • liện kết ngoại

Bây giờ hãy hiểu cách sử dụng Google Trang tính để thu thập dữ liệu trang web.  

Làm cách nào để quét các trang web bằng Google Trang tính?

Chúng tôi sẽ cạo dữ liệu bằng cách sử dụng hàm IMPORTXML trong Google Trang tính, cũng như một số cách khác – nhưng cách này đủ linh hoạt và sẽ phục vụ nhu cầu của chúng tôi

NHẬP KHẨUXML là gì?

IMPORTXML là một hàm có thể dùng để nhập dữ liệu từ nhiều nguồn khác nhau vào bảng tính Google Trang tính. Có thể dùng hàm này để nhập dữ liệu từ tệp XML,  tệp HTML hoặc tệp văn bản

IMPORTXML cũng hữu ích để nhập dữ liệu từ các trang web có cấu trúc không tốt, chẳng hạn như bảng HTML. Vì IMPORTXML là một chức năng của Google Trang tính nên nó rất dễ sử dụng và không yêu cầu bất kỳ kỹ năng lập trình nào.  

Với chức năng IMPORTXML, bạn có thể trích xuất dữ liệu từ nhiều loại dữ liệu trang web có cấu trúc như nguồn cấp dữ liệu XML, HTML, CSV/TSV và RSS/ATOM XML.  

Làm cách nào để cạo tiêu đề trang bằng Google sheet?

Hãy để chúng tôi tìm hiểu cách cạo tiêu đề trang bằng hàm IMPORTXML trong Google Trang tính. Chúng tôi sẽ cạo tiêu đề trang của trang chủ Amigo, đó là https. // cố gắng. com

Công thức sẽ là

=IMPORTXML("https://tryamigo.com/","//title") 

Đây sẽ là tiêu đề trang, đó là. bạn thân. Không tích hợp dữ liệu mã và số liệu thời gian thực

Bây giờ chúng ta hãy tìm hiểu từng bước cách quét các trang web bằng Google Trang tính

Bước 1. Tạo cột để nhập dữ liệu

Tạo bảng tính mới trong Google Trang tính và tạo hai cột – một cho tên trang web và một cho tiêu đề trang

Bước 2. Sao chép và dán URL

Khi bạn đã tạo các cột và nhập tiêu đề trang, hãy nhập công thức IMPORTXML vào ô mà bạn muốn kéo dữ liệu vào đó. Trong trường hợp này, B3

Trình thu thập thông tin trang tính của Google
Nhập công thức để cạo trang web bằng Google Trang tính

Bạn có thể thấy cả ba cú pháp trong khung ở hộp màu đỏ- URL, xpath_query, locale Bạn có thể thấy đối số đầu tiên là URL

Bây giờ, hãy truy cập trang web bạn muốn trích xuất dữ liệu từ đó. Sao chép URL và dán vào công thức có dấu ngoặc kép.  

Cú pháp bây giờ sẽ như hình bên dưới

=IMPORTXML(“https://tryamigo.com/”,
Trình thu thập thông tin trang tính của Google
Nhập URL để quét các trang web bằng Google Trang tính

Bước 3. Nhập XPATH_QUERY

Sau khi đặt URL, bạn phải nhập xpath_query (loại dữ liệu bạn muốn tìm nạp).   

Vì chúng tôi phải tìm nạp tiêu đề của trang, chúng tôi sẽ nhập “//title” dưới dạng xpath_query và đóng dấu ngoặc.  

(Đừng quên đóng mỗi cú pháp bằng dấu ngoặc kép)

Bây giờ nó sẽ trông như thế này.  

Trình thu thập thông tin trang tính của Google
Nhập đường dẫn truy vấn để quét các trang web bằng Google Trang tính

Bây giờ hãy nhấn ENTER, và điều kỳ diệu sẽ xảy ra. Sau khi tải vài giây, nó sẽ hiển thị cho bạn tiêu đề Trang – Amigo. Không tích hợp dữ liệu mã và số liệu thời gian thực

Trình thu thập thông tin trang tính của Google
Tiêu đề trang được kéo vào Google Trang tính

Cách Cạo dữ liệu từ nhiều trang web

Trích xuất dữ liệu cho một trang web khá dễ dàng. Nhưng nếu bạn phải làm điều đó cho 10 trang web thì sao?

Tôi sẽ chỉ cho bạn cách bạn có thể làm điều đó cho nhiều trang web bằng cách đặt công thức chỉ một lần và chỉ cần kéo con trỏ xuống cho tất cả chúng.  

Vì vậy, tôi sẽ làm điều đó cho 5 trang web. Tôi sẽ chọn 5 trang web ngẫu nhiên và sẽ tìm nạp tiêu đề Trang cho cả 5 trang web.  

Vì mình đã tạo sẵn 2 cột ở ví dụ trên nên mình sẽ tạo thêm 1 cột cho URL và đặt cả 5 URL vào cột đó, như hình bên dưới

Trình thu thập thông tin trang tính của Google
Cạo dữ liệu nhiều trang

Như bạn có thể thấy, tôi đã đặt 5 URL từ các trang web khác nhau. Bây giờ, tôi sẽ chuyển đến ô C3, nơi tôi đã áp dụng công thức ban đầu và sẽ chỉnh sửa nó.  

Thay vì đặt toàn bộ URL, hãy chọn một ô, nơi đặt URL. Trong trường hợp của chúng tôi, tôi sẽ chọn B3 (nơi tôi đã lưu trữ URL của Amigo)

Xem hình bên dưới.  

Trình thu thập thông tin trang tính của Google
Tham chiếu một ô để lấy dữ liệu cóp nhặt

Sau khi bạn đã chỉnh sửa công thức, chỉ cần nhấn ENTER. Sau đó kéo con trỏ xuống ô cuối cùng mà bạn muốn áp dụng công thức

Trình thu thập thông tin trang tính của Google
Kéo ô công thức để áp dụng công thức trên một dải ô

Sau khi kéo xuống sẽ hiện ra hết tiêu đề trang của 5 website

Xem hình bên dưới

Trình thu thập thông tin trang tính của Google
Cạo nhiều tiêu đề trang

Bạn có thể làm điều này cho bất kỳ số lượng trang web.  

Bây giờ, ngay cả khi bạn thay đổi URL của một trang web cụ thể, nó sẽ tự động cập nhật và cung cấp cho bạn tiêu đề trang của URL mới.  

Hãy để tôi chỉ cho bạn cách làm.  

Tôi sẽ chỉ thay đổi URL của Udemy và sẽ thay thế nó bằng trang Wikipedia của Virat Kohli

Trình thu thập thông tin trang tính của Google
Tự động cập nhật kết quả

Bạn có thể thấy rằng tiêu đề trang đã được cập nhật tự động

Cách cạo tất cả các liên kết trang của một trang web bằng Google Sheets

Chúng tôi có thể cạo tất cả các liên kết trang của bất kỳ trang web hoặc trang web nào bằng cách sử dụng Google Trang tính bằng chức năng IMPORTXML

Hãy để chúng tôi thử với một ví dụ. Lần này là một bài viết từ bbc. com

Để cạo tất cả các liên kết của một trang web, chỉ cần thay đổi xpath_query. Xpath_query để cạo tất cả các liên kết là “//@href”

Vì vậy, cú pháp sẽ như sau.  

=IMPORTXML(“https://www.bbc.com/news/world-asia-india-62722592”, “//@href”) 

Nhấn Enter và tất cả các liên kết từ trang đó sẽ được trả về trong các ô bên dưới công thức, như hình bên dưới

Trình thu thập thông tin trang tính của Google
Cạo liên kết đến từ một trang

Để lấy liên kết cho nhiều trang web, chỉ cần làm theo quy trình tương tự như đã giải thích ở trên về cách lấy tiêu đề trang từ nhiều trang web.  

Cách cạo mô tả meta bằng Google sheet

Chúng ta cũng có thể sử dụng hàm IMPORTXML để loại bỏ các mô tả meta. Lần này chúng tôi sẽ sử dụng bài báo này của New York Times làm ví dụ

Tham số thứ hai, xpath_query, sẽ phải được thay đổi thành tham số truy vấn cho mô tả meta, đó là “//meta[@name='description']/@content”

Vì vậy, cú pháp sẽ như sau.  

=IMPORTXML(“https://www.nytimes.com/2022/08/12/sports/soccer/bayern-munich-bundesliga.html”,”//meta[@name=‘description’]/@content”)
Trình thu thập thông tin trang tính của Google
Công thức quét các trang web bằng Google Trang tính

Nhấn Enter và mô tả meta sẽ xuất hiện trong giây lát.  

Trình thu thập thông tin trang tính của Google
Mô tả meta của một trang web được trích xuất vào Google Trang tính

Một lần nữa, bạn có thể làm theo quy trình tương tự như trước đó nếu bạn muốn lấy mô tả meta từ nhiều trang web. Đó là tất cả cho bây giờ. Tôi hy vọng bạn đã học được cách cạo dữ liệu trang web bằng Google Trang tính. Nó siêu dễ dàng. Bạn chỉ cần làm theo tất cả các bước và bạn sẽ có thể làm điều đó

Nhấp vào đây để lấy trang tính Google cho các ví dụ trên

Phần kết luận

Có nhiều cách khác nhau để quét các trang web bằng Google Trang tính. Bài viết này chỉ đề cập đến một trong số chúng và hy vọng việc quét trang web bằng cách sử dụng google sheet giờ đây trở nên dễ dàng đối với bạn. Nó sẽ cung cấp cho bạn một hương vị của nó

Bây giờ bạn đã biết cách trích xuất dữ liệu từ một trang web, đã đến lúc thử nghiệm các kỹ năng mới của bạn. Thử nghiệm với các trang web khác nhau và xem loại dữ liệu nào bạn có thể thu thập

Và nếu bạn cần trợ giúp thu thập dữ liệu, đừng ngần ngại liên hệ với chúng tôi. Chúng tôi rất sẵn lòng hướng dẫn bạn qua quy trình từng bước.  

Google Trang tính có thể tự động lấy dữ liệu từ Excel không?

Nếu bạn muốn Sheetgo tự động tạo tệp Google Trang tính mới chứa dữ liệu Excel, hãy chọn Tệp mới . Sheetgo sẽ lưu tệp vào thư mục Google Drive chính của bạn. Để lưu nó vào một thư mục cụ thể, hãy nhấp vào Thay đổi thư mục đích.

Có thể tự động hóa Google Trang tính không?

Tự động hóa Trang tính là một tiện ích mở rộng mạnh mẽ, dễ sử dụng giúp đưa Google Trang tính lên một tầm cao mới . Tạo quy trình làm việc nhỏ của bạn với giao diện người dùng trực quan và tự động hóa mọi thứ mà không cần viết tập lệnh.

Google Trang tính có thể lấy dữ liệu API không?

Chúng tôi có thể kết nối Google Trang tính với một API và đưa dữ liệu trở lại từ API đó (e. g. iTunes) vào Google Trang tính của chúng tôi bằng Google Apps Script .

Có VBA tương đương cho Google Trang tính không?

Trình chuyển đổi Macro là tiện ích bổ sung của Google Workspace giúp chuyển đổi tệp Excel có mã Visual Basic for Applications (VBA) sang tệp Google Trang tính và Apps Script dễ dàng hơn.