Cách lấy dữ liệu từ google sheet

Bạn có thể quét web trong Google Trang tính không? . Trên thực tế, Google Sheets có thể được coi là một công cụ quét web cơ bản. Bạn có thể sử dụng một công thức đặc biệt để trích xuất dữ liệu từ các trang web, nhập dữ liệu trực tiếp vào trang tính google và chia sẻ dữ liệu đó với bạn bè của mình. Bằng cách đọc các phần sau, bạn có thể tìm hiểu các phương pháp dễ dàng về cách xây dựng một công cụ quét web đơn giản bằng Google Trang tính

Nội dung chính Show

Lựa chọn 1. Tạo một công cụ quét web dễ dàng bằng cách sử dụng ImportXML trong Google Spreadsheets
Lựa chọn 2. Lấy dữ liệu giá với một công thức đơn giản. nhậpXML
Lựa chọn số 3. Một công thức khác để lấy dữ liệu với Google Sheets
Tùy chọn số 4. Công cụ quét web tự động mà không cần mã hóa
Một video về quét web với Octopude
Các bước để cạo dữ liệu web bằng Google Sheets Web Scraping Alternative
Andrea Atzori
Andrea Atzori
IMPORTXML là gì?
Làm cách nào IMPORTXML có thể giúp loại bỏ các thành phần của trang web?
Xem IMPORTXML đang hoạt động
Bước 1. Bắt đầu với Trang tính Google mới
Bước 2. Thêm nội dung bạn cần cạo
Bước 3. Tìm XPath
Bước 4. Trích xuất dữ liệu vào Google Sheets
Xử lý sự cố
Phần kết luận

Mục lục

Lựa chọn 1. Tạo một công cụ quét web dễ dàng bằng cách sử dụng ImportXML trong Google Spreadsheets

Bước 1. Mở một trang tính Google mới

Bước 2. Mở một trang web mục tiêu với Chrome. Trong trường hợp này, chúng tôi chọn Trò chơi bán hàng. Nhấp chuột phải vào trang web và nó sẽ hiển thị menu thả xuống. Sau đó chọn "kiểm tra". Nhấn tổ hợp ba phím. "Ctrl" + "Shift" + "C" để kích hoạt "Bộ chọn". Điều này sẽ cho phép bảng kiểm tra lấy thông tin của thành phần được chọn trong trang web

Bước 3. Sao chép và dán URL trang web vào trang tính

Lựa chọn 2. Lấy dữ liệu giá với một công thức đơn giản. nhậpXML

Bước 1. Sao chép Xpath của phần tử. Chọn yếu tố giá và Nhấp chuột phải để hiển thị menu thả xuống. Sau đó chọn “Sao chép”, chọn “Sao chép XPath”

Bước 2. Nhập công thức vào bảng tính

=IMPORTXML(“URL”, “Biểu thức XPTH”)

Lưu ý "biểu thức Xpath" là biểu thức chúng tôi vừa sao chép từ Chrome. Thay thế dấu ngoặc kép " " trong biểu thức Xpath bằng dấu ngoặc kép đơn''

Lựa chọn số 3. Một công thức khác để lấy dữ liệu với Google Sheets

Có một công thức khác chúng ta có thể sử dụng

=IMPORTHTML(“URL”, “QUERY”, Chỉ mục)

Với công thức này, bạn trích ra cả bảng

Tùy chọn số 4. Công cụ quét web tự động mà không cần mã hóa

Bây giờ, hãy xem cách có thể hoàn thành dễ dàng cùng một tác vụ cạo bằng công cụ quét web, Octopude. Nó cho phép bạn trích xuất nhiều dữ liệu từ trang web hơn Google Sheets và bạn không cần học các kỹ năng viết mã vì nó có chế độ tự động phát hiện. Octoparse hoạt động trên cả thiết bị Windows và Mac, hãy tải xuống và làm theo các bước bên dưới để thưởng thức

Một video về quét web với Octopude

Các bước để cạo dữ liệu web bằng Google Sheets Web Scraping Alternative

Bước 1. Mở Octopude sau khi cài đặt nhanh, xây dựng tác vụ mới bằng cách chọn “+Tác vụ” trong “Chế độ nâng cao”

Bước 2. Chọn Nhóm nhiệm vụ ưa thích của bạn. Sau đó nhập URL trang web mục tiêu và nhấp vào "Lưu URL". Trong trường hợp này. Trang web bán trò chơi http. // hơi nước. com/

Bước 3. Thông báo trang web Bán trò chơi được hiển thị trong phần chế độ xem tương tác Octoparse. Chúng ta cần tạo một danh sách vòng lặp để làm cho Octopude đi qua các danh sách

1. Nhấp vào một hàng của bảng (có thể là bất kỳ tệp nào trong bảng) Octopude sau đó phát hiện các mục tương tự và đánh dấu chúng bằng màu đỏ

2. Chúng ta cần trích xuất theo hàng, vì vậy hãy chọn “TR” (Table Row) từ bảng điều khiển

3. Sau khi một hàng đã được chọn, hãy chọn lệnh “Chọn tất cả thành phần phụ” từ bảng điều khiển Mẹo hành động. Chọn lệnh “Select All” để chọn tất cả các hàng trong bảng

Bước 4. Chọn “Trích xuất dữ liệu trong vòng lặp” để trích xuất dữ liệu

Bạn có thể xuất dữ liệu sang Excel, CSV, TXT hoặc các định dạng mong muốn khác. Trong khi bảng tính cần bạn sao chép và dán một cách vật lý, thì Octoparse sẽ tự động hóa quy trình. Ngoài ra, Octopude có nhiều quyền kiểm soát hơn đối với các trang web động bằng AJAX hoặc reCaptcha.

Nếu bạn đang tìm một dịch vụ dữ liệu cho dự án của mình, dịch vụ dữ liệu Octopude là một lựa chọn tốt. Chúng tôi hợp tác chặt chẽ với bạn để hiểu yêu cầu dữ liệu của bạn và đảm bảo chúng tôi cung cấp những gì bạn mong muốn. Hãy trò chuyện với chuyên gia dữ liệu của Octoparse ngay bây giờ để thảo luận về cách dịch vụ quét web có thể giúp bạn nỗ lực tối đa

Một cách hoàn toàn tự động, không có lỗi để thu thập dữ liệu bằng Google Trang tính dường như quá tốt để trở thành sự thật?

Andrea Atzori

Ngày 20 tháng 12 năm 2021
⋅
9 phút đọc

Andrea Atzori

sinh học

Làm theo

845
CHIA SẺ
130K
ĐỌC

Tất cả chúng ta đều đã từng rơi vào tình huống phải trích xuất dữ liệu từ một trang web vào một thời điểm nào đó

Ví dụ: khi làm việc trên một tài khoản hoặc chiến dịch mới, bạn có thể không có sẵn dữ liệu hoặc thông tin để tạo quảng cáo

Trong một thế giới lý tưởng, chúng tôi sẽ được cung cấp tất cả nội dung, trang đích và thông tin liên quan mà chúng tôi cần, ở định dạng dễ nhập, chẳng hạn như CSV, bảng tính Excel hoặc Google Trang tính. (Hoặc ít nhất, cung cấp những gì chúng tôi cần dưới dạng dữ liệu theo thẻ có thể được nhập vào một trong các định dạng đã nói ở trên. )

Nhưng đó không phải lúc nào cũng như vậy

Những người thiếu công cụ để quét web - hoặc kiến thức mã hóa để sử dụng thứ gì đó như Python để trợ giúp công việc - có thể phải dùng đến công việc tẻ nhạt là sao chép và dán thủ công có thể hàng trăm hoặc hàng nghìn mục nhập

Trong một công việc gần đây, nhóm của tôi được yêu cầu

Truy cập trang web của khách hàng
Tải xuống hơn 150 sản phẩm mới trải rộng trên 15 trang khác nhau
Sao chép và dán tên sản phẩm và URL trang đích cho từng sản phẩm vào bảng tính

Bây giờ, bạn có thể tưởng tượng nhiệm vụ sẽ kéo dài bao lâu nếu chúng ta chỉ làm điều đó và thực hiện nhiệm vụ theo cách thủ công

Nó không chỉ tốn thời gian mà với một người nào đó phải xem qua nhiều mục và trang theo cách thủ công và phải sao chép và dán sản phẩm dữ liệu theo từng sản phẩm, khả năng mắc một hoặc hai lỗi là khá cao

Sau đó, sẽ cần nhiều thời gian hơn để xem xét tài liệu và đảm bảo rằng nó không có lỗi

Có phải là một cách tốt hơn

Tin tốt. Có. Hãy để tôi chỉ cho bạn cách chúng tôi đã làm điều đó

IMPORTXML là gì?

Nhập Google Trang tính. Tôi muốn bạn làm quen với chức năng IMPORTXML

Theo trang hỗ trợ của Google, IMPORTXML “nhập dữ liệu từ bất kỳ loại dữ liệu có cấu trúc nào bao gồm các nguồn cấp dữ liệu XML, HTML, CSV, TSV và RSS và ATOM XML. ”

Về cơ bản, IMPORTXML là một chức năng cho phép bạn cạo dữ liệu có cấu trúc từ các trang web — không cần kiến thức mã hóa

Ví dụ: trích xuất dữ liệu như tiêu đề trang, mô tả hoặc liên kết nhanh chóng và dễ dàng cũng như các thông tin phức tạp hơn

Làm cách nào IMPORTXML có thể giúp loại bỏ các thành phần của trang web?

Bản thân chức năng này khá đơn giản và chỉ yêu cầu hai giá trị

URL của trang web chúng tôi dự định trích xuất hoặc cạo thông tin từ
Và XPath của phần tử chứa dữ liệu

XPath là viết tắt của XML Path Language và có thể được sử dụng để điều hướng qua các thành phần và thuộc tính trong tài liệu XML

Ví dụ: để trích xuất tiêu đề trang từ https. // vi. wikipedia. org/wiki/Moon_landing, chúng tôi sẽ sử dụng

= NHẬP KHẨUXML(“https. // vi. wikipedia. org/wiki/Moon_landing”, “//title”)

Điều này sẽ trả về giá trị. hạ cánh trên mặt trăng - Wikipedia

Hoặc, nếu chúng tôi đang tìm kiếm mô tả trang, hãy thử điều này

= NHẬP KHẨUXML(“https. //www. tạp chí công cụ tìm kiếm. com/”,”//meta[@name=’description’]/@content”)

Dưới đây là danh sách rút gọn của một số truy vấn XPath phổ biến và hữu ích nhất

tiêu đề trang. //chức vụ
Mô tả meta trang. // meta[@name=’description’]/@content
Trang H1. //h1
Liên kết trang. //@href

Xem IMPORTXML đang hoạt động

Kể từ khi khám phá IMPORTXML trong Google Trang tính, nó đã thực sự trở thành một trong những vũ khí bí mật của chúng tôi trong việc tự động hóa nhiều tác vụ hàng ngày của chúng tôi, từ tạo chiến dịch và quảng cáo đến nghiên cứu nội dung, v.v.

Ngoài ra, hàm kết hợp với các công thức và tiện ích bổ sung khác có thể được sử dụng cho các tác vụ nâng cao hơn mà nếu không sẽ yêu cầu các giải pháp và phát triển tinh vi, chẳng hạn như các công cụ được tích hợp trong Python

Nhưng trong trường hợp này, chúng ta sẽ xem IMPORTXML ở dạng cơ bản nhất. cạo dữ liệu từ một trang web

Hãy cùng xem một ví dụ thực tế

Hãy tưởng tượng rằng chúng ta được yêu cầu tạo một chiến dịch cho Search Engine Journal

Họ muốn chúng tôi quảng cáo 30 bài viết mới nhất đã được xuất bản trong phần PPC của trang web

Một nhiệm vụ khá đơn giản, bạn có thể nói

Thật không may, các biên tập viên không thể gửi dữ liệu cho chúng tôi và đã vui lòng yêu cầu chúng tôi tham khảo trang web để tìm nguồn thông tin cần thiết để thiết lập chiến dịch

Như đã đề cập ở đầu bài viết của chúng tôi, một cách để thực hiện việc này là mở hai cửa sổ trình duyệt — một cửa sổ có trang web và cửa sổ còn lại có Google Trang tính hoặc Excel. Sau đó, chúng tôi sẽ bắt đầu sao chép và dán thông tin, từng bài viết và từng liên kết

Nhưng bằng cách sử dụng IMPORTXML trong Google Trang tính, chúng tôi có thể đạt được kết quả tương tự mà không có nguy cơ mắc lỗi trong một khoảng thời gian ngắn

Đây là cách

Bước 1. Bắt đầu với Trang tính Google mới

Đầu tiên, chúng tôi mở một tài liệu Google Trang tính mới, trống

Bước 2. Thêm nội dung bạn cần cạo

Thêm URL của trang (hoặc các trang) mà chúng tôi muốn lấy thông tin từ đó

Trong trường hợp của chúng tôi, chúng tôi bắt đầu với https. //www. tạp chí công cụ tìm kiếm. com/category/pay-per-click/

Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021

Bước 3. Tìm XPath

Chúng tôi tìm thấy XPath của phần tử mà chúng tôi muốn nhập nội dung vào bảng tính dữ liệu của mình

Trong ví dụ của chúng tôi, hãy bắt đầu với tiêu đề của 30 bài viết mới nhất

Chuyển đến Chrome. Sau khi di chuột qua tiêu đề của một trong các bài báo, nhấp chuột phải và chọn Kiểm tra

Ảnh chụp màn hình từ SearchEngineJournal. com, tháng 7 năm 2021

Thao tác này sẽ mở cửa sổ Công cụ dành cho nhà phát triển Chrome

Ảnh chụp màn hình từ SearchEngineJournal. com, tháng 7 năm 2021

Đảm bảo rằng tiêu đề bài viết vẫn được chọn và đánh dấu, sau đó nhấp chuột phải lần nữa và chọn Sao chép > Sao chép XPath

Bước 4. Trích xuất dữ liệu vào Google Sheets

Quay lại tài liệu Google Sheets của bạn, giới thiệu hàm IMPORTXML như sau

=IMPORTXML(B1,”//*[starts-with(@id, ‘title’)]”)

Đôi điều cần lưu ý

Đầu tiên, trong công thức của chúng tôi, chúng tôi đã thay thế URL của trang bằng tham chiếu đến ô lưu trữ URL (B1)

Thứ hai, khi sao chép XPath từ Chrome, điều này sẽ luôn được đặt trong dấu ngoặc kép

(//*[@id=”title_1″])

Tuy nhiên, để đảm bảo không phá vỡ công thức, dấu ngoặc kép sẽ cần được thay đổi thành dấu nháy đơn

(//*[@id=’title_1’])

Lưu ý rằng trong trường hợp này, vì tiêu đề ID trang thay đổi cho mỗi bài viết (title_1, title_2, v.v.), chúng tôi phải sửa đổi một chút truy vấn và sử dụng “bắt đầu với” để nắm bắt tất cả các thành phần trên trang có ID chứa . ’

Đây là giao diện trên tài liệu Google Trang tính

Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021

Và chỉ trong chốc lát, đây là kết quả sau khi truy vấn đã được tải dữ liệu vào bảng tính

Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021

Như bạn có thể thấy, danh sách trả về tất cả các bài viết nổi bật trên trang mà chúng tôi vừa thu thập (bao gồm cả phần trước của tôi về tự động hóa và cách sử dụng Công cụ tùy chỉnh quảng cáo để cải thiện hiệu suất chiến dịch Google Ads)

Bạn cũng có thể áp dụng điều này để thu thập bất kỳ thông tin nào khác cần thiết để thiết lập chiến dịch quảng cáo của mình.

Hãy thêm các URL trang đích, đoạn trích nổi bật của mỗi bài viết và tên tác giả vào tài liệu Trang tính của chúng ta

Đối với các URL trang đích, chúng tôi cần điều chỉnh truy vấn để xác định rằng chúng tôi đang theo dõi phần tử HREF được đính kèm với tiêu đề bài viết

Do đó, truy vấn của chúng tôi sẽ trông như thế này

=IMPORTXML(B1,”//*[starts-with(@id, ‘title’)]/@href”)

Bây giờ, hãy thêm ‘/@href’ vào cuối Xpath

Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021

thì đấy. Ngay lập tức, chúng tôi có URL của các trang đích

Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021

Bạn có thể làm tương tự đối với các đoạn trích nổi bật và tên tác giả

Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021

Xử lý sự cố

Một điều cần lưu ý là để có thể mở rộng hoàn toàn và điền vào bảng tính tất cả dữ liệu do truy vấn trả về, cột chứa dữ liệu phải có đủ ô trống và không có dữ liệu nào khác xen vào.

Điều này hoạt động theo cách tương tự như khi chúng ta sử dụng ARRAYFORMULA, để công thức mở rộng, không được có dữ liệu nào khác trong cùng một cột

Phần kết luận

Và ở đó, bạn có một cách hoàn toàn tự động, không có lỗi để thu thập dữ liệu từ (có khả năng) bất kỳ trang web nào, cho dù bạn cần nội dung và mô tả sản phẩm hay dữ liệu thương mại điện tử như giá sản phẩm hoặc chi phí vận chuyển

Vào thời điểm mà thông tin và dữ liệu có thể là lợi thế cần thiết để mang lại kết quả tốt hơn mức trung bình, khả năng thu thập các trang web và nội dung có cấu trúc một cách dễ dàng và nhanh chóng có thể là vô giá. Bên cạnh đó, như chúng ta đã thấy ở trên, IMPORTXML có thể giúp cắt giảm thời gian thực hiện và giảm khả năng mắc lỗi

Ngoài ra, chức năng này không chỉ là một công cụ tuyệt vời có thể được sử dụng riêng cho các tác vụ PPC, mà thay vào đó, nó có thể thực sự hữu ích trong nhiều dự án khác nhau yêu cầu quét web, bao gồm các tác vụ SEO và nội dung