Bạn có thể quét web trong Google Trang tính không? . Trên thực tế, Google Sheets có thể được coi là một công cụ quét web cơ bản. Bạn có thể sử dụng một công thức đặc biệt để trích xuất dữ liệu từ các trang web, nhập dữ liệu trực tiếp vào trang tính google và chia sẻ dữ liệu đó với bạn bè của mình. Bằng cách đọc các phần sau, bạn có thể tìm hiểu các phương pháp dễ dàng về cách xây dựng một công cụ quét web đơn giản bằng Google Trang tính
Show
Mục lục
Lựa chọn 1. Tạo một công cụ quét web dễ dàng bằng cách sử dụng ImportXML trong Google SpreadsheetsBước 1. Mở một trang tính Google mới Bước 2. Mở một trang web mục tiêu với Chrome. Trong trường hợp này, chúng tôi chọn Trò chơi bán hàng. Nhấp chuột phải vào trang web và nó sẽ hiển thị menu thả xuống. Sau đó chọn "kiểm tra". Nhấn tổ hợp ba phím. "Ctrl" + "Shift" + "C" để kích hoạt "Bộ chọn". Điều này sẽ cho phép bảng kiểm tra lấy thông tin của thành phần được chọn trong trang web Bước 3. Sao chép và dán URL trang web vào trang tính
Lựa chọn 2. Lấy dữ liệu giá với một công thức đơn giản. nhậpXMLBước 1. Sao chép Xpath của phần tử. Chọn yếu tố giá và Nhấp chuột phải để hiển thị menu thả xuống. Sau đó chọn “Sao chép”, chọn “Sao chép XPath” Bước 2. Nhập công thức vào bảng tính =IMPORTXML(“URL”, “Biểu thức XPTH”) Lưu ý "biểu thức Xpath" là biểu thức chúng tôi vừa sao chép từ Chrome. Thay thế dấu ngoặc kép " " trong biểu thức Xpath bằng dấu ngoặc kép đơn''
Lựa chọn số 3. Một công thức khác để lấy dữ liệu với Google SheetsCó một công thức khác chúng ta có thể sử dụng =IMPORTHTML(“URL”, “QUERY”, Chỉ mục) Với công thức này, bạn trích ra cả bảng
Tùy chọn số 4. Công cụ quét web tự động mà không cần mã hóaBây giờ, hãy xem cách có thể hoàn thành dễ dàng cùng một tác vụ cạo bằng công cụ quét web, Octopude. Nó cho phép bạn trích xuất nhiều dữ liệu từ trang web hơn Google Sheets và bạn không cần học các kỹ năng viết mã vì nó có chế độ tự động phát hiện. Octoparse hoạt động trên cả thiết bị Windows và Mac, hãy tải xuống và làm theo các bước bên dưới để thưởng thức Một video về quét web với OctopudeCác bước để cạo dữ liệu web bằng Google Sheets Web Scraping AlternativeBước 1. Mở Octopude sau khi cài đặt nhanh, xây dựng tác vụ mới bằng cách chọn “+Tác vụ” trong “Chế độ nâng cao” Bước 2. Chọn Nhóm nhiệm vụ ưa thích của bạn. Sau đó nhập URL trang web mục tiêu và nhấp vào "Lưu URL". Trong trường hợp này. Trang web bán trò chơi http. // hơi nước. com/ Bước 3. Thông báo trang web Bán trò chơi được hiển thị trong phần chế độ xem tương tác Octoparse. Chúng ta cần tạo một danh sách vòng lặp để làm cho Octopude đi qua các danh sách 1. Nhấp vào một hàng của bảng (có thể là bất kỳ tệp nào trong bảng) Octopude sau đó phát hiện các mục tương tự và đánh dấu chúng bằng màu đỏ 2. Chúng ta cần trích xuất theo hàng, vì vậy hãy chọn “TR” (Table Row) từ bảng điều khiển 3. Sau khi một hàng đã được chọn, hãy chọn lệnh “Chọn tất cả thành phần phụ” từ bảng điều khiển Mẹo hành động. Chọn lệnh “Select All” để chọn tất cả các hàng trong bảng Bước 4. Chọn “Trích xuất dữ liệu trong vòng lặp” để trích xuất dữ liệu Bạn có thể xuất dữ liệu sang Excel, CSV, TXT hoặc các định dạng mong muốn khác. Trong khi bảng tính cần bạn sao chép và dán một cách vật lý, thì Octoparse sẽ tự động hóa quy trình. Ngoài ra, Octopude có nhiều quyền kiểm soát hơn đối với các trang web động bằng AJAX hoặc reCaptcha.
Nếu bạn đang tìm một dịch vụ dữ liệu cho dự án của mình, dịch vụ dữ liệu Octopude là một lựa chọn tốt. Chúng tôi hợp tác chặt chẽ với bạn để hiểu yêu cầu dữ liệu của bạn và đảm bảo chúng tôi cung cấp những gì bạn mong muốn. Hãy trò chuyện với chuyên gia dữ liệu của Octoparse ngay bây giờ để thảo luận về cách dịch vụ quét web có thể giúp bạn nỗ lực tối đa Một cách hoàn toàn tự động, không có lỗi để thu thập dữ liệu bằng Google Trang tính dường như quá tốt để trở thành sự thật? Andrea Atzori
Andrea Atzorisinh học Làm theo
Tất cả chúng ta đều đã từng rơi vào tình huống phải trích xuất dữ liệu từ một trang web vào một thời điểm nào đó Ví dụ: khi làm việc trên một tài khoản hoặc chiến dịch mới, bạn có thể không có sẵn dữ liệu hoặc thông tin để tạo quảng cáo Trong một thế giới lý tưởng, chúng tôi sẽ được cung cấp tất cả nội dung, trang đích và thông tin liên quan mà chúng tôi cần, ở định dạng dễ nhập, chẳng hạn như CSV, bảng tính Excel hoặc Google Trang tính. (Hoặc ít nhất, cung cấp những gì chúng tôi cần dưới dạng dữ liệu theo thẻ có thể được nhập vào một trong các định dạng đã nói ở trên. ) Nhưng đó không phải lúc nào cũng như vậy Những người thiếu công cụ để quét web - hoặc kiến thức mã hóa để sử dụng thứ gì đó như Python để trợ giúp công việc - có thể phải dùng đến công việc tẻ nhạt là sao chép và dán thủ công có thể hàng trăm hoặc hàng nghìn mục nhập Trong một công việc gần đây, nhóm của tôi được yêu cầu
Bây giờ, bạn có thể tưởng tượng nhiệm vụ sẽ kéo dài bao lâu nếu chúng ta chỉ làm điều đó và thực hiện nhiệm vụ theo cách thủ công Nó không chỉ tốn thời gian mà với một người nào đó phải xem qua nhiều mục và trang theo cách thủ công và phải sao chép và dán sản phẩm dữ liệu theo từng sản phẩm, khả năng mắc một hoặc hai lỗi là khá cao Sau đó, sẽ cần nhiều thời gian hơn để xem xét tài liệu và đảm bảo rằng nó không có lỗi Có phải là một cách tốt hơn Tin tốt. Có. Hãy để tôi chỉ cho bạn cách chúng tôi đã làm điều đó IMPORTXML là gì?Nhập Google Trang tính. Tôi muốn bạn làm quen với chức năng IMPORTXML Theo trang hỗ trợ của Google, IMPORTXML “nhập dữ liệu từ bất kỳ loại dữ liệu có cấu trúc nào bao gồm các nguồn cấp dữ liệu XML, HTML, CSV, TSV và RSS và ATOM XML. ” Về cơ bản, IMPORTXML là một chức năng cho phép bạn cạo dữ liệu có cấu trúc từ các trang web — không cần kiến thức mã hóa Ví dụ: trích xuất dữ liệu như tiêu đề trang, mô tả hoặc liên kết nhanh chóng và dễ dàng cũng như các thông tin phức tạp hơn Làm cách nào IMPORTXML có thể giúp loại bỏ các thành phần của trang web?Bản thân chức năng này khá đơn giản và chỉ yêu cầu hai giá trị
XPath là viết tắt của XML Path Language và có thể được sử dụng để điều hướng qua các thành phần và thuộc tính trong tài liệu XML Ví dụ: để trích xuất tiêu đề trang từ https. // vi. wikipedia. org/wiki/Moon_landing, chúng tôi sẽ sử dụng = NHẬP KHẨUXML(“https. // vi. wikipedia. org/wiki/Moon_landing”, “//title”) Điều này sẽ trả về giá trị. hạ cánh trên mặt trăng - Wikipedia Hoặc, nếu chúng tôi đang tìm kiếm mô tả trang, hãy thử điều này = NHẬP KHẨUXML(“https. //www. tạp chí công cụ tìm kiếm. com/”,”//meta[@name=’description’]/@content”) Dưới đây là danh sách rút gọn của một số truy vấn XPath phổ biến và hữu ích nhất
Xem IMPORTXML đang hoạt độngKể từ khi khám phá IMPORTXML trong Google Trang tính, nó đã thực sự trở thành một trong những vũ khí bí mật của chúng tôi trong việc tự động hóa nhiều tác vụ hàng ngày của chúng tôi, từ tạo chiến dịch và quảng cáo đến nghiên cứu nội dung, v.v. Ngoài ra, hàm kết hợp với các công thức và tiện ích bổ sung khác có thể được sử dụng cho các tác vụ nâng cao hơn mà nếu không sẽ yêu cầu các giải pháp và phát triển tinh vi, chẳng hạn như các công cụ được tích hợp trong Python Nhưng trong trường hợp này, chúng ta sẽ xem IMPORTXML ở dạng cơ bản nhất. cạo dữ liệu từ một trang web Hãy cùng xem một ví dụ thực tế Hãy tưởng tượng rằng chúng ta được yêu cầu tạo một chiến dịch cho Search Engine Journal Họ muốn chúng tôi quảng cáo 30 bài viết mới nhất đã được xuất bản trong phần PPC của trang web Một nhiệm vụ khá đơn giản, bạn có thể nói Thật không may, các biên tập viên không thể gửi dữ liệu cho chúng tôi và đã vui lòng yêu cầu chúng tôi tham khảo trang web để tìm nguồn thông tin cần thiết để thiết lập chiến dịch Như đã đề cập ở đầu bài viết của chúng tôi, một cách để thực hiện việc này là mở hai cửa sổ trình duyệt — một cửa sổ có trang web và cửa sổ còn lại có Google Trang tính hoặc Excel. Sau đó, chúng tôi sẽ bắt đầu sao chép và dán thông tin, từng bài viết và từng liên kết Nhưng bằng cách sử dụng IMPORTXML trong Google Trang tính, chúng tôi có thể đạt được kết quả tương tự mà không có nguy cơ mắc lỗi trong một khoảng thời gian ngắn Đây là cách Bước 1. Bắt đầu với Trang tính Google mớiĐầu tiên, chúng tôi mở một tài liệu Google Trang tính mới, trống Bước 2. Thêm nội dung bạn cần cạoThêm URL của trang (hoặc các trang) mà chúng tôi muốn lấy thông tin từ đó Trong trường hợp của chúng tôi, chúng tôi bắt đầu với https. //www. tạp chí công cụ tìm kiếm. com/category/pay-per-click/ Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021Bước 3. Tìm XPathChúng tôi tìm thấy XPath của phần tử mà chúng tôi muốn nhập nội dung vào bảng tính dữ liệu của mình Trong ví dụ của chúng tôi, hãy bắt đầu với tiêu đề của 30 bài viết mới nhất Chuyển đến Chrome. Sau khi di chuột qua tiêu đề của một trong các bài báo, nhấp chuột phải và chọn Kiểm tra Ảnh chụp màn hình từ SearchEngineJournal. com, tháng 7 năm 2021Thao tác này sẽ mở cửa sổ Công cụ dành cho nhà phát triển Chrome Ảnh chụp màn hình từ SearchEngineJournal. com, tháng 7 năm 2021Đảm bảo rằng tiêu đề bài viết vẫn được chọn và đánh dấu, sau đó nhấp chuột phải lần nữa và chọn Sao chép > Sao chép XPath Bước 4. Trích xuất dữ liệu vào Google SheetsQuay lại tài liệu Google Sheets của bạn, giới thiệu hàm IMPORTXML như sau =IMPORTXML(B1,”//*[starts-with(@id, ‘title’)]”) Đôi điều cần lưu ý Đầu tiên, trong công thức của chúng tôi, chúng tôi đã thay thế URL của trang bằng tham chiếu đến ô lưu trữ URL (B1) Thứ hai, khi sao chép XPath từ Chrome, điều này sẽ luôn được đặt trong dấu ngoặc kép (//*[@id=”title_1″]) Tuy nhiên, để đảm bảo không phá vỡ công thức, dấu ngoặc kép sẽ cần được thay đổi thành dấu nháy đơn (//*[@id=’title_1’]) Lưu ý rằng trong trường hợp này, vì tiêu đề ID trang thay đổi cho mỗi bài viết (title_1, title_2, v.v.), chúng tôi phải sửa đổi một chút truy vấn và sử dụng “bắt đầu với” để nắm bắt tất cả các thành phần trên trang có ID chứa . ’ Đây là giao diện trên tài liệu Google Trang tính Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021Và chỉ trong chốc lát, đây là kết quả sau khi truy vấn đã được tải dữ liệu vào bảng tính Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021Như bạn có thể thấy, danh sách trả về tất cả các bài viết nổi bật trên trang mà chúng tôi vừa thu thập (bao gồm cả phần trước của tôi về tự động hóa và cách sử dụng Công cụ tùy chỉnh quảng cáo để cải thiện hiệu suất chiến dịch Google Ads) Bạn cũng có thể áp dụng điều này để thu thập bất kỳ thông tin nào khác cần thiết để thiết lập chiến dịch quảng cáo của mình. Hãy thêm các URL trang đích, đoạn trích nổi bật của mỗi bài viết và tên tác giả vào tài liệu Trang tính của chúng ta Đối với các URL trang đích, chúng tôi cần điều chỉnh truy vấn để xác định rằng chúng tôi đang theo dõi phần tử HREF được đính kèm với tiêu đề bài viết Do đó, truy vấn của chúng tôi sẽ trông như thế này =IMPORTXML(B1,”//*[starts-with(@id, ‘title’)]/@href”) Bây giờ, hãy thêm ‘/@href’ vào cuối Xpath Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021thì đấy. Ngay lập tức, chúng tôi có URL của các trang đích Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021Bạn có thể làm tương tự đối với các đoạn trích nổi bật và tên tác giả Ảnh chụp màn hình từ Google Trang tính, tháng 7 năm 2021Xử lý sự cốMột điều cần lưu ý là để có thể mở rộng hoàn toàn và điền vào bảng tính tất cả dữ liệu do truy vấn trả về, cột chứa dữ liệu phải có đủ ô trống và không có dữ liệu nào khác xen vào. Điều này hoạt động theo cách tương tự như khi chúng ta sử dụng ARRAYFORMULA, để công thức mở rộng, không được có dữ liệu nào khác trong cùng một cột Phần kết luậnVà ở đó, bạn có một cách hoàn toàn tự động, không có lỗi để thu thập dữ liệu từ (có khả năng) bất kỳ trang web nào, cho dù bạn cần nội dung và mô tả sản phẩm hay dữ liệu thương mại điện tử như giá sản phẩm hoặc chi phí vận chuyển Vào thời điểm mà thông tin và dữ liệu có thể là lợi thế cần thiết để mang lại kết quả tốt hơn mức trung bình, khả năng thu thập các trang web và nội dung có cấu trúc một cách dễ dàng và nhanh chóng có thể là vô giá. Bên cạnh đó, như chúng ta đã thấy ở trên, IMPORTXML có thể giúp cắt giảm thời gian thực hiện và giảm khả năng mắc lỗi Ngoài ra, chức năng này không chỉ là một công cụ tuyệt vời có thể được sử dụng riêng cho các tác vụ PPC, mà thay vào đó, nó có thể thực sự hữu ích trong nhiều dự án khác nhau yêu cầu quét web, bao gồm các tác vụ SEO và nội dung |