Hướng dẫn how do i integrate a website into google sheets? - làm cách nào để tích hợp một trang web vào trang tính google?

Tôi là một bảng tính không bí mật. Tôi ngay cả trong một loại nhóm lợi ích bảng tính. Số lượng người đam mê ở đó nói với tôi rằng chúng tôi đã dựa vào một bảng tính cũ tốt vào một lúc nào đó trong sự nghiệp của chúng tôi.

Ngay cả trong vương quốc này, Google Sheets là một thứ gì đó của một siêu anh hùng. Các bảng tính của Google Sheets có thể thu thập thông tin linh hoạt cho bạn trong khi bạn ngủ và lấy bất cứ thứ gì bạn muốn (giá cổ phiếu, phân tích trang web và nhiều hơn nữa) từ bất cứ đâu.

Nhưng điều gì sẽ xảy ra nếu bạn muốn lấy dữ liệu từ web với giá lớn có lẽ để sao chép thông tin từ một bảng trên một trang web? Có thể có một danh sách các sự kiện, một lưới các sự kiện hoặc địa chỉ email nằm rải rác xung quanh một trang web. Sao chép và dán chúng sẽ mất mãi mãi nhưng Google Sheets có một lựa chọn tốt hơn.

Bạn có thể nhập dữ liệu từ bất kỳ trang web nào bằng một hàm nhỏ gọi là ImportXML và một khi bạn thành thạo nó, bạn sẽ cảm thấy như một trình hướng dẫn được chứng nhận. Nhập trí lấy thông tin từ bất kỳ trường XML nào, nghĩa là, bất kỳ trường nào được đóng khung bởi <tag></tag>. Vì vậy, bạn có thể lấy dữ liệu từ bất kỳ trang web nào và bất kỳ siêu dữ liệu nào được tạo bởi bất kỳ trang web nào, bất cứ nơi nào. Chắc chắn, bạn có thể sao chép-dán và sau đó dành hàng giờ để chỉnh sửa mọi thứ bằng tay, nhưng tại sao không tự động hóa những thứ nhàm chán?

Hãy làm điều đó.

XML và HTML cơ bản

Bạn cần phải biết một số HTML rất cơ bản, hay đúng hơn là đánh dấu XML chỉ định các bộ dữ liệu trong một trang web để nắm bắt các chức năng chung ở đây, vì vậy, đây là một khóa học sụp đổ. Về bản chất, bất kỳ bộ nào của <something> và ____ 4, các khối xây dựng cốt lõi của một trang web Mã nguồn Nguồn, có nghĩa là một bộ dữ liệu nhất định được chứa bên trong chúng (có lẽ là <something>like this</something). Một trang của một trang sẽ có một số văn bản trong một <p>Agraph, đôi khi chứa văn bản <b>old và có lẽ liên kết <a>A (tiếp theo là </a></b>.</p></body> để đóng tất cả).

Chức năng của Google Sheets Nhập khẩu có thể tìm kiếm một bộ dữ liệu XML cụ thể và sao chép dữ liệu ra khỏi nó.

Vì vậy, trong ví dụ trên, nếu chúng tôi muốn lấy tất cả các liên kết trên một trang, chúng tôi sẽ nói với chức năng nhập khẩu của chúng tôi để nhập tất cả thông tin trong các thẻ <tag>0. Nếu chúng tôi muốn toàn bộ văn bản của một trang web vì chúng tôi đang thực hiện một số công việc khai thác văn bản nâng cao hơn, có lẽ chúng tôi sẽ bắt đầu bằng cách lấy mọi thứ trong cái đó.

Nếu chúng tôi đã nói với ImportXML để lấy các liên kết từ ví dụ trên, chúng tôi sẽ nhận được văn bản "một liên kết". Điều đó có thể không hữu ích lắm, nhưng ít nhất bạn có ý tưởng.

Mẹo: Bạn muốn đào sâu hơn một chút vào HTML và XML? Kiểm tra hướng dẫn phần tử kiểm tra của chúng tôi để xem cách bạn có thể thay đổi bất cứ điều gì trên bất kỳ trang web nào bằng cách chỉnh sửa mã của nó trong trình duyệt của bạn. Want to dig a bit deeper into HTML and XML? Check out our Inspect Element tutorial to see how you can change anything on any web page by editing its code in your browser.


Cách trích xuất danh sách các mã bưu chính và các quận thành phố

Một trong những dự án hiện tại của tôi liên quan đến việc phù hợp với danh sách khách hàng của tôi bằng mã bưu chính của họ với một khu thành phố trong thành phố của tôi. Đây là một dự án khá nhỏ, vì tôi chỉ sử dụng một số ít các phường trung tâm, nhưng hơi khó khăn, bởi vì ở Canada không có bộ dữ liệu nào về mã bưu chính của chúng tôi. Không, thực sự là CANADA Post đã kiện ai đó một lần vì đã xuất bản một danh sách tất cả các mã bưu chính.

May mắn thay, một số cá nhân táo bạo đã đưa ra một phiên bản tốt nhất tiếp theo trên Wikipedia: một bảng mã bưu chính theo sau là các thành phố và khu phố mà nó chứa.

Bảng Wikipedia là một cách tuyệt vời để thực hành nhập khẩu. Hãy cùng thử lấy tất cả các mã bưu chính ở Edmonton, Alberta. Chúng tôi sẽ đi đến phần "AB" của hệ thống bưu chính, những cái bắt đầu bằng T. Mở trang đó trong một cửa sổ trình duyệt mới để theo dõi cùng với bài tập này.

Hướng dẫn how do i integrate a website into google sheets? - làm cách nào để tích hợp một trang web vào trang tính google?

Hãy cùng xem một nguồn trang. Chọn một trong các mã bưu chính, nhấp chuột phải vào nó và chọn Kiểm tra để mở công cụ trình duyệt của bạn để xem mã nguồn trang.

Có vẻ như mỗi mã bưu chính được chứa trong một thẻ (xác định một ô trong bảng). Vì vậy, chúng tôi sẽ nhập tất cả các thẻ TD có chứa từ "Edmonton" trong đó.

Đối với bài học đầu tiên của bạn, hãy tạo bảng tính Google Sheets mới, trống. Chúng tôi sẽ lấy tất cả các nội dung của thẻ TD, bao gồm <tag>3 và các liên kết, bằng cách chỉ định những gì chúng tôi muốn sử dụng cú pháp XPath. InterportXML lấy URL và các thẻ mà bạn đang tìm kiếm làm đối số, vì vậy hãy nhập nó vào Google Sheets:

<tag>4

sẽ cho bạn cái này:

Nhìn lại nguồn trang của chúng tôi, chúng tôi thấy rằng mã bưu chính là in đậm, hoặc <tag>5 và các tên thành phố liên kết với các bài viết của Wikipedia, tất nhiên, trong ____10. Chúng ta hãy cố gắng chỉ lấy liên kết đầu tiên trong mỗi ô, đó là thành phố lớn và bỏ qua các liên kết khác, đó là các khu phố. Sửa đổi nó thành hai lệnh, trong các cột A và B -

<tag>7

<tag>8

Và bạn sẽ tinh chỉnh kết quả của mình nhiều hơn một chút:

Điều này sẽ cung cấp cho bạn một ý tưởng về cách cú pháp của truy vấn XPath hoạt động: một thẻ với <tag>9 có nghĩa là "chỉ cung cấp cho tôi ví dụ đầu tiên của <tag> bên trong </tag>1." Vì vậy, </tag>2 cung cấp cho bạn liên kết đầu tiên bên trong <tag>3 bên trong mỗi </tag>4. Theo cách tương tự, </tag>5 cung cấp cho bạn văn bản táo bạo đầu tiên bên trong mỗi ____ 24 hoặc chỉ là mã bưu chính trong trường hợp của chúng tôi.

Một điều gọn gàng bạn có thể làm là tạo hai truy vấn ra khỏi một chức năng. Vì vậy, chúng ta có thể kết hợp hai yêu cầu này với một | (ống) biểu tượng ở giữa:

</tag>7

Tuy nhiên, bạn đã giành được kết quả tương tự như trước đây: Nó sẽ liên kết tất cả các yêu cầu phù hợp vào một danh sách dài, thay vì hai cột. Có rất nhiều công dụng cho việc này, nhưng không phải cho mục đích của chúng tôi ở đây.

Bên cạnh đó, chúng tôi không muốn tất cả các hàng này; Chúng tôi chỉ muốn những cái phù hợp với "Edmonton" trong trường </tag>2 đó. Hãy nhớ rằng chúng tôi muốn trả lại mã bưu chính, vì vậy chúng tôi muốn </tag>9 của mỗi </tag>4 có "Edmonton" trong <something>1. Vẫn còn với tôi?

Để chỉ chọn các mã bưu chính trong các hộp trong đó các liên kết đầu tiên là ‘Edmonton, chúng tôi sẽ sử dụng mã này:

<something>2

Chúng tôi đặt phần "tìm kiếm", văn bản đủ điều kiện thu hẹp kết quả của chúng tôi trong đó trong <something>3, mà không làm phiền đường dẫn thực sự mang lại kết quả. Voila!

Bây giờ chúng tôi muốn những cái tên khu phố. Chúng tôi viết một chức năng Nhập khẩu phù hợp để đi trong cột tiếp theo, lấy văn bản xuất hiện sau từ "Edmonton".

Giải pháp của tôi lấy toàn bộ nội dung của <something>4 và sử dụng dấu ngoặc đơn và dấu gạch chéo để chia nội dung, cắt "Edmonton" vào cột đầu tiên và mỗi tên lân cận thành các cột sau. Từ quy trình hai bước này, chúng tôi có thể kết hợp các mã bưu chính và tên lân cận:

<something>5

Và sau đó, một vài cột sau đó sử dụng các chức năng chia và nối để tách và nhóm dữ liệu chúng tôi đang làm việc:

<something>6

Điều đó mang lại cho chúng tôi bảng cuối cùng, được làm sạch chỉ với mã bưu chính, thành phố và thông tin khu phố mà chúng tôi cần:

Nếu bạn có thể hiểu được nó, bạn có thể cải thiện phương pháp này. Hãy suy nghĩ về việc chỉ gọi nội dung của <tag>3 sau <something>8 hoặc chỉ văn bản bên trong ngoặc hoặc mọi thứ không bao gồm chuỗi "Edmonton" hoặc mọi thứ sau khi dòng phá vỡ <something>9.


Cách tự động sao chép địa chỉ email từ một trang web

Điều này dễ dàng: Bạn có thể lấy tất cả các email của nhân viên Zapier từ trang Giới thiệu không?

Nhìn vào mã nguồn sẽ cho bạn biết ngay: Mọi địa chỉ email của mỗi thành viên nhóm Zapier đều ở trong một trường có </something>0. Dễ! Khi bạn muốn chỉ định một thuộc tính của thẻ (giả sử, "href" trong một <a> hoặc "id" hoặc "lớp" của </something>2), bạn gọi nó là:

</something>3

Lấy một email mà không có các phím tắt như thế này có thể được thực hiện. Chúng tôi làm điều đó bằng cách kết hợp hình thức thiết yếu của họ (, AKA). Nó phức tạp hơn, nhưng có nhiều tiềm năng hơn.

Một biểu thức chính quy là những gì chúng tôi sử dụng để nắm bắt thông tin một cách phân loại phù hợp với một định dạng nhất định. Giả sử chúng tôi muốn biết tất cả các nhiệt độ được liệt kê trên một trang web thời tiết. Chúng tôi sẽ nắm bắt điều đó bằng cách nói "Cung cấp cho chúng tôi tất cả các số xuất hiện trước biểu tượng </something>4 hoặc </something>5 hoặc ________ 46", đó là tất cả các ký tự Unicode khác nhau.

Nếu chúng tôi muốn lấy một danh sách các email, chúng tôi sẽ nói "Cung cấp cho chúng tôi tất cả các chuỗi phù hợp với định dạng." Hoặc, trong một biểu thức chính quy:

</something>7

Hít một hơi thật sâu, và chúng tôi sẽ đi qua từng bước này. Bạn có thể thấy ký hiệu @ và bạn có thể thấy rằng không gian "tên người dùng" trước @ (hoặc </something>8) khá gần với khu vực "máy chủ" sau @ (hoặc </something>9).

Và bit "hậu tố" trông giống nhau, nhưng không hoàn toàn. Điều đó bởi vì các nhân vật được phép trong một địa chỉ email và trong một tên máy chủ, như được xác định bởi các vị thần của Internet, bị hạn chế. Bạn có thể nhớ đăng ký địa chỉ email và nhận được thông báo lỗi khi bạn cố gắng đặt "~ ~ f41ry ~ ~" trong đó. Tôi cũng vậy, biết nỗi đau đó. Điều đó bởi vì các email lấy các ký tự viết thường (A-Z), ký tự chữ hoa (A-Z), Số (0-9), nhấn mạnh (_), Dashes (-) và các khoảng thời gian (.)-Và, đôi khi, cộng với các dấu hiệu (+).

Điều gì với các dấu gạch chéo và cộng với các dấu hiệu trong biểu thức đó? Dấu gạch ngang và các khoảng thời gian đã báo hiệu những điều cụ thể trong các biểu thức thông thường, và vì vậy để biểu thị "ký tự <something>like this</something0 chứ không phải chức năng biểu hiện thông thường" chúng ta phải "hủy bỏ" chúng, đó là một thuật ngữ lạ mắt cho "bỏ qua những gì bạn thường làm trong kịch bản này." Việc hủy bỏ được thực hiện bằng cách đặt một dấu gạch chéo ngược (<something>like this</something1) trước mặt nó.

Dấu cộng bên ngoài giá trị có nghĩa là "cho phép một nhân vật phù hợp với đó, một hoặc nhiều lần." Vì vậy, tên email của bạn có thể là bất kỳ số lượng ký tự nào dài, miễn là nó ít nhất một.

Sau đó, chúng tôi làm lại cho tên máy chủ: một hoặc nhiều ký tự của chữ thường, chữ hoa, số, nhấn mạnh, dấu gạch ngang và thời gian vì một số địa chỉ email là "@mail.hostname.suffix".

Bit cuối cùng, hậu tố bị hạn chế nhiều hơn: <something>like this</something2

Chúng ta chỉ có thể có các ký tự đơn giản và chúng ta chỉ có thể có 2 đến 15 ký tự (bao gồm tất cả các miền hợp thời trang mới như <something>like this</something3 và <something>like this</something4 và, dài nhất rõ ràng cho đến nay, <something>like this</something5). Vì vậy, thay vì + điều đó có nghĩa là "bất kỳ độ dài nào", chúng tôi đặt độ dài tối thiểu và tối đa với <something>like this</something6. (Bạn có thể đặt một cái gì đó như "chính xác năm" chỉ với <something>like this</something7.)

Để tóm tắt lại, khi chúng ta muốn một nhân vật một mình (như trong <something>like this</something8), chúng ta chỉ cần gõ nó. Khi chúng tôi muốn một ký tự phù hợp với bất kỳ loại ký tự nào, chúng tôi ném các ký tự có thể chấp nhận được với nhau bên trong giá đỡ vuông. Khi chúng tôi muốn nhân số đó với một số số, chúng tôi thêm vào một số dấu ngoặc đơn giản xác định số lượng ký tự tối thiểu và tối đa phù hợp với mô tả hoặc sử dụng các chỉ số để nói "một hoặc nhiều" hoặc "không hoặc nhiều hơn." Khi chúng tôi thực hiện phép nhân như thế, chúng tôi ném nó vào giá trị đơn giản. Một số ký tự yêu cầu "hủy bỏ" với dấu gạch chéo ngược.

Ở đó, bạn đã học được một kỹ năng mới mạnh mẽ ngày hôm nay! Tất cả chỉ để lấy email. Whew.

Các ngôn ngữ lập trình khác nhau sử dụng các ký hiệu và cú pháp khác nhau để làm cho mọi thứ hoạt động; Đối với một hương vị nhỏ, hãy kiểm tra emailRegex.com, nhưng toàn bộ trang web chỉ để tìm cách tìm kiếm một địa chỉ email (don lồng đọc các bình luận). Và nếu bạn muốn đào sâu hơn vào Regex của Google Sheets, thì đây là danh sách các chức năng của Google Sheets Secret-bí mật vì Google rất tệ trong tài liệu, vì vậy một nhóm người dùng đã viết hướng dẫn riêng của họ thông qua thử và sai.


Cách sử dụng Regex để nhập địa chỉ email từ một trang web trong Google Sheets

Hãy để Lừa lấy những địa chỉ Zapier đó bằng cách sử dụng sức mạnh Regex mới của chúng tôi. Chúng tôi đang nhập cùng một <tag>3, nhưng thay vì tìm kiếm một lớp tương đương với "email", chúng tôi đang tìm kiếm nội dung phù hợp với biểu thức thông thường. Một lần nữa, hãy để Lừa thực hiện trong hai bước: Chúng tôi sẽ gọi rất nhiều thông tin từ trang Zapier trong cột đầu tiên, sau đó sắp xếp các email cho các email trong cột thứ hai.

<p>0

<p>1

Và điều đó cho chúng ta bảng này:

Bạn có thể kết hợp hai chức năng này không? Hãy nhớ rằng, nhập khẩu sẽ tự điền vào các cột và hàng, tùy thuộc vào những gì nó tìm thấy (được gọi là công thức mảng) và truy vấn regex phải được điền cho mỗi ô bạn muốn có kết quả (nghĩa là không phải là một công thức mảng ). Để ném tất cả chúng lại với nhau, bạn chỉ cần ra lệnh cho RegExexTract trở thành một công thức mảng chỉ một lần (và ném vào một iferror để giải quyết vấn đề của Decency, để các ô trống nơi không tìm thấy địa chỉ email):

<p>2

Và, với điều đó, đây là danh sách các địa chỉ email do Regex cung cấp từ trang của Zapier từ Zapier:


Trở thành chuyên gia Google Sheets với Zapier

Để đọc thêm, chúng tôi đã viết về các trang web khác trong ebook CRM bảng tính miễn phí của chúng tôi. Bạn cũng có thể đọc về các chức năng anh em họ của ImportXML:

  • Importhtml, một chức năng yếu hơn sẽ lấy toàn bộ bảng hoặc danh sách từ một trang web nhất định mà không cần bất kỳ điều khiển nào khác—a weaker function that will grab an entire table or list from a given webpage without any further controls

  • Nhập kế - để lấy dữ liệu từ các tờ khác trong bảng tính—to grab data from other sheets in the spreadsheet

  • Nhập khẩuData để nhập dữ liệu từ tệp CSV hoặc TSV được liên kết—to import data from a linked CSV or TSV file

  • Nhập khẩu, hoạt động giống như Nhập khẩu, nhưng để nhập nguồn cấp RSS hoặc Atom, điều này có thể tuyệt vời nếu bạn gặp vấn đề khi nhập XML từ một trang web nhất định (Cough Twitter).—which works much like ImportXML, but to import RSS or Atom feeds, which can be great if you’re having problems importing XML from a certain website (cough Twitter).

Cùng với đó, bạn sẽ tìm hiểu những điều cơ bản về bảng tính Nếu bạn cần xem lại, cùng với các mẹo về cách xây dựng một ứng dụng đầy đủ trong bảng tính của bạn, hãy sử dụng tập lệnh Google Apps để tự động hóa bảng tính của bạn và hướng dẫn sử dụng ứng dụng đồng hành của Google Sheets, Hình thức Google.

Hoặc, để có cách dễ dàng hơn để nhập dữ liệu vào bảng tính Google Sheets của bạn, bạn có thể sử dụng các tích hợp Google Sheets của Công cụ Tự động hóa ứng dụng Zapier để tự động thêm dữ liệu vào bảng tính của bạn. Nó có thể đăng nhập các tweet vào một bảng tính, giữ một bản sao lưu danh bạ MailChimp của bạn hoặc lưu dữ liệu từ các biểu mẫu và sự kiện của bạn vào một tờ.

Zapier cũng có thể đặt dữ liệu của bạn vào hoạt động. Giả sử bạn sử dụng nhập khẩu để lấy danh sách các địa chỉ email vào bảng tính. Zapier sau đó có thể sao chép những thứ đó từ bảng tính của bạn và gửi cho họ một tin nhắn email hoặc thêm chúng vào danh sách gửi thư của bạn. Nó có thể thêm một danh sách các ngày vào Lịch Google của bạn để có một cách dễ dàng để xây dựng danh sách ngày lễ hoặc sự kiện. Hoặc nó có thể thêm từng mục mới như một nhiệm vụ mới trong ứng dụng quản lý dự án của bạn hoặc nhiều hơn nữa.