Hướng dẫn excel to databricks - excel sang cơ sở dữ liệu

Bỏ qua nội dung chính

Trình duyệt này không còn được hỗ trợ.

Nâng cấp lên Microsoft Edge để tận dụng các tính năng mới nhất, cập nhật bảo mật và hỗ trợ kỹ thuật.

Mở nhàn rỗi và thực hiện các bước sau:

  • Nhập gói pyodbc. Điều này cho phép bạn kết nối với Azure Databricks bằng DSN bạn đã tạo trước đó.
  • Thiết lập kết nối bằng cách sử dụng DSN bạn đã tạo trước đó.
  • Chạy truy vấn SQL bằng kết nối bạn đã tạo. Trong đoạn sau, radio_sample_data là một bảng đã tồn tại trong Azure Databricks.

Thực hiện các hoạt động trên truy vấn để xác minh đầu ra.

Bước tiếp theo

Để tìm hiểu về các nguồn từ nơi bạn có thể nhập dữ liệu vào Azure Databricks, hãy xem các nguồn dữ liệu cho Azure Databricks

  • Nhận xét

  • Gửi và xem phản hồi cho

  • Kết nối với Azure Databricks từ Excel, Python hoặc R

Bài báo

10/10/2022

  1. 5 phút để đọc

    Hướng dẫn excel to databricks - excel sang cơ sở dữ liệu

  2. Trong bài viết nàyConfiguration tab, click the JDBC/ODBC tab and copy the values for Server Hostname and HTTP Path. You need these values to complete the steps in this article.

    Hướng dẫn excel to databricks - excel sang cơ sở dữ liệu

  3. Trong bài viết này, bạn tìm hiểu cách sử dụng trình điều khiển ODBC của Databricks để kết nối Azure Databricks với ngôn ngữ Microsoft Excel, Python hoặc R. Khi bạn thiết lập kết nối, bạn có thể truy cập dữ liệu trong Azure Databricks từ các máy khách Excel, Python hoặc R. Bạn cũng có thể sử dụng các máy khách để phân tích sâu hơn các dữ liệu.ODBC Data Sources application (32-bit or 64-bit) depending on the application. To connect from Excel, use the 64-bit version. To connect from R and Python, use the 64-bit version.

    Hướng dẫn excel to databricks - excel sang cơ sở dữ liệu

  4. Điều kiện tiên quyếtUser DSN tab, click Add. In the Create New Data Source dialog box, select the Simba Spark ODBC Driver, and then click Finish.

    Hướng dẫn excel to databricks - excel sang cơ sở dữ liệu

  5. Bạn phải có một không gian làm việc của Azure Databricks, cụm Spark và dữ liệu mẫu được liên kết với cụm của bạn. Nếu bạn chưa có những điều kiện tiên quyết này, hãy hoàn thành QuickStart khi chạy công việc Spark trên Azure Databricks bằng cổng thông tin Azure.Simba Spark ODBC Driver dialog box, provide the following values:

    Hướng dẫn excel to databricks - excel sang cơ sở dữ liệu

    Tải xuống Trình điều khiển Databricks ODBC từ trang Tải xuống trình điều khiển Databricks. Cài đặt phiên bản 32 bit hoặc 64 bit tùy thuộc vào ứng dụng từ nơi bạn muốn kết nối với Azure Databricks. Ví dụ: để kết nối từ Excel, cài đặt phiên bản 64 bit của trình điều khiển. Để kết nối từ R và Python, hãy cài đặt phiên bản 64 bit của trình điều khiển.

    Thiết lập mã thông báo truy cập cá nhân trong Databricks. Để được hướng dẫn, xem quản lý mã thông báo.Thiết lập DSN
    Tên nguồn dữ liệu (DSN) chứa thông tin về một nguồn dữ liệu cụ thể. Trình điều khiển ODBC cần DSN này để kết nối với nguồn dữ liệu. Trong phần này, bạn đã thiết lập một DSN có thể được sử dụng với trình điều khiển Databricks ODBC để kết nối với Azure Databricks từ các máy khách như Microsoft Excel, Python hoặc R. Từ không gian làm việc của Azure Databricks, điều hướng đến cụm Databricks.
    Host(s) Trong tab Cấu hình, nhấp vào tab JDBC/ODBC và sao chép các giá trị cho đường dẫn máy chủ máy chủ và đường dẫn HTTP. Bạn cần các giá trị này để hoàn thành các bước trong bài viết này.
    Trên máy tính của bạn, hãy bắt đầu ứng dụng nguồn dữ liệu ODBC (32 bit hoặc 64 bit) tùy thuộc vào ứng dụng. Để kết nối từ Excel, hãy sử dụng phiên bản 64 bit. Để kết nối từ R và Python, hãy sử dụng phiên bản 64 bit. Trong tab DSN người dùng, nhấp vào Thêm. Trong hộp thoại Tạo nguồn dữ liệu mới, chọn trình điều khiển Simba Spark ODBC, sau đó nhấp vào Kết thúc.
    Trong hộp thoại Simba Spark ODBC, cung cấp các giá trị sau: > Mechanism Bảng sau đây cung cấp thông tin về các giá trị để cung cấp trong hộp thoại.
    Đồng ruộng Giá trị
    Tên nguồn dữ liệu Cung cấp một tên cho nguồn dữ liệu.

    Cung cấp giá trị mà bạn đã sao chép từ không gian làm việc dữ liệu cho máy chủ máy chủ.

    • Hải cảngHTTP Options. In the dialog box that opens up, paste the value for HTTP Path that you copied from Databricks workspace. Click OK.
    • Nhập 443.SSL Options. In the dialog box that opens up, select the Enable SSL check box. Click OK.
    • Xác thực> Cơ chếTest to test the connection to Azure Databricks. Click OK to save the configuration.
    • Chọn tên người dùng và mật khẩu.ODBC Data Source Administrator dialog box, click OK.

Tên tài khoản

Kết nối từ Microsoft Excel

Trong phần này, bạn lấy dữ liệu từ Azure Databricks vào Microsoft Excel bằng DSN bạn đã tạo trước đó. Trước khi bạn bắt đầu, hãy đảm bảo bạn đã cài đặt Microsoft Excel trên máy tính. Bạn có thể sử dụng phiên bản dùng thử của Excel từ Microsoft Excel dùng thử.

  1. Mở sổ làm việc trống trong Microsoft Excel. Từ ruy băng dữ liệu, nhấp vào Nhận dữ liệu. Nhấp vào từ các nguồn khác và sau đó nhấp vào ODBC.Data ribbon, click Get Data. Click From Other Sources and then click From ODBC.

    Hướng dẫn excel to databricks - excel sang cơ sở dữ liệu

  2. Trong hộp thoại From ODBC, chọn DSN mà bạn đã tạo trước đó và sau đó bấm OK.From ODBC dialog box, select the DSN that you created earlier and then click OK.

    Hướng dẫn excel to databricks - excel sang cơ sở dữ liệu

  3. Nếu bạn được nhắc về thông tin đăng nhập, cho tên người dùng, hãy nhập mã thông báo. Đối với mật khẩu, cung cấp giá trị mã thông báo mà bạn lấy từ không gian làm việc của Databricks.token. For password, provide the token value that you retrieved from the Databricks workspace.

    Hướng dẫn excel to databricks - excel sang cơ sở dữ liệu

  4. Từ cửa sổ Điều hướng, chọn bảng trong các dữ liệu mà bạn muốn tải để Excel, sau đó nhấp vào Tải.Load.

    Hướng dẫn excel to databricks - excel sang cơ sở dữ liệu

Khi bạn có dữ liệu trong sổ làm việc Excel, bạn có thể thực hiện các hoạt động phân tích trên đó.

Kết nối từ r

Ghi chú

Phần này cung cấp thông tin về cách tích hợp máy khách R Studio chạy trên máy tính để bàn của bạn với Azure Databricks. Để biết hướng dẫn về cách sử dụng R Studio trên bản chính Azure Databricks, xem R Studio trên Azure Databricks.

Trong phần này, bạn sử dụng IDE ngôn ngữ R để tham khảo dữ liệu có sẵn trong Azure Databricks. Trước khi bạn bắt đầu, bạn phải cài đặt các phần sau trên máy tính.

  • Một IDE cho ngôn ngữ R. Bài viết này sử dụng rstudio cho máy tính để bàn. Bạn có thể cài đặt nó từ R Studio Tải xuống.
  • Nếu bạn sử dụng rstudio cho máy tính để bàn làm IDE của bạn, cũng cài đặt Microsoft R Client từ https://aka.ms/rclient/.

Mở rstudio và thực hiện các bước sau:

  • Tham khảo gói RODBC. Điều này cho phép bạn kết nối với Azure Databricks bằng DSN bạn đã tạo trước đó.
  • Thiết lập kết nối bằng DSN.
  • Chạy truy vấn SQL trên dữ liệu trong Azure Databricks. Trong đoạn sau, radio_sample_data là một bảng đã tồn tại trong Azure Databricks.
  • Thực hiện một số hoạt động trên truy vấn để xác minh đầu ra.

Đoạn mã sau thực hiện các tác vụ này:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res) 
    
# print out the number of rows in the query output
nrow (res)

Kết nối từ Python

Trong phần này, bạn sử dụng Python IDE (chẳng hạn như nhàn rỗi) để tham khảo dữ liệu có sẵn trong Azure Databricks. Trước khi bạn bắt đầu, hãy hoàn thành các điều kiện tiên quyết sau:

  • Cài đặt Python từ đây. Cài đặt Python từ liên kết này cũng cài đặt IDLE.

  • Từ lời nhắc lệnh trên máy tính, cài đặt gói pyodbc. Chạy lệnh sau:

    pip install pyodbc
    

Mở nhàn rỗi và thực hiện các bước sau:

  • Nhập gói pyodbc. Điều này cho phép bạn kết nối với Azure Databricks bằng DSN bạn đã tạo trước đó.
  • Thiết lập kết nối bằng cách sử dụng DSN bạn đã tạo trước đó.
  • Chạy truy vấn SQL bằng kết nối bạn đã tạo. Trong đoạn sau, radio_sample_data là một bảng đã tồn tại trong Azure Databricks.
  • Thực hiện các hoạt động trên truy vấn để xác minh đầu ra.

Đoạn mã sau thực hiện các tác vụ này:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Kết nối từ Python

  • Trong phần này, bạn sử dụng Python IDE (chẳng hạn như nhàn rỗi) để tham khảo dữ liệu có sẵn trong Azure Databricks. Trước khi bạn bắt đầu, hãy hoàn thành các điều kiện tiên quyết sau:

Cài đặt Python từ đây. Cài đặt Python từ liên kết này cũng cài đặt IDLE.

Từ lời nhắc lệnh trên máy tính, cài đặt gói pyodbc. Chạy lệnh sau: