Hướng dẫn pyspark cheat sheet pdf - pyspark cheat sheet pdf

Cẩm nang người dùng SQL Pyspark

Bạn có phải là một lập trình viên đang tìm kiếm một công cụ mạnh mẽ để làm việc trên Spark? Nếu có, thì bạn phải xem xét SQL pyspark. Tờ Cheat SQL Pyspark này được thiết kế cho những người đã bắt đầu tìm hiểu và sử dụng Spark và Pyspark SQL. Nếu bạn là một trong số đó, thì tờ này sẽ là một tài liệu tham khảo tiện dụng cho bạn.

Tuy nhiên, đừng lo lắng nếu bạn là người mới bắt đầu và không biết gì về cách hoạt động của SQL Pyspark. Bảng gian lận này sẽ cung cấp cho bạn một tham chiếu nhanh đến tất cả các từ khóa, biến, cú pháp và tất cả những điều cơ bản mà bạn phải biết.

Tải xuống bản pdf có thể in của tờ cheat này

Hướng dẫn pyspark cheat sheet pdf - pyspark cheat sheet pdf

Tìm hiểu Apache Spark từ đào tạo Intellipaat từ Cloudera Spark và là một chuyên gia Apache Spark!

Khởi tạo Sparksession

Sử dụng các dòng lệnh bên dưới để khởi tạo Sparksession:

>> from pyspark.sql import SparkSession
>>> spark = SparkSession\.builder\.appName("PySpark SQL\.config("spark.some.config.option", "some-value") \.getOrCreate()

Tạo DataFrames

Để tạo DataFrames, và suy luận và chỉ định các lược đồ, bạn cần tuân theo các hướng dẫn mã này:

#import pyspark class Row from module sql
>>>from pyspark.sql import *
col1col2
hàng13
ROW24
ROW35

Suy luận lược đồ

>>> sc = spark.sparkContext
>>> A = sc.textFile("Filename.txt")
>>> B = lines.map(lambda x: x.split(","))
>>> C = parts.map(lambda a: Row(col1=a[0],col2=int(a[1])))
>>> C_df = spark.createDataFrame(C)

Xem video pyspark này cho người mới bắt đầu:

Chỉ định lược đồ

>>> C = parts.map(lambda a: Row(col1=a[0], col2=int(a[1].strip())))
>>> schemaString = "MyTable"
>>> D = [StructField(field_name, StringType(), True) for field_name in schemaString.split()]
>>> E = StructType(D)
>>> spark.createDataFrame(C, E).show()

Bạn muốn nắm bắt kiến ​​thức chi tiết về Hadoop? Đọc hướng dẫn Spark rộng lớn này!

Từ nguồn dữ liệu Spark

Json

>>>df = spark.read.json("table.json)
>>>df.show()
>>> df2 = spark.read.load("tablee2.json", format="json")

Các tập tin lựa chọn

>>> df3 = spark.read.load("newFile.parquet")

Nếu bạn có các truy vấn liên quan đến Spark và Hadoop, vui lòng tham khảo Dữ liệu lớn của chúng tôi Hadoop và Spark Community!

Kiểm tra dữ liệu

Bạn có thể kiểm tra và thực hiện các hoạt động trên dữ liệu đã nhập với các bộ lệnh sau:

>>> df.dtypes               -- Returns df column names and data types
>>> df.show()                    -- Displays the content of df
>>> df.head()                    -- Returns first n rows
>>> df.first(n)                  -- Returns the first n rows
>>> df.schema                    -- Returns the schema of df
>>> df.describe().show()         -- Computes the summary statistics
>>> df.columns                   -- Returns the columns of df
>>> df.count()                   -- Counts the number of rows in df 
>>> df.distinct().count()        -- Counts the number of distinct rows in df
>>> df.printSchema()             -- Prints the schema of df
>>> df.explain()                 -- Prints the (logical and physical) plans

Nhận 100% đi bộ!

Làm chủ nhiều nhất về kỹ năng nhu cầu bây giờ!

Hoạt động cột

Đây là các bộ lệnh cơ bản mà bạn cần để thực hiện các hoạt động trên các cột.

Add::

>>> df = df.withColumn('col1',df.table.col1) \ .withColumn('col2',df.table.col2) \ .withColumn('col3',df.table.col3) \ .withColumn('col4',df.table.col4) \.withColumn(col5', explode(df.table.col5))

Update::

>>> df = df.withColumnRenamed('col1', 'column1')

Remove::

>>> df = df.drop("col3", "col4")
>>> df = df.drop(df.col3).drop(df.col4)

Hành động

GroupBy::

#import pyspark class Row from module sql
>>>from pyspark.sql import *
0

Filter::

#import pyspark class Row from module sql
>>>from pyspark.sql import *
1

Sort::

#import pyspark class Row from module sql
>>>from pyspark.sql import *
2

Thay thế các giá trị bị thiếu::

#import pyspark class Row from module sql
>>>from pyspark.sql import *
3

Repartitioning::

#import pyspark class Row from module sql
>>>from pyspark.sql import *
4

Truy vấn SQL

#import pyspark class Row from module sql
>>>from pyspark.sql import *
5

Select::

#import pyspark class Row from module sql
>>>from pyspark.sql import *
6

When::

#import pyspark class Row from module sql
>>>from pyspark.sql import *
7

Chạy các truy vấn SQL theo chương trình

Đăng ký DataFrames làm chế độ xem::

#import pyspark class Row from module sql
>>>from pyspark.sql import *
8

Quan điểm truy vấn

#import pyspark class Row from module sql
>>>from pyspark.sql import *
9

Chuẩn bị bản thân bằng cách trải qua các câu hỏi và câu trả lời phỏng vấn hàng đầu ngay bây giờ!

Hướng dẫn pyspark cheat sheet pdf - pyspark cheat sheet pdf

Hoạt động đầu ra

Cấu trúc dữ liệu::

>>> sc = spark.sparkContext
>>> A = sc.textFile("Filename.txt")
>>> B = lines.map(lambda x: x.split(","))
>>> C = parts.map(lambda a: Row(col1=a[0],col2=int(a[1])))
>>> C_df = spark.createDataFrame(C)
0

Viết và lưu vào các tập tin::

>>> sc = spark.sparkContext
>>> A = sc.textFile("Filename.txt")
>>> B = lines.map(lambda x: x.split(","))
>>> C = parts.map(lambda a: Row(col1=a[0],col2=int(a[1])))
>>> C_df = spark.createDataFrame(C)
1

Dừng Sparksession::

>>> sc = spark.sparkContext
>>> A = sc.textFile("Filename.txt")
>>> B = lines.map(lambda x: x.split(","))
>>> C = parts.map(lambda a: Row(col1=a[0],col2=int(a[1])))
>>> C_df = spark.createDataFrame(C)
2

Tải xuống bản pdf có thể in được của tờ cheat này

Bảng cheat SQL Pyspark này đã bao gồm hầu hết các khái niệm quan trọng. Trong trường hợp bạn đang tìm cách học Pyspark SQL chuyên sâu, bạn nên kiểm tra chứng nhận đào tạo Apache Spark và Scala do Intellipaat cung cấp. Trong khóa học này, bạn sẽ làm việc trên các dự án và bài tập thực tế và do đó sẽ chuẩn bị cho mình là một chuyên gia SQL Pyspark được chứng nhận. Trên hết, bạn sẽ có hỗ trợ kỹ thuật 24/7 từ các chuyên gia của chúng tôi trong khi bạn thực hiện khóa học tại Intellipaat.

Intellipaat cung cấp khóa đào tạo pyspark toàn diện nhất để theo dõi nhanh sự nghiệp của bạn! & nbsp;