Cẩm nang người dùng SQL PysparkBạn có phải là một lập trình viên đang tìm kiếm một công cụ mạnh mẽ để làm việc trên Spark? Nếu có, thì bạn phải xem xét SQL pyspark. Tờ Cheat SQL Pyspark này được thiết kế cho những người đã bắt đầu tìm hiểu và sử dụng Spark và Pyspark SQL. Nếu bạn là một trong số đó, thì tờ này sẽ là một tài liệu tham khảo tiện dụng cho bạn. Show Tuy nhiên, đừng lo lắng nếu bạn là người mới bắt đầu và không biết gì về cách hoạt động của SQL Pyspark. Bảng gian lận này sẽ cung cấp cho bạn một tham chiếu nhanh đến tất cả các từ khóa, biến, cú pháp và tất cả những điều cơ bản mà bạn phải biết. Tải xuống bản pdf có thể in của tờ cheat này Tìm hiểu Apache Spark từ đào tạo Intellipaat từ Cloudera Spark và là một chuyên gia Apache Spark! Khởi tạo SparksessionSử dụng các dòng lệnh bên dưới để khởi tạo Sparksession: >> from pyspark.sql import SparkSession >>> spark = SparkSession\.builder\.appName("PySpark SQL\.config("spark.some.config.option", "some-value") \.getOrCreate() Tạo DataFramesĐể tạo DataFrames, và suy luận và chỉ định các lược đồ, bạn cần tuân theo các hướng dẫn mã này: #import pyspark class Row from module sql >>>from pyspark.sql import *
Suy luận lược đồ>>> sc = spark.sparkContext >>> A = sc.textFile("Filename.txt") >>> B = lines.map(lambda x: x.split(",")) >>> C = parts.map(lambda a: Row(col1=a[0],col2=int(a[1]))) >>> C_df = spark.createDataFrame(C) Xem video pyspark này cho người mới bắt đầu:
Chỉ định lược đồ>>> C = parts.map(lambda a: Row(col1=a[0], col2=int(a[1].strip()))) >>> schemaString = "MyTable" >>> D = [StructField(field_name, StringType(), True) for field_name in schemaString.split()] >>> E = StructType(D) >>> spark.createDataFrame(C, E).show() Bạn muốn nắm bắt kiến thức chi tiết về Hadoop? Đọc hướng dẫn Spark rộng lớn này! Từ nguồn dữ liệu SparkJson>>>df = spark.read.json("table.json) >>>df.show() >>> df2 = spark.read.load("tablee2.json", format="json") Các tập tin lựa chọn>>> df3 = spark.read.load("newFile.parquet") Nếu bạn có các truy vấn liên quan đến Spark và Hadoop, vui lòng tham khảo Dữ liệu lớn của chúng tôi Hadoop và Spark Community! Kiểm tra dữ liệuBạn có thể kiểm tra và thực hiện các hoạt động trên dữ liệu đã nhập với các bộ lệnh sau: >>> df.dtypes -- Returns df column names and data types >>> df.show() -- Displays the content of df >>> df.head() -- Returns first n rows >>> df.first(n) -- Returns the first n rows >>> df.schema -- Returns the schema of df >>> df.describe().show() -- Computes the summary statistics >>> df.columns -- Returns the columns of df >>> df.count() -- Counts the number of rows in df >>> df.distinct().count() -- Counts the number of distinct rows in df >>> df.printSchema() -- Prints the schema of df >>> df.explain() -- Prints the (logical and physical) plans Nhận 100% đi bộ! Làm chủ nhiều nhất về kỹ năng nhu cầu bây giờ! Hoạt động cộtĐây là các bộ lệnh cơ bản mà bạn cần để thực hiện các hoạt động trên các cột. Add:: >>> df = df.withColumn('col1',df.table.col1) \ .withColumn('col2',df.table.col2) \ .withColumn('col3',df.table.col3) \ .withColumn('col4',df.table.col4) \.withColumn(col5', explode(df.table.col5)) Update:: >>> df = df.withColumnRenamed('col1', 'column1') Remove:: >>> df = df.drop("col3", "col4") >>> df = df.drop(df.col3).drop(df.col4) Hành độngGroupBy:: #import pyspark class Row from module sql >>>from pyspark.sql import *0 Filter:: #import pyspark class Row from module sql >>>from pyspark.sql import *1 Sort:: #import pyspark class Row from module sql >>>from pyspark.sql import *2 Thay thế các giá trị bị thiếu:: #import pyspark class Row from module sql >>>from pyspark.sql import *3 Repartitioning:: #import pyspark class Row from module sql >>>from pyspark.sql import *4 Truy vấn SQL#import pyspark class Row from module sql >>>from pyspark.sql import *5 Select:: #import pyspark class Row from module sql >>>from pyspark.sql import *6 When:: #import pyspark class Row from module sql >>>from pyspark.sql import *7 Chạy các truy vấn SQL theo chương trìnhĐăng ký DataFrames làm chế độ xem:: #import pyspark class Row from module sql >>>from pyspark.sql import *8 Quan điểm truy vấn #import pyspark class Row from module sql >>>from pyspark.sql import *9 Chuẩn bị bản thân bằng cách trải qua các câu hỏi và câu trả lời phỏng vấn hàng đầu ngay bây giờ! Hoạt động đầu raCấu trúc dữ liệu:: >>> sc = spark.sparkContext >>> A = sc.textFile("Filename.txt") >>> B = lines.map(lambda x: x.split(",")) >>> C = parts.map(lambda a: Row(col1=a[0],col2=int(a[1]))) >>> C_df = spark.createDataFrame(C)0 Viết và lưu vào các tập tin:: >>> sc = spark.sparkContext >>> A = sc.textFile("Filename.txt") >>> B = lines.map(lambda x: x.split(",")) >>> C = parts.map(lambda a: Row(col1=a[0],col2=int(a[1]))) >>> C_df = spark.createDataFrame(C)1 Dừng Sparksession:: >>> sc = spark.sparkContext >>> A = sc.textFile("Filename.txt") >>> B = lines.map(lambda x: x.split(",")) >>> C = parts.map(lambda a: Row(col1=a[0],col2=int(a[1]))) >>> C_df = spark.createDataFrame(C)2 Tải xuống bản pdf có thể in được của tờ cheat này Bảng cheat SQL Pyspark này đã bao gồm hầu hết các khái niệm quan trọng. Trong trường hợp bạn đang tìm cách học Pyspark SQL chuyên sâu, bạn nên kiểm tra chứng nhận đào tạo Apache Spark và Scala do Intellipaat cung cấp. Trong khóa học này, bạn sẽ làm việc trên các dự án và bài tập thực tế và do đó sẽ chuẩn bị cho mình là một chuyên gia SQL Pyspark được chứng nhận. Trên hết, bạn sẽ có hỗ trợ kỹ thuật 24/7 từ các chuyên gia của chúng tôi trong khi bạn thực hiện khóa học tại Intellipaat. Intellipaat cung cấp khóa đào tạo pyspark toàn diện nhất để theo dõi nhanh sự nghiệp của bạn! & nbsp; |