Tôi đang thử sử dụng pyspark từ AWS EMR để đọc tệp Excel mà nó cư trú S3, để làm điều này, tôi đã tải xuống Spark-Excel JARS Spark-Excel_2.11-0.12.4.Jar và Spark-EXCEL_2.12-0.13.5 .Jar và địa điểm vào thùng S3 Show
Một số người có thể vui lòng hỗ trợ tôi khắc phục vấn đề này không? Tôi đánh giá cao sự giúp đỡ của bạn ! hỏi ngày 12 tháng 2 năm 2021 lúc 22:39Feb 12, 2021 at 22:39
Bạn có thể đọc nó từ Excel trực tiếp. Thật vậy, đây nên là một thực hành tốt hơn so với liên quan đến gấu trúc kể từ đó lợi ích của tia lửa sẽ không còn tồn tại nữa. Bạn có thể chạy cùng một mẫu mã như được định nghĩa ở trên, nhưng chỉ cần thêm lớp cần thiết vào cấu hình của Sparksession của bạn.
Sau đó, bạn có thể đọc tệp Excel của bạn.
Đã trả lời ngày 13 tháng 2 năm 2021 lúc 8:48Feb 13, 2021 at 8:48
Amar Singhamar SinghAmar Singh 1.1803 huy hiệu vàng12 Huy hiệu bạc29 Huy hiệu đồng3 gold badges12 silver badges29 bronze badges 1
Có lẽ tài liệu Excel có thể phù hợp với bộ nhớ của người lái. Trong trường hợp đó, tôi sẽ đọc tệp bằng cách sử dụng gấu trúc trực tiếp từ S3 và sau đó tạo ra một tia lửa dữ liệu nhiều hơn. Thử một cái gì đó như:
EDIT: Cách tiếp cận được đề xuất này chỉ được giới thiệu cho rất ít tệp mà bạn có thể muốn tham gia với các khung dữ liệu khác. Nếu bộ dữ liệu lớn của bạn đến từ các tệp XLSX, tôi khuyên bạn nên làm theo giải pháp Đã trả lời ngày 13 tháng 2 năm 2021 lúc 0:05Feb 13, 2021 at 0:05
EmeremerEmer 3.5742 Huy hiệu vàng32 Huy hiệu bạc46 Huy hiệu đồng2 gold badges32 silver badges46 bronze badges 3 Bạn đã bao giờ cố gắng đọc các tệp Excel trên keo (pyspark) và từ bỏ vì đó không phải là công việc? Cũng không có gì nữa bài viết này sẽ cho bạn thấy các bước liên quan để làm việc trên các tệp Excel với pyspark trong keo và EMR. Pyspark không có một thư viện hỗ trợ các tệp Excel. Có một thư viện được tạo ra bởi Creailytics cho Scala mà chúng tôi sẽ sử dụng để làm việc với Pyspark. Làm việc với Excel trong Databricks rất dễ dàng với một cú nhấp chuột bằng cách chỉ vào phần thư viện và nhập tên gói và bùng nổ nó đã tải xuống và cài đặt và sẵn sàng để sử dụng. Đây là trường hợp với keo AWS.crealytics for scala which we’ll be using to work with in Pyspark. Working with excel in Databricks is easy with a single click by just going to the library section and entering the package name and boom it’s downloaded and installed and ready to use. This isn’t the case with AWS Glue.
Vì vậy, quay trở lại điểm làm việc với các tệp excel trong keo, người ta phải tải xuống thủ công (có thể được tải xuống từ kho lưu trữ MVN) tất cả các tệp có cùng phiên bản được đề cập trong ảnh dưới đây. Nếu phiên bản khác nhau, nó có thể không hoạt động.MVN repository) all the files with the same version mentioned in the below pic. If the version is different it might not work. phụ thuộc Excel Spark-ExcelGửi tất cả các thư viện này vào một thùng S3 và đề cập đến đường dẫn trong hộp văn bản đường dẫn thư viện Python Python. Hãy chắc chắn rằng công việc keo của bạn có các chính sách IAM cần thiết để truy cập vào thùng này. Bây giờ chúng tôi sẽ nhảy vào mã. Sau khi khởi tạo Sparksession, chúng ta có thể đọc tệp Excel như được hiển thị bên dưới. Tệp excel mẫu đọc bằng pysparkCác tùy chọn có sẵn để đọc được liệt kê dưới đây, spark.read Tương tự các tùy chọn có sẵn để viết là, df.write Trong EMR, chúng ta có thể đọc và viết theo mã giống như đã đề cập ở trên. Điều duy nhất cần thêm là một tham số bổ sung trong lệnh Submit của chúng tôi dành cho Scala 2.12 Lệnh ví dụ: Tôi hy vọng điều này đã giúp !! Làm cách nào để đọc một tệp excel trong pyspark?Làm cách nào để đọc một tệp excel trong databricks pyspark ?.. df2 = tia lửa. đọc. Định dạng ("com. creailytics. Spark. Excel"). Tùy chọn ("Tiêu đề", "Đúng"). tùy chọn ("inferschema", "true"). Tải ("DBFS: /filestore/shared_uploads/[email protected]/book. XLSX"). display(df2). Làm cách nào để đọc tệp XLSX từ S3 trong Python?Làm thế nào để bạn đọc Excel từ S3 bằng Gandas ?.. Nhập IO .. Nhập Gandas dưới dạng PD .. S3 = BOTO3.máy khách ('S3'). obj = s3.get_Object (xô = 'bucket_name', key = 'key_name'). df = pd.read_excel (io. bytesio (obj ['body']. read ())). Làm cách nào để đọc các tệp trong pyspark s3?Để đọc dữ liệu trên S3 đến một pyspark DataFrame bằng thông tin bảo mật tạm thời, bạn cần phải:.. Tải xuống một phân phối tia lửa đi kèm với Hadoop 3. X .. Xây dựng và cài đặt gói pyspark .. Nói với pyspark sử dụng thư viện Hadoop-Aws .. Định cấu hình thông tin đăng nhập .. Làm cách nào để đọc các tệp .xlsx trong Spark?Vì lý do nào đó, Spark không đọc chính xác dữ liệu từ tệp XLSX trong cột với công thức ... df = tia lửa.đọc\. Định dạng ("com. crealytics. Spark. .... Tùy chọn ("Tiêu đề", "Đúng") \. Tải (input_path + input_folder_general + "test1. xlsx"). display(df). |