Trình sắp xếp dữ liệu Python

Pandas là một gói python cực kỳ phổ biến và cần thiết cho khoa học dữ liệu vì nó mạnh mẽ, linh hoạt và dễ sử dụng phân tích dữ liệu nguồn mở và thao tác dữ liệu. Với việc phát hành gói python AWS Data Wrangler mã nguồn mở, giờ đây việc nhập dữ liệu từ một loạt các dịch vụ aws vào Pandas DataFrames, thực hiện phân tích dữ liệu và ghi lại vào đám mây trở nên dễ dàng hơn

AWS Data Wrangler là gì?

AWS Data wrangler là một thư viện mã nguồn mở mới được tạo bởi nhóm AWS Professional Service tại Amazon. AWS Data Wrangler được xây dựng dựa trên các dự án mã nguồn mở yêu thích khác của bạn như Pandas, Apache Arrow và Boto3. Điều này cung cấp các hàm trừu tượng để thực thi các tác vụ ETL thông thường như tải/dỡ dữ liệu từ Hồ dữ liệu, Kho dữ liệu và Cơ sở dữ liệu bằng python

Dịch vụ cơ sở dữ liệu được hỗ trợ

Khi nào bạn nên chọn sử dụng trình sắp xếp dữ liệu khi phát triển đường dẫn dữ liệu trong python? . Việc bạn chọn cái này hay cái kia tùy thuộc vào lượng dữ liệu bạn cần xử lý. AWS Data Wrangler được tạo với trường hợp sử dụng là xây dựng các đường ống nhẹ, không phân tán. Vì vậy, nếu có lẽ bạn chỉ cần làm việc với hàng nghìn hoặc hàng trăm nghìn bản ghi thì AWS Data wrangler thực sự có thể là một trường hợp sử dụng tuyệt vời dành cho bạn. Bây giờ, nếu bạn đang làm việc với hàng tỷ bản ghi, thì có lẽ AWS data wrangler không phù hợp với trường hợp sử dụng của bạn và thay vào đó, bạn nên xem xét việc xây dựng một đường dẫn dữ liệu phân tán có khả năng bằng Pyspark. Bây giờ, trước khi bạn viết về trình sắp xếp dữ liệu aws vì “không thể làm việc với dữ liệu lớn”, nó có thể gián tiếp bằng cách gọi các dịch vụ khác có khả năng đó, nói thêm về vấn đề này một chút

Vậy Data Wrangler đơn giản hóa quy trình phát triển đường dẫn dữ liệu như thế nào? . Điều này cho phép bạn tập trung vào bước chuyển đổi của ETL bằng cách sử dụng các lệnh và chuyển đổi gấu trúc quen thuộc

Amazon Sagemaker Data Wrangler có giống nhau không?

Gần đây Amazon cũng đã phát hành Amazon SageMaker Data Wrangler. Các dịch vụ có liên quan không? . Amazon SageMaker Data Wrangler là một tính năng mới của SageMaker Studio có tên tương tự nhưng có mục đích khác với AWS Data Wrangler, một dự án python mã nguồn mở. Hãy nhớ rằng AWS Data Wrangler là mã nguồn mở, chạy ở mọi nơi và tập trung vào mã. Mặc dù Amazon SageMaker Data Wrangler dành riêng cho môi trường SageMaker Studio và tập trung vào giao diện trực quan

AWS Data Wrangler hỗ trợ những dịch vụ nào?

Nó cho phép tích hợp dễ dàng với Athena, Glue, Redshift, Timestream, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer và S3. Tôi biết tôi vừa đề cập đến một loạt các dịch vụ, vì vậy hãy nói về các dịch vụ mà nó hoạt động chi tiết hơn một chút

Làm việc với Hồ dữ liệu

Data Wrangler giúp đọc và ghi dữ liệu dễ dàng hơn nhờ có chức năng kết nối và ghi vào Amazon S3. Nó hiện hỗ trợ đọc excel, các tệp có định dạng chiều rộng cố định, JSON, sàn gỗ và ghi vào CSV, Excel, JSON và sàn gỗ. Nếu dữ liệu của bạn được sắp xếp với AWS Glue Catalog, thì có các chức năng chuyên dụng để có thể tương tác với siêu dữ liệu này

Làm việc với Kho dữ liệu

Vì vậy, nếu bạn có phiên bản Redshift, trình sắp xếp dữ liệu AWS sẽ có thể đọc dữ liệu vào khung dữ liệu gấu trúc và cũng ghi dữ liệu từ gấu trúc ở đó

Làm việc với RDS

Bạn có thể đọc và ghi dữ liệu từ cơ sở dữ liệu RDS như PostgreSQL, MySQL, Microsoft SQL Server. Tôi thấy rằng một tính năng thú vị khi sử dụng tính năng này để ghi dữ liệu vào dịch vụ cơ sở dữ liệu quan hệ là bạn có thể ghi trực tiếp các bản ghi được lưu trữ trong khung dữ liệu vào cơ sở dữ liệu RDS của mình

amazon Athena

Vì vậy, có lẽ bạn không muốn máy duy nhất đang chạy aws wrangler của mình thực hiện tất cả các công việc nặng nhọc, có thể tập dữ liệu nguồn của bạn tồn tại trên S3 và là “dữ liệu lớn” đang nói về hàng tỷ bản ghi ở đây nhưng bạn chỉ muốn nhập một tập hợp con . Đây là nơi chúng tôi tận dụng AWS Data Wrangler để gọi Amazon Athena thực hiện tất cả công việc và chạy truy vấn SQL cũng như trả về kết quả trong khung dữ liệu. Tôi nghĩ điều đó khá mạnh mẽ

AWS EMR

Bạn có thể chạy Công việc Amazon EMR và thậm chí quản lý cụm EMR của mình thông qua mã. Điều này có thể hữu ích để giữ cho chi phí EMR ở mức thấp bằng cách tự động hóa khi bạn muốn chạy một công việc và kết thúc nó khi bạn hoàn thành. Ví dụ: chức năng này có thể được gọi để quay cụm EMR và có thể được sử dụng để gửi một công việc mới

Nhật ký Amazon Cloudwatch,

AWS Wrangler thậm chí còn có chức năng tương tác trực tiếp với nhật ký cloudwatch của Amazon. AWS data Wrangler có thể truy vấn nhật ký và trả về dưới dạng Pandas DataFrame

Amazon QuickSights

Nếu bạn đang tận dụng QuickSight của amazon để tạo bảng thông tin, thì có một loạt chức năng để quản lý bảng thông tin và tạo bộ dữ liệu cung cấp năng lượng cho bảng thông tin QuickSight của bạn

Dòng thời gian của Amazon

AWS Data wrangler cũng hỗ trợ dòng thời gian Amazon được phát hành gần đây, đây là cơ sở dữ liệu chuỗi thời gian AWS Serverless. Nó hỗ trợ tạo và xóa cơ sở dữ liệu và bảng, Cũng có thể truy vấn và ghi dữ liệu trở lại bảng dòng thời gian

DynamoDB

Đối với DynamoDB Kể từ AWS Data wrangler 2. 3, nó hỗ trợ "đặt" từ csv, khung dữ liệu hoặc JSON vào bảng DynamoDB nhưng điều quan trọng cần lưu ý là nó không hỗ trợ đọc dữ liệu. Tôi chắc chắn rằng với các phiên bản mới, điều này có thể thay đổi nhưng hiện tại, bạn không thể đọc dữ liệu từ DynamoDB bằng phiên bản đó. Tuy nhiên, bạn có thể xóa các mục khỏi bảng

Người quản lý bí mật của Amazon

Nếu bạn sử dụng trình quản lý bí mật của amazon để lưu trữ mật khẩu và thông tin xác thực của mình một cách an toàn, thì bạn cũng có thể truy xuất mật khẩu và thông tin đăng nhập đó bằng trình sắp xếp dữ liệu aws

Bắt đầu và chạy trên AWS Data Wrangler

WS Data Wrangler có thể được cài đặt dễ dàng trên máy cục bộ với python 3 bằng cách cài đặt bất kỳ thư viện python nào khác thông qua

 pip install awswrangler

Nó cũng có thể được cài đặt thông qua Conda bằng cách sử dụng

conda install -c conda-forge awswrangler

Dịch vụ AWS nào có thể chạy thư viện python AWS Data Wrangler?

Nó có thể chạy trong AWS Lambda, AWS Glue, Amazon Sagemaker notebook và EMR

Để sử dụng nó trong AWS Lambda, như bạn có thể biết, lambda không đi kèm với mọi thư viện được cài đặt sẵn trên đó. Vì vậy, bạn sẽ cần tải thư viện sắp xếp dữ liệu lên dưới dạng lớp AWS Lambda và bạn đã sẵn sàng tham gia cuộc đua

Đối với các công việc AWS Glue PySpark, tất cả những gì bạn cần làm là thêm một cặp khóa/giá trị tham số công việc mới của
Chìa khóa. --additional-python-modules,Giá trị. awswrangler

Thay vào đó, nếu bạn muốn sử dụng nó trong tác vụ AWS Glue python shell, bạn cần tải tệp bánh xe lên bộ chứa amazon s3 và sau đó trỏ tác vụ của bạn tới tệp bánh xe trong trường đường dẫn thư viện python

Để sử dụng nó trong Amazon Sage Maker Notebook, bạn chỉ cần chạy !pip install awswrangler và bạn đã sẵn sàng để sử dụng

Cuối cùng đối với EMR, miễn là bạn định cấu hình cụm EMR của mình cho python 3, với hai dòng mã được cài đặt _______________

Như bạn có thể thấy, việc bắt đầu với thư viện trên AWS khá dễ dàng

Tóm lược

Khi bạn không cần xây dựng các đường dẫn dữ liệu phân tán để xử lý khối lượng dữ liệu khổng lồ của mình và cho tất cả những người yêu thích thư viện Pandas trong python và bạn cần làm việc với dữ liệu trong Hệ sinh thái AWS, thì AWS Data Wrangler rất đáng để kiểm tra . Nó thực sự đơn giản hóa quá trình đưa dữ liệu của bạn vào python, do đó bạn dành ít thời gian hơn để loay hoay với các kết nối và có nhiều thời gian hơn để tập trung vào các chuyển đổi dữ liệu bạn cần

Nội dung của bài viết này cũng có sẵn thông qua liên kết video dưới đây

Tôi hy vọng bạn thích đọc này. Nếu bạn muốn hỗ trợ tôi với tư cách là một nhà văn, hãy cân nhắc đăng ký để trở thành thành viên của Medium. Chỉ với 5 đô la một tháng và bạn có quyền truy cập không giới hạn vào Phương tiện

Sắp xếp dữ liệu trong Python là gì?

Sắp xếp dữ liệu liên quan đến việc xử lý dữ liệu ở nhiều định dạng khác nhau như - hợp nhất, nhóm, nối, v.v. với mục đích phân tích hoặc chuẩn bị sẵn sàng để sử dụng chúng với một bộ dữ liệu khác . Python có các tính năng tích hợp để áp dụng các phương pháp sắp xếp này cho các tập dữ liệu khác nhau để đạt được mục tiêu phân tích.

Ví dụ sắp xếp dữ liệu là gì?

Ví dụ sắp xếp dữ liệu . Xác định các khoảng trống hoặc ô trống trong dữ liệu và lấp đầy hoặc xóa chúng. Xóa dữ liệu không liên quan hoặc không cần thiết. Xác định các ngoại lệ nghiêm trọng trong dữ liệu và giải thích sự không nhất quán hoặc xóa chúng để tạo điều kiện phân tích. Merging several data sources into one data-set for analysis. Identifying gaps or empty cells in data and either filling or removing them. Deleting irrelevant or unnecessary data. Identifying severe outliers in data and either explaining the inconsistencies or deleting them to facilitate analysis.

Ngôn ngữ lập trình nào đang sắp xếp dữ liệu?

Sắp xếp lại dữ liệu, đôi khi được gọi là trộn dữ liệu, là quá trình làm sạch dữ liệu thô theo cách thủ công trước khi phân tích. Một số công cụ và ngôn ngữ lập trình phổ biến nhất được sử dụng trong sắp xếp dữ liệu bao gồm Microsoft Excel, SQL, Python và Pandas .

Kích thước của dữ liệu AWS Wrangler là bao nhiêu?

Kiểm tra điểm chuẩn của Data Wrangler . around 100 GB with 80 million rows and 300 columns.