Tầm quan trọng của phân tích dữ liệu đang phát triển đều đặn trên tất cả các ngành công nghiệp. Có các công cụ phân tích và trực quan hóa dữ liệu thích hợp đã trở nên quan trọng hơn bao giờ hết. Jupyter Notebooks là một trong những công cụ nguồn mở hàng đầu để phát triển và quản lý phân tích dữ liệu. Show
Jupyter ban đầu bắt đầu cuộc sống của mình như là một nhánh của dự án Ipython vào năm 2014, và nó đã phát triển thành một nền tảng khoa học dữ liệu tương tác đầy đủ. Được quản lý bởi tổ chức Jupyter dự án phi lợi nhuận, Jupyter nhằm mục đích cung cấp nền tảng khoa học dữ liệu toàn diện nhất. Trong bài viết này, chúng tôi sẽ chỉ cho bạn cách thiết lập và định cấu hình môi trường Jupyter địa phương. Bạn có thể sử dụng hướng dẫn này làm điểm khởi đầu hoàn hảo cho công việc phân tích dữ liệu bắt đầu. Notebook Jupyter là gì?Jupyter Notebook là một ứng dụng web nguồn mở cung cấp môi trường tính toán tương tác. Nó tạo ra các tài liệu (máy tính xách tay) kết hợp cả đầu vào (mã) và xuất vào một tệp. Nó cung cấp một tài liệu duy nhất có chứa:
Cách tiếp cận tài liệu duy nhất này cho phép người dùng phát triển, trực quan hóa kết quả và thêm thông tin, biểu đồ và công thức giúp hoạt động dễ hiểu hơn, có thể lặp lại và có thể chia sẻ. Notebook Jupyter hỗ trợ hơn 40 ngôn ngữ lập trình, tập trung chính vào Python. Vì nó là một công cụ miễn phí và nguồn mở, bất cứ ai cũng có thể sử dụng nó một cách tự do cho các dự án khoa học dữ liệu của họ. Có hai biến thể của Notebook Jupyter:
Hôm nay, Jupyterlab là máy tính xách tay mặc định cho bất kỳ dự án Jupyter nào. (Bắt đầu với các công cụ Python này.) Cài đặt Notebook Jupyter (Jupyterlab)Có nhiều cách để cài đặt và sử dụng máy tính xách tay Jupyter, từ cài đặt thông qua Conda, Mamba, Pip, PipenV hoặc thậm chí là container Docker. Trong phần này, chúng tôi thảo luận về hai phương pháp cài đặt máy tính xách tay Jupyter trong môi trường địa phương của bạn. . Cài đặt qua PipenVPIPENV cho phép người dùng tạo ra một môi trường ảo có thể tái tạo xác định với quản lý phụ thuộc thích hợp cho các dự án Python. Khi Jupyter đến như một gói PIP, chúng ta có thể chỉ cần cài đặt nó trong môi trường ảo này. Đầu tiên, hãy để tạo ra một thư mục hoạt động như môi trường ảo. Trong ví dụ này, chúng tôi có một thư mục có tên là Jupyter_noteBook, sẽ được sử dụng để tạo môi trường bằng PipENV. Chỉ cần chạy lệnh sau để bắt đầu thư mục này và thiết lập phiên bản Python thành 3.8. Tuy nhiên, chúng tôi có thể sử dụng bất kỳ phiên bản Python được hỗ trợ nào cho việc này. Sau đó chạy lệnh sau để cài đặt gói Jupyter thông qua PIP: Pipenv Cài đặt Jupyterlab Cuối cùng, chúng ta có thể chạy Jupyterlab bằng lệnh Run. Sau khi chạy JupyterLab, chúng tôi sẽ có thể truy cập cài đặt JupyterLab thông qua URL được cung cấp (https: // localhost: 8888). Bằng cách này, phương pháp PipENV cung cấp môi trường Jupyterlab bị cô lập để hoạt động mà không mâu thuẫn với:
Cài đặt thông qua bộ công cụ khoa học dữ liệu AnacondaAnaconda là một phân phối nguồn mở của các ngôn ngữ lập trình Python và R nhằm mục đích đơn giản hóa việc triển khai và quản lý gói. Nó đi kèm với của riêng nó:
Phiên bản cá nhân Anaconda cho phép bạn nhanh chóng thiết lập môi trường khoa học dữ liệu địa phương bằng cách cài đặt gói cài đặt Anaconda. Bây giờ, hãy để cài đặt Notebook Jupyter thông qua Anaconda. Đầu tiên, điều hướng trang web Anaconda và tải xuống gói cài đặt phiên bản cá nhân phù hợp cho môi trường hệ điều hành của bạn. Sau đó cài đặt phần mềm trong máy cục bộ bằng Trình cài đặt (gói .exe). Sau đó, hãy mở ứng dụng mới được cài đặt có tên Anaconda Navigator sau khi cài đặt hoàn tất. Đây là GUI được sử dụng để cài đặt các ứng dụng và gói cho môi trường Conda. Bạn sẽ nhận thấy rằng cả Jupyter Notebook và Jupyterlab đều có sẵn trong phần ứng dụng của Navigator Anaconda. Tiếp theo, chọn loại máy tính xách tay ưa thích của bạn và cài đặt nó. Sau đó, nhấp vào nút Khởi động trên mạng để bắt đầu Jupyter Notebook. Điều này sẽ mở một cửa sổ trình duyệt với máy tính xách tay được mở. Theo mặc định, Juptyper sẽ có quyền truy cập vào tất cả các tệp và thư mục trong vị trí khởi động. Đây là vị trí cài đặt cho Anaconda, trong khi đó, đó là vị trí thư mục của môi trường ảo cho pipenv. Tạo một cuốn sổVì chúng tôi đã hoàn thành quá trình cài đặt, giờ đây chúng tôi có thể chuyển sang tạo một cuốn sổ. Nhấp vào nút Notebook trên trang chủ của giao diện web JupyterLab hoặc điều hướng đến Tệp -> Mới -> Notebook để tạo một cuốn sổ mới.notebook button on the home page of the JupyterLab web interface or navigate to File -> New -> Notebook to create a new notebook. Điều này sẽ mở một cuốn sổ tay chưa có tiêu đề mới có tên là Untitle.Ipynb, nơi chúng tôi có thể bắt đầu mã hóa dự án của mình. Các thành phần của máy tính xách tay JupyterTrong phần này, chúng tôi sẽ bao gồm các thành phần chính của máy tính xách tay Jupyter rất cần thiết để tương tác với môi trường Jupyter. Tệp IPYNBTệp .ipynb là tiện ích mở rộng được sử dụng để xác định một sổ ghi chép duy nhất. Tệp này chứa tất cả dữ liệu của máy tính xách tay của bạn ở định dạng JSON. Hơn nữa, nó bao gồm tất cả các nội dung ô, tệp đính kèm hình ảnh dưới dạng các chuỗi được chuyển đổi và siêu dữ liệu liên quan đến máy tính xách tay. Hãy để tạo ra một cuốn sổ tay đơn giản có tên Test.Ipynb và thêm một câu lệnh in đơn giản như được hiển thị bên dưới. Bây giờ, nếu chúng tôi mở tệp test.ipynb dưới dạng tệp JSON, chúng tôi có thể thấy tất cả các thông tin liên quan đến máy tính xách tay được lưu trữ ở đó như thế nào. Kernel NotebookKernel hoạt động như bộ não của máy tính xách tay. Bất kỳ mã nào trong ô sẽ được thực thi trong kernel và đầu ra được trả lại cho máy tính xách tay. Kernel xem toàn bộ tài liệu (sổ ghi chép) như một thực thể duy nhất và duy trì trạng thái giữa các ô. Trong ví dụ sau, chúng tôi đã xác định một biến (data_x) trên một ô và truy cập cùng một biến trong một ô riêng biệt để tính toán bổ sung đơn giản. Nếu chúng ta cần xóa tất cả các biến, chúng ta chỉ cần khởi động lại kernel hoặc sử dụng các tùy chọn khác như khởi động lại và xóa tất cả các đầu ra, hoặc chạy tất cả các ô tùy thuộc vào kết quả yêu cầu. Hơn nữa, chúng tôi có tùy chọn ngắt để dừng kernel nếu nó bị kẹt do vấn đề tính toán. Kernel cũng ra lệnh cho ngôn ngữ lập trình được hỗ trợ trong sổ ghi chép từ Java, Scala, R, Lua, v.v. Một số hạt nhân như hạt nhân SOS mở rộng hỗ trợ cho nhiều ngôn ngữ trong một cuốn sổ duy nhất. Các tế bào trong một cuốn sổCác tế bào là các khối xây dựng của một cuốn sổ. Bất cứ điều gì chúng tôi làm trong một cuốn sổ tay, chúng tôi làm điều đó trong một khối ô cụ thể. Có hai loại ô trong một cuốn sổ:
Các loại tế bào: Các tế bào khi chạy: Có hai chế độ cho tất cả các loại ô được gọi là Chế độ chỉnh sửa và lệnh:
Chế độ chỉnh sửa ô: Chế độ lệnh ô: Bắt đầu với phân tích dữ liệuBây giờ chúng ta có thể cài đặt các máy tính xách tay Jupyter và hiểu các thành phần cốt lõi của nó, hãy để thực hiện một số phân tích và trực quan hóa dữ liệu bằng máy tính xách tay. Đầu tiên, chúng tôi sẽ tạo một cuốn sổ mới có tên là Race Race_Data. Chúng tôi sẽ sử dụng bộ dữ liệu Giải vô địch thế giới Công thức 1 (1950-2021) có sẵn từ Kaggle cho phân tích này. Mục tiêu của phân tích này là xác định trình điều khiển có số lượng chiến thắng nhiều nhất trong F1. Trước khi bắt đầu, hãy đảm bảo bạn đã cài đặt các thư viện cần thiết cho môi trường Python. Bạn có thể sử dụng lệnh Cài đặt Pip Pipenv để cài đặt PipenV và sử dụng Conda để cài đặt Anaconda. Bước 1Nhập dữ liệu từ bộ dữ liệu Kaggle (tệp .csv) vào các khung dữ liệu PANDAS. Nhập Numpy dưới dạng NP Nhập Pandas dưới dạng PD# Nhập dữ liệu Kết quả_dataframe = pd.read_csv ('g: \ data \ results.csv') . Bước 2Xác minh nhập bằng cách in một số khung dữ liệu. # In kết quả Khung dữ liệu Kết quả_DatAfRame.head ()# in trình điều khiển khung dữ liệu Trình điều khiển_dataFrame.head () Bước 3Tham gia tất cả các khung dữ liệu để tạo một khung dữ liệu chính duy nhất bao gồm tất cả các dữ liệu cần thiết. # Tham gia khung dữ liệu driver_result_dataframe = pd.merge (results_dataframe, driver_dataframe, on = triệt driverid) RACE_RESULT_DATAFRAME complete_race_data_dataframe.head() Bước 4Làm sạch khung dữ liệu. Chúng tôi sẽ xóa tất cả các cột không cần thiết khỏi khung dữ liệu. hoàn chỉnh_race_data_dataframe = hoàn chỉnh_race_data_dataframe.drop (cột = [url_x Bước 5Tính tổng số chiến thắng cho mỗi trình điều khiển. Trong khối mã dưới đây, chúng tôi:
# Filter & Tính kết quả TOTAL_WINS = hoàn chỉnh_race_data_dataframe [(hoàn chỉnh_race_data_dataframe ['vị trí'] == '1') ',' Quốc gia_x ']) Bước 6Tạo một biểu đồ thanh bằng bộ dữ liệu mới được truy xuất trong bước 5 sử dụng thư viện Plotly. Nhập Plotly.graph_objects khi đi từ Plotly.Offline Nhập IPLOT Nhập Plotly.io dưới dạng pio.Renderers.Default = Hồi iframe . , 'x': 0,5, 'xanchor': 'centre', 'yanchor': 'top'}, yaxis = dict = 'Trình điều khiển', TitleFont_Size = 16, Tickfont_Size = 14), Template = Hồi Plotly_dark,) IPLOT (Biểu đồ) Tạo biểu đồBắt đầu phân tích dữ liệu với JupyterJupyter Notebooks là nơi lý tưởng để bắt đầu trong lĩnh vực phân tích dữ liệu. Jupyter cung cấp một môi trường giàu tính năng, mạnh mẽ và thân thiện với người dùng bằng nhiều phương thức cài đặt. Người dùng có thể sử dụng Jupyter trong bất kỳ môi trường nào bất kể nền tảng. Đọc liên quan
Những bài đăng này là của riêng tôi và không nhất thiết phải đại diện cho vị trí, chiến lược hoặc ý kiến của BMC. Xem một lỗi hoặc có một gợi ý? Vui lòng cho chúng tôi biết bằng cách gửi email. Notebook Jupyter có tốt để phân tích dữ liệu không?Nó kết hợp mã với các văn bản ngôn ngữ tự nhiên. Lý do thứ hai là bản chất tương tác của máy tính xách tay Jupyter. Khả năng thử nghiệm dữ liệu và xem kết quả của mã cho mỗi lệnh được đánh máy làm cho nó lý tưởng cho các nhà khoa học và nhà nghiên cứu dữ liệu, trong đó trọng tâm là phân tích dữ liệu và không phát triển.
Làm thế nào để bạn chuẩn bị dữ liệu để phân tích trong Jupyter Notebook?Bước 1: Tạo báo cáo của bạn trong Google Analytics.Bất kỳ báo cáo tích hợp hoặc tùy chỉnh nào mà bạn có thể xuất dưới dạng CSV hoặc XLSX sẽ hoạt động..... Bước 2: Mở một sổ ghi chép Jupyter mới..... Bước 3: Nhập gói..... Bước 4: Mở tệp CSV hoặc Excel của bạn..... Bước 5: Hãy xem dữ liệu!.... Bước 6 (Tùy chọn): Thả hàng có chứa các giá trị bị thiếu .. Python có phù hợp để phân tích dữ liệu không?Python và R đều là các ngôn ngữ miễn phí, nguồn mở có thể chạy trên Windows, MacOS và Linux.Cả hai đều có thể xử lý bất kỳ nhiệm vụ phân tích dữ liệu nào và cả hai đều được coi là ngôn ngữ tương đối dễ dàng để học, đặc biệt là cho người mới bắt đầu.Both can handle just about any data analysis task, and both are considered relatively easy languages to learn, especially for beginners.
Làm thế nào để bạn trực quan hóa dữ liệu trong một máy tính xách tay Python Jupyter?Notebook Jupyter cung cấp khung trực quan hóa dữ liệu có tên QVIZ cho phép bạn trực quan hóa các khung dữ liệu với các tùy chọn biểu đồ được cải thiện và các sơ đồ Python trên trình điều khiển Spark ... Spark DataFrames .. Gấu trúc dữ liệu .. SQL (%% SQL) ma thuật .. |