Hướng dẫn python for data analysis jupyter notebook - python để phân tích dữ liệu sổ ghi chép jupyter

Tầm quan trọng của phân tích dữ liệu đang phát triển đều đặn trên tất cả các ngành công nghiệp. Có các công cụ phân tích và trực quan hóa dữ liệu thích hợp đã trở nên quan trọng hơn bao giờ hết. Jupyter Notebooks là một trong những công cụ nguồn mở hàng đầu để phát triển và quản lý phân tích dữ liệu.

Nội dung chính Show

Notebook Jupyter là gì?
Cài đặt Notebook Jupyter (Jupyterlab)
Cài đặt qua PipenV
Cài đặt thông qua bộ công cụ khoa học dữ liệu Anaconda
Tạo một cuốn sổ
Các thành phần của máy tính xách tay Jupyter
Tệp IPYNB
Kernel Notebook
Các tế bào trong một cuốn sổ
Bắt đầu với phân tích dữ liệu
Tạo biểu đồ
Bắt đầu phân tích dữ liệu với Jupyter
Đọc liên quan
Notebook Jupyter có tốt để phân tích dữ liệu không?
Làm thế nào để bạn chuẩn bị dữ liệu để phân tích trong Jupyter Notebook?
Python có phù hợp để phân tích dữ liệu không?
Làm thế nào để bạn trực quan hóa dữ liệu trong một máy tính xách tay Python Jupyter?

Jupyter ban đầu bắt đầu cuộc sống của mình như là một nhánh của dự án Ipython vào năm 2014, và nó đã phát triển thành một nền tảng khoa học dữ liệu tương tác đầy đủ. Được quản lý bởi tổ chức Jupyter dự án phi lợi nhuận, Jupyter nhằm mục đích cung cấp nền tảng khoa học dữ liệu toàn diện nhất.

Trong bài viết này, chúng tôi sẽ chỉ cho bạn cách thiết lập và định cấu hình môi trường Jupyter địa phương. Bạn có thể sử dụng hướng dẫn này làm điểm khởi đầu hoàn hảo cho công việc phân tích dữ liệu bắt đầu.

Notebook Jupyter là gì?

Jupyter Notebook là một ứng dụng web nguồn mở cung cấp môi trường tính toán tương tác. Nó tạo ra các tài liệu (máy tính xách tay) kết hợp cả đầu vào (mã) và xuất vào một tệp. Nó cung cấp một tài liệu duy nhất có chứa:

Trực quan hóa
Phương trình toán học
Mô hình thống kê
Văn bản tường thuật
Bất kỳ phương tiện truyền thông phong phú nào khác

Cách tiếp cận tài liệu duy nhất này cho phép người dùng phát triển, trực quan hóa kết quả và thêm thông tin, biểu đồ và công thức giúp hoạt động dễ hiểu hơn, có thể lặp lại và có thể chia sẻ.

Notebook Jupyter hỗ trợ hơn 40 ngôn ngữ lập trình, tập trung chính vào Python. Vì nó là một công cụ miễn phí và nguồn mở, bất cứ ai cũng có thể sử dụng nó một cách tự do cho các dự án khoa học dữ liệu của họ. Có hai biến thể của Notebook Jupyter:

Jupyter Classic Notebook, với tất cả các khả năng được đề cập ở trên., with all the capabilities mentioned above.
Jupyterlab, một giao diện máy tính xách tay thế hệ tiếp theo mới được thiết kế để mở rộng và mô-đun hơn nhiều, với sự hỗ trợ cho nhiều quy trình công việc từ khoa học dữ liệu, học máy và điện toán khoa học., a new next-generation notebook interface designed to be much more extensible and modular, with support for a wide variety of workflows from data science, machine learning, and scientific computing.

Hôm nay, Jupyterlab là máy tính xách tay mặc định cho bất kỳ dự án Jupyter nào.

(Bắt đầu với các công cụ Python này.)

Cài đặt Notebook Jupyter (Jupyterlab)

Có nhiều cách để cài đặt và sử dụng máy tính xách tay Jupyter, từ cài đặt thông qua Conda, Mamba, Pip, PipenV hoặc thậm chí là container Docker.

Trong phần này, chúng tôi thảo luận về hai phương pháp cài đặt máy tính xách tay Jupyter trong môi trường địa phương của bạn. .

Cài đặt qua PipenV

PIPENV cho phép người dùng tạo ra một môi trường ảo có thể tái tạo xác định với quản lý phụ thuộc thích hợp cho các dự án Python. Khi Jupyter đến như một gói PIP, chúng ta có thể chỉ cần cài đặt nó trong môi trường ảo này.

Đầu tiên, hãy để tạo ra một thư mục hoạt động như môi trường ảo. Trong ví dụ này, chúng tôi có một thư mục có tên là Jupyter_noteBook, sẽ được sử dụng để tạo môi trường bằng PipENV.

Chỉ cần chạy lệnh sau để bắt đầu thư mục này và thiết lập phiên bản Python thành 3.8. Tuy nhiên, chúng tôi có thể sử dụng bất kỳ phiên bản Python được hỗ trợ nào cho việc này.

Sau đó chạy lệnh sau để cài đặt gói Jupyter thông qua PIP:

Pipenv Cài đặt Jupyterlab

Cuối cùng, chúng ta có thể chạy Jupyterlab bằng lệnh Run.

Sau khi chạy JupyterLab, chúng tôi sẽ có thể truy cập cài đặt JupyterLab thông qua URL được cung cấp (https: // localhost: 8888).

Bằng cách này, phương pháp PipENV cung cấp môi trường Jupyterlab bị cô lập để hoạt động mà không mâu thuẫn với:

Bất kỳ dự án python nào khác
Cài đặt
Các gói cài đặt toàn cầu

Cài đặt thông qua bộ công cụ khoa học dữ liệu Anaconda

Anaconda là một phân phối nguồn mở của các ngôn ngữ lập trình Python và R nhằm mục đích đơn giản hóa việc triển khai và quản lý gói. Nó đi kèm với của riêng nó:

Hệ thống quản lý gói (Conda)
Khả năng môi trường ảo
Các gói phần mềm hướng đến các dự án khoa học dữ liệu

Phiên bản cá nhân Anaconda cho phép bạn nhanh chóng thiết lập môi trường khoa học dữ liệu địa phương bằng cách cài đặt gói cài đặt Anaconda.

Bây giờ, hãy để cài đặt Notebook Jupyter thông qua Anaconda. Đầu tiên, điều hướng trang web Anaconda và tải xuống gói cài đặt phiên bản cá nhân phù hợp cho môi trường hệ điều hành của bạn.

Sau đó cài đặt phần mềm trong máy cục bộ bằng Trình cài đặt (gói .exe).

Sau đó, hãy mở ứng dụng mới được cài đặt có tên Anaconda Navigator sau khi cài đặt hoàn tất. Đây là GUI được sử dụng để cài đặt các ứng dụng và gói cho môi trường Conda. Bạn sẽ nhận thấy rằng cả Jupyter Notebook và Jupyterlab đều có sẵn trong phần ứng dụng của Navigator Anaconda.

Tiếp theo, chọn loại máy tính xách tay ưa thích của bạn và cài đặt nó. Sau đó, nhấp vào nút Khởi động trên mạng để bắt đầu Jupyter Notebook. Điều này sẽ mở một cửa sổ trình duyệt với máy tính xách tay được mở.

Theo mặc định, Juptyper sẽ có quyền truy cập vào tất cả các tệp và thư mục trong vị trí khởi động. Đây là vị trí cài đặt cho Anaconda, trong khi đó, đó là vị trí thư mục của môi trường ảo cho pipenv.

Tạo một cuốn sổ

Vì chúng tôi đã hoàn thành quá trình cài đặt, giờ đây chúng tôi có thể chuyển sang tạo một cuốn sổ. Nhấp vào nút Notebook trên trang chủ của giao diện web JupyterLab hoặc điều hướng đến Tệp -> Mới -> Notebook để tạo một cuốn sổ mới.notebook button on the home page of the JupyterLab web interface or navigate to File -> New -> Notebook to create a new notebook.

Điều này sẽ mở một cuốn sổ tay chưa có tiêu đề mới có tên là Untitle.Ipynb, nơi chúng tôi có thể bắt đầu mã hóa dự án của mình.

Các thành phần của máy tính xách tay Jupyter

Trong phần này, chúng tôi sẽ bao gồm các thành phần chính của máy tính xách tay Jupyter rất cần thiết để tương tác với môi trường Jupyter.

Tệp IPYNB

Tệp .ipynb là tiện ích mở rộng được sử dụng để xác định một sổ ghi chép duy nhất. Tệp này chứa tất cả dữ liệu của máy tính xách tay của bạn ở định dạng JSON. Hơn nữa, nó bao gồm tất cả các nội dung ô, tệp đính kèm hình ảnh dưới dạng các chuỗi được chuyển đổi và siêu dữ liệu liên quan đến máy tính xách tay.

Hãy để tạo ra một cuốn sổ tay đơn giản có tên Test.Ipynb và thêm một câu lệnh in đơn giản như được hiển thị bên dưới.

Bây giờ, nếu chúng tôi mở tệp test.ipynb dưới dạng tệp JSON, chúng tôi có thể thấy tất cả các thông tin liên quan đến máy tính xách tay được lưu trữ ở đó như thế nào.

Kernel Notebook

Kernel hoạt động như bộ não của máy tính xách tay. Bất kỳ mã nào trong ô sẽ được thực thi trong kernel và đầu ra được trả lại cho máy tính xách tay. Kernel xem toàn bộ tài liệu (sổ ghi chép) như một thực thể duy nhất và duy trì trạng thái giữa các ô.

Trong ví dụ sau, chúng tôi đã xác định một biến (data_x) trên một ô và truy cập cùng một biến trong một ô riêng biệt để tính toán bổ sung đơn giản.

Nếu chúng ta cần xóa tất cả các biến, chúng ta chỉ cần khởi động lại kernel hoặc sử dụng các tùy chọn khác như khởi động lại và xóa tất cả các đầu ra, hoặc chạy tất cả các ô tùy thuộc vào kết quả yêu cầu. Hơn nữa, chúng tôi có tùy chọn ngắt để dừng kernel nếu nó bị kẹt do vấn đề tính toán.

Kernel cũng ra lệnh cho ngôn ngữ lập trình được hỗ trợ trong sổ ghi chép từ Java, Scala, R, Lua, v.v. Một số hạt nhân như hạt nhân SOS mở rộng hỗ trợ cho nhiều ngôn ngữ trong một cuốn sổ duy nhất.

Các tế bào trong một cuốn sổ

Các tế bào là các khối xây dựng của một cuốn sổ. Bất cứ điều gì chúng tôi làm trong một cuốn sổ tay, chúng tôi làm điều đó trong một khối ô cụ thể. Có hai loại ô trong một cuốn sổ:

Mã mã. Các ô này chứa mã sẽ được thực thi trong kernel. Khi máy tính xách tay được thực thi, đầu ra kết quả sẽ được hiển thị bên dưới ô mã (bên ngoài ô). These cells contain the code that will be executed in the kernel. When the notebook is executed, the resulting output will be shown below the code cell (outside the cell).
Tế bào đánh dấu. Những ô này chứa nội dung văn bản bằng cách sử dụng Markdown. Trong thời gian chạy, kết quả sẽ được tạo tại vị trí của ô Markdown. These cells contain the text content using Markdown. At the runtime, the result will be generated at the place of the markdown cell.

Các loại tế bào:

Các tế bào khi chạy:

Có hai chế độ cho tất cả các loại ô được gọi là Chế độ chỉnh sửa và lệnh:

Khi chúng tôi nhấp vào một ô và bắt đầu chỉnh sửa, nó sẽ thay đổi diện mạo của nó với đường viền màu xanh để chỉ ra chế độ chỉnh sửa.
Khi chúng ta di chuyển ra khỏi ô, nó sẽ thay đổi thành một hộp màu xám để chỉ ra chế độ lệnh.

Chế độ chỉnh sửa ô:

Chế độ lệnh ô:

Bắt đầu với phân tích dữ liệu

Bây giờ chúng ta có thể cài đặt các máy tính xách tay Jupyter và hiểu các thành phần cốt lõi của nó, hãy để thực hiện một số phân tích và trực quan hóa dữ liệu bằng máy tính xách tay.

Đầu tiên, chúng tôi sẽ tạo một cuốn sổ mới có tên là Race Race_Data. Chúng tôi sẽ sử dụng bộ dữ liệu Giải vô địch thế giới Công thức 1 (1950-2021) có sẵn từ Kaggle cho phân tích này.

Mục tiêu của phân tích này là xác định trình điều khiển có số lượng chiến thắng nhiều nhất trong F1. Trước khi bắt đầu, hãy đảm bảo bạn đã cài đặt các thư viện cần thiết cho môi trường Python. Bạn có thể sử dụng lệnh Cài đặt Pip Pipenv để cài đặt PipenV và sử dụng Conda để cài đặt Anaconda.

Bước 1

Nhập dữ liệu từ bộ dữ liệu Kaggle (tệp .csv) vào các khung dữ liệu PANDAS.

Nhập Numpy dưới dạng NP Nhập Pandas dưới dạng PD# Nhập dữ liệu Kết quả_dataframe = pd.read_csv ('g: \ data \ results.csv') .
import pandas as pd# Import Data
results_dataframe = pd.read_csv(‘G:\data\results.csv’)
circuits_dataframe = pd.read_csv(‘G:\data\circuits.csv’)
drivers_dataframe = pd.read_csv(‘G:\data\drivers.csv’)
races_dataframe = pd.read_csv(‘G:\data\races.csv’)
constructor_dataframe = pd.read_csv(‘G:\data\constructors.csv’)

Bước 2

Xác minh nhập bằng cách in một số khung dữ liệu.

# In kết quả Khung dữ liệu Kết quả_DatAfRame.head ()# in trình điều khiển khung dữ liệu Trình điều khiển_dataFrame.head ()
results_dataframe.head()# Prints Drivers Data Frame
drivers_dataframe.head()

Bước 3

Tham gia tất cả các khung dữ liệu để tạo một khung dữ liệu chính duy nhất bao gồm tất cả các dữ liệu cần thiết.

# Tham gia khung dữ liệu

driver_result_dataframe = pd.merge (results_dataframe, driver_dataframe, on = triệt driverid) RACE_RESULT_DATAFRAME
race_result_dataframe = pd.merge(driver_result_dataframe,races_dataframe,on=’raceId’)
complete_race_data_dataframe = pd.merge(race_result_dataframe,constructor_dataframe,on=’constructorId’)

complete_race_data_dataframe.head()

Bước 4

Làm sạch khung dữ liệu. Chúng tôi sẽ xóa tất cả các cột không cần thiết khỏi khung dữ liệu.

hoàn chỉnh_race_data_dataframe = hoàn chỉnh_race_data_dataframe.drop (cột = [url_x
(columns=[‘url_x’,’url_y’,’name_y’,’nationality_y’,’url’,’time_y’])
complete_race_data_dataframe.head()

Bước 5

Tính tổng số chiến thắng cho mỗi trình điều khiển. Trong khối mã dưới đây, chúng tôi:

Lọc ra dữ liệu cuộc đua chỉ chứa kết thúc vị trí đầu tiên và tạo một cột số nguyên mới có tên là Pace Pace Pocate_Mod.
Nhóm dữ liệu theo các cột Driverref và các cột quốc gia của National National_x với tổng của postion_mod.
Sắp xếp dữ liệu theo thứ tự giảm dần và truy xuất mười hàng đầu tiên.

# Filter & Tính kết quả TOTAL_WINS = hoàn chỉnh_race_data_dataframe [(hoàn chỉnh_race_data_dataframe ['vị trí'] == '1') ',' Quốc gia_x '])
total_wins = complete_race_data_dataframe[(complete_race_data_dataframe[‘position’]== ‘1’)] total_wins[‘position_mod’] = total_wins[‘position’].astype(int)
total_wins = total_wins.groupby([‘driverRef’,’nationality_x’])[‘position_mod’].sum().reset_index()
total_wins = total_wins.sort_values(by=[‘position_mod’], ascending=False)
total_wins = total_wins.head(10)

Bước 6

Tạo một biểu đồ thanh bằng bộ dữ liệu mới được truy xuất trong bước 5 sử dụng thư viện Plotly.

Nhập Plotly.graph_objects khi đi từ Plotly.Offline Nhập IPLOT Nhập Plotly.io dưới dạng pio.Renderers.Default = Hồi iframe . , 'x': 0,5, 'xanchor': 'centre', 'yanchor': 'top'}, yaxis = dict = 'Trình điều khiển', TitleFont_Size = 16, Tickfont_Size = 14), Template = Hồi Plotly_dark,) IPLOT (Biểu đồ)
from plotly.offline import iplot
import plotly.io as pio
pio.renderers.default = “iframe”# Create Bar Chart
chart = go.Figure(data=[go.Bar(
x= total_wins[‘driverRef’],
y= total_wins[‘position_mod’],
hovertext = total_wins[‘nationality_x’] )])chart.update_layout(title={
‘text’: “TOP 10 DRIVERS WITH MOST WINS IN F1”,
‘y’:0.9,
‘x’:0.5,
‘xanchor’: ‘center’,
‘yanchor’: ‘top’},
yaxis=dict(
title=’No of Wins’,
titlefont_size=16,
tickfont_size=14),
xaxis=dict(
title=’Driver’,
titlefont_size=16,
tickfont_size=14),
template = “plotly_dark”
)
iplot(chart)

Tạo biểu đồ

Bắt đầu phân tích dữ liệu với Jupyter

Jupyter Notebooks là nơi lý tưởng để bắt đầu trong lĩnh vực phân tích dữ liệu. Jupyter cung cấp một môi trường giàu tính năng, mạnh mẽ và thân thiện với người dùng bằng nhiều phương thức cài đặt. Người dùng có thể sử dụng Jupyter trong bất kỳ môi trường nào bất kể nền tảng.

Đọc liên quan

BMC Machine Learning & Big Data
Cho phép các nhà khoa học dữ liệu công dân
Chứng nhận khoa học dữ liệu: Giới thiệu
Kiến trúc dữ liệu giải thích: Các thành phần, tiêu chuẩn và kiến trúc thay đổi
Được giám sát, không giám sát và các phương pháp học máy khác
Đạo đức dữ liệu cho các công ty

Những bài đăng này là của riêng tôi và không nhất thiết phải đại diện cho vị trí, chiến lược hoặc ý kiến của BMC.

Xem một lỗi hoặc có một gợi ý? Vui lòng cho chúng tôi biết bằng cách gửi email.

Notebook Jupyter có tốt để phân tích dữ liệu không?

Nó kết hợp mã với các văn bản ngôn ngữ tự nhiên. Lý do thứ hai là bản chất tương tác của máy tính xách tay Jupyter. Khả năng thử nghiệm dữ liệu và xem kết quả của mã cho mỗi lệnh được đánh máy làm cho nó lý tưởng cho các nhà khoa học và nhà nghiên cứu dữ liệu, trong đó trọng tâm là phân tích dữ liệu và không phát triển.

Làm thế nào để bạn chuẩn bị dữ liệu để phân tích trong Jupyter Notebook?

Bước 1: Tạo báo cáo của bạn trong Google Analytics.Bất kỳ báo cáo tích hợp hoặc tùy chỉnh nào mà bạn có thể xuất dưới dạng CSV hoặc XLSX sẽ hoạt động.....

Bước 2: Mở một sổ ghi chép Jupyter mới.....

Bước 3: Nhập gói.....

Bước 4: Mở tệp CSV hoặc Excel của bạn.....

Bước 5: Hãy xem dữ liệu!....

Bước 6 (Tùy chọn): Thả hàng có chứa các giá trị bị thiếu ..

Python có phù hợp để phân tích dữ liệu không?

Python và R đều là các ngôn ngữ miễn phí, nguồn mở có thể chạy trên Windows, MacOS và Linux.Cả hai đều có thể xử lý bất kỳ nhiệm vụ phân tích dữ liệu nào và cả hai đều được coi là ngôn ngữ tương đối dễ dàng để học, đặc biệt là cho người mới bắt đầu.Both can handle just about any data analysis task, and both are considered relatively easy languages to learn, especially for beginners.

Làm thế nào để bạn trực quan hóa dữ liệu trong một máy tính xách tay Python Jupyter?

Notebook Jupyter cung cấp khung trực quan hóa dữ liệu có tên QVIZ cho phép bạn trực quan hóa các khung dữ liệu với các tùy chọn biểu đồ được cải thiện và các sơ đồ Python trên trình điều khiển Spark ...

Spark DataFrames ..

Gấu trúc dữ liệu ..

SQL (%% SQL) ma thuật ..