Nhập RData vào python

Là người mới bắt đầu, bạn có thể chỉ biết một cách duy nhất để tải dữ liệu (thường là ở định dạng CSV) đó là đọc nó bằng pandas. chức năng read_csv. Đây là một trong những chức năng trưởng thành và mạnh mẽ nhất, nhưng những cách khác cũng hữu ích rất nhiều và đôi khi chắc chắn sẽ có ích

Nội dung chính Show

nhập khẩu
Ưu và nhược điểm
Ưu và nhược điểm
Bạn có thể đọc tệp RDS bằng Python không?
Làm cách nào để nhập dữ liệu bằng gấu trúc?
Làm cách nào để tạo tập dữ liệu trong Python?

Những cách mà tôi sẽ thảo luận là

Chức năng thủ công
chức năng loadtxt
chức năng genfromtxt
chức năng read_csv
dưa chua

Bạn có thể tìm thấy tập dữ liệu mà chúng tôi sẽ sử dụng để tải dữ liệu tại đây. Nó được đặt tên là 100-Sales-Records

nhập khẩu

Chúng tôi sẽ sử dụng các gói Numpy, Pandas và Pickle nên hãy nhập chúng.

import numpy as np
import pandas as pd
import pickle

1. Chức năng thủ công

Đây là cái khó nhất, vì bạn phải thiết kế một chức năng tùy chỉnh, chức năng này có thể tải dữ liệu cho bạn. Bạn phải đối phó với các khái niệm lưu trữ thông thường của Python và sử dụng nó, bạn phải đọc một. tệp csv

Hãy làm điều đó trên tệp 100 Hồ sơ bán hàng

def load_csv(filepath):
    data =  []
    col = []
    checkcol = False
    with open(filepath) as f:
        for val in f.readlines():
            val = val.replace("\n","")
            val = val.split(',')
            if checkcol is False:
                col = val
                checkcol = True
            else:
                data.append(val)
    df = pd.DataFrame(data=data, columns=col)
    return df

Hừm, cái gì đây????? . Hãy phá vỡ nó từng bước để bạn biết điều gì đang xảy ra và bạn có thể áp dụng logic tương tự để đọc một. tệp csv của riêng bạn

Ở đây, tôi đã tạo một load_csv một hàm lấy đường dẫn của tệp bạn muốn đọc làm đối số

Tôi có một danh sách có tên là dữ liệu sẽ chứa dữ liệu tệp CSV của tôi và một danh sách khác col sẽ có tên cột của tôi. Bây giờ, sau khi kiểm tra csv theo cách thủ công, tôi biết rằng tên cột của mình nằm ở hàng đầu tiên, vì vậy trong lần lặp đầu tiên, tôi phải lưu trữ dữ liệu của hàng đầu tiên trong col và các hàng còn lại trong data

Để kiểm tra lần lặp đầu tiên, tôi đã sử dụng Biến Boolean có tên là checkcol là Sai và khi nó sai trong lần lặp đầu tiên, nó sẽ lưu dữ liệu của dòng đầu tiên trong col và sau đó nó đặt checkcol thành True, vì vậy chúng tôi sẽ

Hợp lý

Logic chính ở đây là tôi đã lặp lại trong tệp, sử dụng hàm readlines() trong Python. Hàm này trả về một danh sách chứa tất cả các dòng bên trong một tệp.

Khi đọc qua các dòng tiêu đề, nó phát hiện một dòng mới là \n ký tự, là ký tự kết thúc dòng, vì vậy để xóa nó, tôi đã sử dụng str. thay chức năng

Vì nó là một. csv, vì vậy tôi phải phân tách các nội dung dựa trên dấu phẩy vì vậy tôi sẽ tách chuỗi trên một , sử dụng chuỗi. tách ra(','). Đối với lần lặp đầu tiên, tôi sẽ lưu trữ hàng đầu tiên chứa tên cột trong danh sách được gọi là col. Sau đó, tôi sẽ nối tất cả dữ liệu của mình vào danh sách được gọi là dữ liệu

Để đọc dữ liệu đẹp hơn, tôi đã trả về nó dưới dạng định dạng khung dữ liệu vì việc đọc khung dữ liệu dễ dàng hơn so với một mảng có nhiều mảng hoặc danh sách của python

đầu ra

myData = load_csv('100 Sales Record.csv')
print(myData.head())

Dữ liệu từ Hàm tùy chỉnh.

Ưu và nhược điểm

Lợi ích quan trọng là bạn có toàn quyền linh hoạt và kiểm soát cấu trúc tệp, đồng thời bạn có thể đọc và lưu trữ ở bất kỳ định dạng nào, theo cách nào bạn muốn.

Bạn cũng có thể đọc các tệp không có cấu trúc chuẩn bằng logic của riêng mình

Hạn chế quan trọng của nó là nó rất phức tạp để ghi, đặc biệt là đối với các loại tệp tiêu chuẩn vì chúng có thể dễ dàng đọc được. Bạn phải mã hóa cứng logic yêu cầu thử và sai

Bạn chỉ nên sử dụng nó khi tệp không ở định dạng chuẩn hoặc bạn muốn linh hoạt và đọc tệp theo cách không có sẵn trong các thư viện

2. Nặng nề. hàm loadtxt

Đây là hàm tích hợp sẵn trong Numpy, một thư viện số nổi tiếng trong Python. Đây là một chức năng thực sự đơn giản để tải dữ liệu. Nó rất hữu ích để đọc dữ liệu có cùng kiểu dữ liệu.

Khi dữ liệu phức tạp hơn, khó đọc bằng chức năng này, nhưng khi tệp dễ dàng và đơn giản, chức năng này thực sự mạnh mẽ

Để lấy dữ liệu của một loại duy nhất, bạn có thể tải xuống tập dữ liệu giả này. Hãy chuyển sang viết mã

df = np.loadtxt('convertcsv.csv', delimeter = ',')

Ở đây, chúng tôi chỉ đơn giản sử dụng hàm loadtxt như được chuyển trong dấu phân cách là ',' vì đây là tệp CSV

Bây giờ, nếu chúng ta in df, chúng ta sẽ thấy dữ liệu của mình ở dạng mảng gọn gàng đẹp mắt sẵn sàng sử dụng

print(df[:5,:])

Chúng tôi chỉ in 5 hàng đầu tiên do kích thước dữ liệu lớn

Ưu và nhược điểm

Một khía cạnh quan trọng của việc sử dụng chức năng này là bạn có thể nhanh chóng tải dữ liệu từ một tệp vào các mảng có nhiều mảng.

Hạn chế của nó là bạn không thể có các loại dữ liệu khác nhau hoặc các hàng bị thiếu trong dữ liệu của mình

3. Nặng nề. genfromtxt()

Chúng tôi sẽ sử dụng tập dữ liệu là '100 Hồ sơ bán hàng. csv’ mà chúng tôi đã sử dụng trong ví dụ đầu tiên để chứng minh rằng chúng tôi có thể có nhiều loại dữ liệu trong đó.

Hãy chuyển sang viết mã

data = np.genfromtxt('100 Sales Records.csv', delimiter=',')

và để thấy rõ hơn, chúng ta chỉ có thể xem nó ở định dạng khung dữ liệu, tôi. e. ,

>>> pd.DataFrame(data)

Chờ đợi? . Làm thế nào để đối phó với nó?

Chỉ cần thêm một tham số dtype khác và đặt dtype thành Không có nghĩa là nó phải tự xử lý các kiểu dữ liệu của từng cột. Không chuyển đổi toàn bộ dữ liệu thành một dtype

data = np.genfromtxt('100 Sales Records.csv', delimiter=',', dtype=None)

Và sau đó cho đầu ra

________số 8

Khá tốt hơn cái đầu tiên, nhưng ở đây, tiêu đề Cột của chúng tôi là Hàng, để đặt chúng làm tiêu đề cột, chúng tôi phải thêm một tham số khác là tên và đặt thành True để nó lấy hàng đầu tiên làm Tiêu đề cột

i. e

data = np.genfromtxt('100 Sales Records.csv', delimiter=',', dtype=None, names = True)

và chúng ta có thể in nó dưới dạng

def load_csv(filepath):
    data =  []
    col = []
    checkcol = False
    with open(filepath) as f:
        for val in f.readlines():
            val = val.replace("\n","")
            val = val.split(',')
            if checkcol is False:
                col = val
                checkcol = True
            else:
                data.append(val)
    df = pd.DataFrame(data=data, columns=col)
    return df

Và ở đây chúng ta có thể thấy rằng Nó đã thêm thành công tên của các cột trong khung dữ liệu

Bây giờ, vấn đề cuối cùng là các cột có kiểu dữ liệu chuỗi không phải là chuỗi thực tế mà chúng ở định dạng byte. Bạn có thể thấy rằng trước mỗi chuỗi, chúng ta có b' vì vậy để bắt gặp chúng, chúng ta phải giải mã chúng ở định dạng utf-8

def load_csv(filepath):
    data =  []
    col = []
    checkcol = False
    with open(filepath) as f:
        for val in f.readlines():
            val = val.replace("\n","")
            val = val.split(',')
            if checkcol is False:
                col = val
                checkcol = True
            else:
                data.append(val)
    df = pd.DataFrame(data=data, columns=col)
    return df

Điều này sẽ trả về khung dữ liệu của chúng tôi ở dạng mong muốn

def load_csv(filepath):
    data =  []
    col = []
    checkcol = False
    with open(filepath) as f:
        for val in f.readlines():
            val = val.replace("\n","")
            val = val.split(',')
            if checkcol is False:
                col = val
                checkcol = True
            else:
                data.append(val)
    df = pd.DataFrame(data=data, columns=col)
    return df

4. gấu trúc. read_csv()

Pandas là thư viện thao tác dữ liệu rất phổ biến và thường được sử dụng. Một trong những hàm rất quan trọng và hoàn thiện là read_csv() có thể đọc bất kỳ. csv rất dễ dàng và giúp chúng tôi thao tác với tệp đó. Hãy làm điều đó trên tập dữ liệu 100-Sales-Record của chúng tôi.

Chức năng này rất phổ biến do dễ sử dụng. Bạn có thể so sánh nó với các mã trước đây của chúng tôi và bạn có thể kiểm tra nó

def load_csv(filepath):
    data =  []
    col = []
    checkcol = False
    with open(filepath) as f:
        for val in f.readlines():
            val = val.replace("\n","")
            val = val.split(',')
            if checkcol is False:
                col = val
                checkcol = True
            else:
                data.append(val)
    df = pd.DataFrame(data=data, columns=col)
    return df

Và đoán xem? . Điều này thực sự rất đơn giản và dễ sử dụng. gấu trúc. read_csv chắc chắn cung cấp nhiều thông số khác để điều chỉnh trong tập dữ liệu của chúng tôi, chẳng hạn như trong convertcsv của chúng tôi. csv, chúng tôi không có tên cột nên chúng tôi có thể đọc nó dưới dạng

def load_csv(filepath):
    data =  []
    col = []
    checkcol = False
    with open(filepath) as f:
        for val in f.readlines():
            val = val.replace("\n","")
            val = val.split(',')
            if checkcol is False:
                col = val
                checkcol = True
            else:
                data.append(val)
    df = pd.DataFrame(data=data, columns=col)
    return df

Và chúng ta có thể thấy rằng nó đã đọc tệp csv không có tiêu đề. Bạn có thể khám phá tất cả các thông số khác trong tài liệu chính thức

Bạn có thể đọc tệp RDS bằng Python không?

Gói python để đọc và ghi các tệp R RData và Rds vào/từ khung dữ liệu gấu trúc . Nó không cần cài đặt R hoặc các phụ thuộc bên ngoài khác. Nó có thể đọc chủ yếu các khung dữ liệu R và tibble. Cũng hỗ trợ vectơ, ma trận, mảng và bảng.