Show
40 Amazing Data Analysis Projects with Python: solved and explained.From logging into your Facebook account to buying a new iPhone, it’s all backed up somewhere. We have so much data today that it’s used everywhere today, for example, to help a business understand a client’s needs or to help a dating app find the perfect fit for you. So when we analyze a large amount of data to find relationships between different characteristics, it is nothing more than data analysis. In this article, I will introduce you to some of the best data analysis projects with Python, that you can try as a beginner. Data Analysis Projects with Python
SummarySo these were some of the best data analysis projects with Python that you can try as a beginner. After working on these projects, if your next goal is to get your hands on data science and machine learning, you can find over 200+ projects here. Hope you liked this article on data analysis projects with Python. Please feel free to ask your valuable questions in the comments section below. Kết thúc để kết thúc các dự án Blog chứa 20 dự án Python cho khoa học dữ liệu cho người mới bắt đầu được cập nhật lần cuối: 26 tháng 9 năm 2022 Mục lục
Tại sao học Python cho khoa học dữ liệu?20 dự án Python hàng đầu cho khoa học dữ liệu
Bỏ qua mô hình gram thực hiện Python cho các từ nhúngMã giải pháp có thể tải xuống | Video giải thích | Hô trợ ky thuật Bắt đầu dự án 20 dự án Python hàng đầu cho khoa học dữ liệuKhông có nhiều quảng cáo, đó là thời gian để bạn có được sự bẩn thỉu với các dự án Python cho khoa học dữ liệu và khám phá nhiều cách khác nhau để tiếp cận một vấn đề kinh doanh để hiểu biết về dữ liệu. 1) Hệ thống đề xuất âm nhạc trên bộ dữ liệu KKBoxÂm nhạc trong thời gian hôm nay là tất cả xung quanh chúng ta. Với hơn 70 triệu bài hát trên Spotify một mình vào năm 2021, nó an toàn khi nói âm nhạc có thể dễ dàng truy cập. Và có những dịch vụ khác cũng như Apple Music, Gaana, Saavn, KKBox. Trong một ngành công nghiệp đã có rất nhiều nội dung, làm thế nào để nội dung mới được khám phá? Thông qua hệ thống khuyến nghị mà mọi người tìm thấy các bài hát mới và có được thị hiếu âm nhạc mới. Dịch vụ phát âm nhạc lợi nhuận từ các thuật toán khuyến nghị là tốt. Nó giúp họ phát triển khán giả của họ và tăng sự tham gia trên nền tảng của họ. KKBox là một trong những nền tảng dịch vụ phát trực tuyến lớn nhất châu Á. Ace cuộc phỏng vấn việc làm tiếp theo của bạn với các cuộc phỏng vấn giả từ các chuyên gia để cải thiện kỹ năng của bạn và tăng cường sự tự tin! Mô tả dữ liệu & NBSP;Bộ dữ liệu chứa siêu dữ liệu cho người dùng và bài hát. Siêu dữ liệu bao gồm dữ liệu dành riêng cho người dùng và cụ thể của bài hát, như user_id, user_registration_date, song_id, song_genre, song_artistname, song_reledate, v.v. Thông tin này là duy nhất cho mỗi cặp người dùng bài hát. Có ba tệp trong bộ dữ liệu:
Target xác định nếu người dùng nghe cùng một bản nhạc trong khung một tháng. & NBSP;
Làm sạch dữ liệuBộ dữ liệu có thể có sự bất thường, ngoại lệ và các giá trị bị thiếu. Những trường hợp như vậy có thể can thiệp vào hiệu quả và độ chính xác của việc triển khai thuật toán. Chúng ta cần bình thường hóa dữ liệu và làm cho nó đồng nhất trong suốt. Trung bình, khoảng 20-40% giá trị trong bộ dữ liệu là ngoại lệ hoặc bị thiếu. Chúng tôi sử dụng các kỹ thuật sau để làm sạch dữ liệu 1. Phát hiện và điều trị ngoại lệ & NBSP; Các ngoại lệ là những giá trị vô lý mà don don nằm trong phạm vi cho phép cho một nhãn. Ví dụ, độ tuổi của người dùng dưới 0 trở lên có thể được coi là vô lý. Nó có thể nghiêm ngặt hơn đối với một số trường hợp, như để mua rượu - từ 18 đến 100. 2. Trao đổi các giá trị bị thiếu & nbsp; Cắt bỏ là thay thế các giá trị bị thiếu trong tập dữ liệu bằng một giá trị khác. Chúng tôi phân loại các cặp bài hát người dùng theo hai nhãn nổi bật, tức là lặp lại và không lặp lại. & NBSP;
Thư viện gấu trúc, sklearn, numpy Dự án này sẽ đánh giá bốn phương pháp mô hình sau đây để xây dựng một hệ thống đề xuất âm nhạc -
Hồi quy logistic là đơn giản nhất trong tất cả các thuật toán. Nó nằm trong Python như một mô hình tuyến tính trong Thư viện Sklearn. & NBSP;
Cây quyết định sử dụng cấu trúc cây để đưa ra kết luận hoặc kết quả. Ở mỗi cấp độ, có một sự lựa chọn để theo một trong hai chi nhánh. Khi tất cả các lần lặp, cây đưa ra kết quả. & NBSP;
Một khu rừng ngẫu nhiên là một tập hợp các cây quyết định. & NBSP; Mã nguồn với video hướng dẫn -& nbsp; Hệ thống đề xuất âm nhạc sử dụng KKBox 2) Chatbot xử lý ngôn ngữ tự nhiên với NLTK để phân loại văn bảnChatbots là các chương trình có thể trò chuyện với người dùng về các vấn đề phổ biến và trả lời với thông tin đầy đủ. Nhiều tổ chức sử dụng chúng làm điểm tương tác đầu tiên với khách hàng của họ. & NBSP; Kỹ thuật NLP được triển khai trong dự án NLP Python này Tokenization Chúng tôi chia các câu thành các từ cấu thành cơ bản của chúng được gọi là mã thông báo. Các dấu chấm câu được dán nhãn là mã thông báo riêng biệt. Mã thông báo giúp xử lý các khối lớn văn bản một cách hiệu quả bằng cách chia TET thành các phần nhỏ hơn. Ví dụ: câu -& nbsp; Các dự án khoa học dữ liệu rất thú vị. Khi nào tôi có thể là một nhà khoa học dữ liệu? Token = [‘dữ liệu,‘ khoa học, ‘các dự án,’ là, ’, vì vậy,’ vui nhộn, ‘. ‘,‘ Khi nào, ’có thể,’ i, ’là một ' nhà khoa học dữ liệu ', ' ? "] Ngưng từ Các từ không thêm vào ý nghĩa của câu là các từ dừng. Họ làm cho token-dataset dư thừa và không thêm vào hiệu quả của thuật toán. Ví dụ. Tại sao chúng tôi thậm chí còn làm tất cả những điều này có các điểm dừng sau & nbsp; TỪ CHỐNG - [‘Ngay cả, tất cả, tất cả đều] Tagging Tagging liên kết mã thông báo với một số ý nghĩa. Mã thông báo được gắn thẻ dựa trên ngữ pháp; Ví dụ: danh từ, tính từ, trạng từ có thể chấp nhận được cho dự án. & NBSP; Nhận dạng thực thể được đặt tên là một loại gắn thẻ khác trong đó tên của sự vật, địa điểm, đối tượng, con người là thẻ. & Nbsp; & nbsp; Lemmatisation Nó nhóm các biến thể khác nhau của một từ thành một từ cha mẹ đơn lẻ. Nó đảm bảo rằng các hình thức khác nhau của các từ chính xác được gắn thẻ dưới cùng một mã thông báo. Lemmatisation giảm dự phòng và làm cho văn bản đặt độc đáo. & Nbsp; & nbsp; & nbsp; Ví dụ. Bàn chân và bàn chân giống nhau trong bối cảnh, vì vậy chúng được nhóm dưới chân. Nhét đầy Xuất thân, giống như sự lemmatisation, thay thế các dạng khác nhau của một từ với dạng gốc của nó. Do đó, giảm sự nhầm lẫn và trùng lặp. Ví dụ, các từ được viết ở dạng quá khứ hoặc dạng số nhiều có thể được thay thế bằng thế giới gốc thay thế - thay thế Go có thể thay thế, đi, đi, biến mất. Mọi người có cách nói chuyện của họ. Có thể có nhiều câu khác nhau có thể đòi hỏi cùng một ý nghĩa. Về cơ bản, chúng tôi muốn thuật toán coi các câu này là như nhau, và do đó chúng tôi sử dụng xuất phát và lemmatisation. & Nbsp; Định dạng tập dữ liệu cuối cùng & NBSP; Dữ liệu trò chuyện cần tuân thủ một định dạng cụ thể trước khi cung cấp cho trình phân loại. Định dạng cho dự án này là - (‘văn bản đầu vào, có nghĩa là đằng sau văn bản - danh mục,‘ Phản hồi từ Chatbox,). Quá trình này được gọi là trích xuất tính năng.feature extraction. Thuật toán đã thực hiện & nbsp;
Trình phân loại cây quyết định hoạt động bằng cách tạo một cây trong đó mỗi nút là một tên tính năng và mỗi nhánh xác định giá trị tính năng. Lá của cây là nhãn phân loại. & NBSP;
Đây là một thuật toán đơn giản hơn đặt một mô hình chính xác cơ bản cơ bản. Phân loại Naive Bayers cung cấp độ chính xác tương đối ít hơn trong dự án cụ thể. Hãy đến gần hơn với giấc mơ trở thành một nhà khoa học dữ liệu với hơn 70 dự án ML từ đầu đến cuối đã được giải quyếtEnd-to-End ML Projects Điều chỉnh tham số Hyper
Các siêu âm tinh chỉnh đạt được dự đoán tốt nhất từ thuật toán. Với thuật toán được thiết lập và điều chỉnh chính xác, chúng tôi tiến hành dự đoán dữ liệu. & NBSP; Mã nguồn với video hướng dẫn - Chatbot xử lý ngôn ngữ tự nhiên với NLTK 3) Dự báo nhu cầu yêu cầu đi xe đạp OlaĐó là một thách thức đối với các yêu cầu đi xe dịch vụ vì sự không thể đoán trước và tự phát của họ. Vì lý do này, điều quan trọng là phải có một thuật toán dự đoán có thể dự báo số lượng cưỡi xấp xỉ trong tương lai gần. Dự án này nhằm dự đoán nhu cầu yêu cầu đi xe cho một khu vực cụ thể trong một khoảng thời gian nhất định. Khu vực được công nhận bởi các giá trị vĩ độ và kinh độ và các biện pháp thời gian trong giờ quân sự. Mô tả tập dữ liệuDữ liệu được cung cấp từ Kho lưu trữ OLA. Nó chứa các trường như user_id, request_latitude, request_longitutude, request_time, vị trí bán tải và vị trí thả. Chúng tôi đưa ra một số giả định để đơn giản hóa tập dữ liệu, như sau.
Phân cụm dữ liệu Định dạng dữ liệu gốc ở vĩ độ và kinh độ khá lớn và khác biệt đối với thuật toán hoạt động hiệu quả. Vì vậy, chúng tôi nhóm tất cả các cặp vĩ độ và kinh độ thuộc một khu vực cụ thể thành một cụm. Thuật toán phân cụm K-MEAN chịu trách nhiệm lựa chọn khu vực và phân cụm dữ liệu. Chúng tôi đặc biệt sử dụng thuật toán K-MEANS mini Batch để tạo thành các cụm dữ liệu. & NBSP; Sau khi thuật toán K-MEANS mini Batch chạy, chúng tôi có dữ liệu như sau. K-means algorithm to form clusters of data. After the mini-batch k-means algorithm runs, we have data as follows. (Vĩ độ, Kinh độ) -> Số cụm Đánh giá các phương pháp thuật toán khác nhau
Hồi quy tuyến tính thường không phù hợp với dữ liệu và là một bộ dữ liệu thích hợp cho thấy tính tuyến tính vốn có. Vì dữ liệu trong dự án này không tuân theo bất kỳ mối quan hệ tuyến tính nào, nên sẽ không lý tưởng khi sử dụng hồi quy tuyến tính. Hồi quy tuyến tính giúp đặt đường cơ sở cho các thuật toán tiếp theo. & NBSP;
Quá tải dữ liệu. Nó có xu hướng thực hiện tốt trên tập dữ liệu đào tạo so với tập dữ liệu thử nghiệm.
XGBOOST là một thuật toán tăng gradient được tối ưu hóa dựa trên các cây quyết định. Nó tập trung vào tốc độ và hiệu suất với sự song song và tối ưu hóa bộ đệm như các tính năng của nó. Mã nguồn với video hướng dẫn - & NBSP; Dự báo nhu cầu đi xe đạp OLA 4) Đánh giá sản phẩm thương mại điện tử - Xếp hạng theo cặp và phân tích tình cảmDataSet Dữ liệu cho dự án được định dạng trong người dùng, đánh giá, đánh giá hữu ích và không hữu ích. & NBSP; Xử lí dữ liệu
Khai thác tính năng
Phân loại theo cặp của mỗi đánh giá được thực hiện đối với mọi đánh giá khác để gắn nhãn chúng là hữu ích và không hữu ích. Với tổng số đánh giá N, sẽ có các phân loại N-bình phương. Việc phân loại sử dụng các mô hình sau.
Mã nguồn với video hướng dẫn - Đánh giá sản phẩm thương mại điện tử 5) Tóm tắt văn bản trừu tượng sử dụng mô hình bộ phận biến áp & NBSP;Tóm tắt là rất quan trọng trong nhiều lĩnh vực và tìm thấy nhiều trường hợp sử dụng trong cuộc sống hàng ngày. Chúng tôi luôn luôn tham gia vào bản tóm tắt trước cuốn sách, sản phẩm, khóa học hoặc tìm kiếm một trường đại học. Một số chuyên gia chuyên nghiệp viết tóm tắt nhưng không phải mỗi khi chúng tôi cần tóm tắt chuyên gia cho các sản phẩm của mình. & NBSP; Việc sử dụng các công cụ tóm tắt văn bản tạo ra các jist chất lượng tốt một cách tự động. Nó cũng mất ít thời gian hơn. Sau đây là hai cách để tóm tắt các văn bản:
BART hoặc Biến đổi Bi-Directional Transformer là một bộ điều chỉnh tự động khử trùng làm hỏng văn bản đào tạo và thêm tiếng ồn để đào tạo mô hình. Sau đó, nó học mô hình để xây dựng văn bản gốc từ chuỗi nhúng nhiễu. & NBSP; is a denoising autoencoder that corrupts the training text and adds noise for training the model. It then learns the model to construct the original text from the noise-embedded sequence. Bộ dữ liệu - Dọn dẹp và định dạng Bộ dữ liệu là bộ sưu tập 40.000 bản tóm tắt các bài báo và các bài báo gốc tương ứng. Thư viện- Pandas, Pytorch, Sklearn, Transformers & NBSP;Pandas, PyTorch, sklearn, transformers Implementation BART là một bộ điều chỉnh tự động khử nhiễu, đào tạo trình tự cho các mô hình trình tự. Nó sử dụng các cách tiếp cận nhiễu khác nhau như xáo trộn ngẫu nhiên thứ tự các câu trong văn bản hoặc thay thế một phần câu bằng các mã thông báo cụ thể. Mã nguồn với video hướng dẫn - Tóm tắt văn bản trừu tượng 6) Xây dựng hệ thống đề xuất lọc hợp tácKhuyến nghị các sản phẩm phù hợp cho khách hàng có thể là công cụ cho các công ty bán hàng và tham gia. Khuyến nghị làm việc với xếp hạng của sản phẩm và loại sản phẩm mà khách hàng đã mua. & NBSP; Lọc hợp tác sử dụng khoảng cách khoảng cách sử dụng các hàng xóm gần nhất và khoảng cách cosin. Các yếu tố chính như tương tác của khách hàng và phản hồi là rất cần thiết trong bộ lọc hợp tác. & NBSP; Tương tự cosine - Số liệu khoảng cách Sự tương đồng về cosine phụ thuộc vào việc tìm nhóm người dùng tương tự như người dùng cần đề xuất. Sự giống nhau giữa hai người dùng là khoảng cách giữa chúng trong ma trận xếp hạng. Hai người dùng càng gần thì càng có nhiều khả năng họ sẽ thích cùng một bộ phim. Mô tả dữ liệu và xử lý trước
Mã hóa nhãn chuyển đổi ID sản phẩm thành các giá trị số. Do đó, làm cho nó có thể vẽ các sản phẩm một cách toán học. Xếp hạng chuẩn hóa được trừ trung bình từ xếp hạng thực tế.
Các sản phẩm có xếp hạng thấp hơn bị giảm, vì vậy dữ liệu còn lại mạnh mẽ và có thể nhanh hơn. Nhóm xếp hạng càng lớn, mô hình càng tốt có thể đào tạo.
Nó có một ma trận với người dùng trong các cột và sản phẩm trong các hàng, trong đó giao lộ xác định xếp hạng do người dùng đưa ra cho sản phẩm. Thiếu giá trị trong ma trận được thay thế bằng 0. Thư viện - Numpy, Nhà điều hành, Sklearn, & NBSP;Numpy, operator, sklearn, Sự tương đồng về cosine giúp tìm kiếm người dùng tương tự K-TOP. Sau khi nhận ra k người dùng tương tự, chúng tôi tổng hợp các bộ phim được mỗi người dùng yêu thích thành một nhóm. Chúng tôi có thể bắt đầu giới thiệu những bộ phim đó từ nhóm này cho người dùng đã xem chúng. Một điểm quan trọng cần lưu ý là tạo ra các ma trận tương tự bằng cách sử dụng ma trận người dùng.similarity matrices using the user-item matrices. Mã nguồn với video hướng dẫn - Xây dựng hệ thống đề xuất lọc hợp tác 7) Tiếp tục phân tích cú pháp trong học máy với Python OCR và SpacyCác nhà tuyển dụng và các công ty nhận được hàng ngàn hồ sơ mỗi tháng trong hộp thư đến của họ từ những người xin việc. Đó là khá khó khăn và đánh thuế để sàng lọc nhiều ứng dụng công việc này cho một người. Quá trình sớm trở nên và đơn điệu và tê liệt. & Nbsp; Sơ yếu lý lịch phân tích cú pháp giúp đối chiếu thông tin quan trọng trong sơ yếu lý lịch thành các loại/nhãn Hồng y. Các nhãn này là những điểm quan trọng tạo nên ý chính của sơ yếu lý lịch. Các nhãn này có thể là tên, chỉ định, trường học, đại học, kinh nghiệm làm việc, vv & nbsp; Một trình phân tích cú pháp tiếp tục chuyển đổi các quá trình này tiếp tục thành một định dạng chỉ chứa thông tin quan trọng. Do đó, làm cho nhà tuyển dụng hoạt động dễ quản lý hơn và ít mệt mỏi hơn. & NBSP; Mô tả tập dữ liệu Định dạng tập dữ liệu nằm trong JSON AS (Nhãn, Thẻ bắt đầu thực thể, Thẻ End End, Văn bản thực tế) Nhãn, như đã thảo luận trước đó, là các danh mục trong sơ yếu lý lịch tạo thành mấu chốt. Giống như, tên, chỉ định, thành phố, kinh nghiệm, kỹ năng, vv Bộ dữ liệu cần phải trải qua quá trình xử lý trước khi mô hình hóa. Xử lý đảm bảo dữ liệu được định dạng theo cách chính xác để thực hiện trong Spacy NER. Nhận dạng thực thể tự nhiên Spacy là một khuôn khổ được viết bằng Python tương quan văn bản và ngữ nghĩa của nó. Đây là một thuật toán xử lý ngôn ngữ tự nhiên tiên tiến sử dụng kỹ thuật phân tích vị trí tổng quát. Kỹ thuật này hoạt động bằng cách sử dụng từ ngữ rút ra mối quan hệ giữa ngữ nghĩa và cú pháp của một từ. is a framework written in python that correlates text and its semantics. It is an advanced natural language processing algorithm that uses the generative positional parsing technique. The technique works by word-embedding that pulls out the relation between semantics and syntax of a word. Ví dụ, kinh nghiệm của tôi ở Cambridge không dễ chịu. Ner sẽ nhận ra rằng Cambridge có nghĩa là một trường đại học hoặc trường học sau khi trải qua hàng trăm hồ sơ tiếp tục với cùng một nội dung hoặc ý nghĩa. & NBSP; Nhận dạng ký tự quang đọc và chuyển đổi các văn bản từ hình ảnh. Nhận dạng ký tự quang học đọc sơ yếu lý lịch và chuyển đổi chúng thành PDF hoặc văn bản làm đầu vào cho mô hình. & NBSP; reads and converts texts from images. Optical character recognition reads the resumes and converts them into pdf or text as inputs to the model. Mã nguồn với các video hướng dẫn - Tiếp tục phân tích cú pháp với máy học 8) Hệ thống nhận dạng khuôn mặt trong Python sử dụng FacenetNhận dạng khuôn mặt xác định người hoặc một đối tượng được cho một hình ảnh hoặc một video. Nó thuộc thể loại tầm nhìn máy tính của trí tuệ nhân tạo. Nhiều điện thoại di động ngày nay đi kèm với tính năng mở khóa nhận dạng khuôn mặt. Việc sử dụng của nó được phổ biến rộng rãi trong an ninh và giám sát. Nhận dạng khuôn mặt cũng tìm thấy việc sử dụng trong việc gắn thẻ mọi người trên ảnh của họ và nhận ra các loài thực vật hoặc các vật thể tối nghĩa. Lợi ích của nó là đa ngành. & NBSP; Mô tả tập dữ liệu Bộ dữ liệu chứa các khuôn mặt của những người được trích xuất từ video hoặc kho lưu trữ camera sở hữu. & NBSP; Khuôn mặt thu được theo cách này có thể thay đổi về kích thước và chất lượng. Vì vậy, tất cả các hình ảnh được xử lý để phù hợp với tỷ lệ kích thước cụ thể và có chất lượng đồng đều. & NBSP; & nbsp; Một khi chúng tôi đã sẵn sàng bộ dữ liệu hình ảnh được chuẩn hóa, chúng tôi có thể bắt đầu với việc thực hiện mô hình nhận dạng khuôn mặt.
Mã nguồn với video hướng dẫn- Hệ thống nhận dạng khuôn mặt là Python sử dụng Facenet 9) Dự án khuyến nghị khách sạn ở PythonChọn điểm đến kỳ nghỉ là khó khăn và chọn một khách sạn là một rắc rối lớn hơn. Với rất nhiều tour du lịch và các nhà điều hành khách sạn qua internet, nó có thể trở nên quá sức. Khuyến nghị của khách sạn đi vào hình ảnh cung cấp các khuyến nghị của khách sạn cá nhân dựa trên sự lựa chọn và nhu cầu của người dùng. Mô tả tập dữ liệu Dữ liệu cho dự án khoa học dữ liệu này bao gồm một lịch sử tìm kiếm và đặt phòng người dùng, chi tiết cụm khách sạn, chi tiết khách sạn và chi tiết người dùng. & NBSP;
Hệ thống đề xuất khách sạn Expedia Bộ dữ liệu dự án Python. & NBSP; Vì các điểm cuối là riêng biệt, chúng tôi sử dụng các thuật toán phân loại để dự đoán các cụm khách sạn cho một người dùng nhất định. Trong dự án này, bạn có thể triển khai nhiều thuật toán phân loại để tìm một thuật toán tốt nhất phù hợp cho bộ dữ liệu. & NBSP;
Mã nguồn với video hướng dẫn - Dự án khuyến nghị khách sạn ở Python 10) Nhận dạng chữ số viết tay bằng CNN cho bộ dữ liệu MNISTDự án này nhằm xác định chính xác các chữ số viết tay và có thể lưu trữ chúng bằng kỹ thuật số ở một nơi. Trước sự ra đời của máy tính, không quá 25 năm trước, các tổ chức đã dựa vào giấy để lưu trữ các sự kiện và chi tiết. Dữ liệu được lưu trữ trong các tài liệu giấy này bây giờ, ngay cả khi chúng tan rã chậm. & NBSP; Điều quan trọng là lưu trữ các bản ghi cũ này trong một bản sao kỹ thuật số để tham khảo chúng trong tương lai nếu có nhu cầu. Phân bổ nguồn nhân lực cho một nhiệm vụ như vậy có vẻ dư thừa khi nó có thể được tự động hóa và tăng gấp đôi thông qua khoa học dữ liệu và trí tuệ nhân tạo. & NBSP; Bộ dữ liệu MNSIT hoặc Viện dữ liệu công nghệ và công nghệ được sửa đổi là khá phổ biến đối với các mô hình nhận dạng chữ số viết tay. Nó lưu trữ hơn 60.000 hình ảnh của các chữ số viết tay, với mỗi hình ảnh có kích thước 28x28 pixel. Xử lý dữ liệu & NBSP;
Định hình dữ liệu đề cập đến việc thay đổi vectơ 3 chiều thành vectơ 4 chiều vì mô hình lấy các vectơ 4D làm đầu vào.
Nó có nghĩa là ghi nhãn hình ảnh có số để chúng có thể được xử lý hiệu quả trong mô hình. Thao tác số tương đối dễ dàng hơn so với thao tác hình ảnh.
Hình ảnh được thu nhỏ xuống 0-1 từ phạm vi 0-255 pixel để có quy mô tiêu chuẩn có sẵn cho tất cả các hình ảnh. Thư viện/gói - Numpy, Gandas, Matplotlib, Tensorflow, Sci -kit Learn, Seaborn. & NBSP;NumPy, Pandas, Matplotlib, TensorFlow, sci-kit learn, seaborn. Mã nguồn với video hướng dẫn - Nhận dạng chữ số viết tay bằng CNN 11) Xây dựng một công cụ tìm hình ảnh tương tự trong Python với Keras và TensorflowDự án nhằm mục đích xây dựng một mô hình chụp ảnh làm đầu vào và cung cấp hình ảnh tương tự như hình ảnh gốc do người dùng đưa ra. Khuyến nghị các sản phẩm tương tự dựa trên hình ảnh sản phẩm được sử dụng trong các trang web bán lẻ trực tuyến như Amazon, Flipkart, v.v. & NBSP; Nó giúp người dùng đưa ra lựa chọn có học thức bằng cách hiển thị nhiều khuyến nghị hơn thông qua kỹ thuật. Mô tả dữ liệu & NBSP; Bộ dữ liệu có ba cột
K Thuật toán hàng xóm gần nhất giúp tìm hình ảnh tương tự như hình ảnh đầu vào. Tìm các vectơ k-gần nhất trong bản đồ cụm hoàn thành điều này cho một hình ảnh. Thư viện - Tìm kiếm đàn hồi, Keras, Tensorflow, Numpy, Gandas, Yêu cầu, Học Sci -KIT là các thư viện cần thiết cho dự án. & NBSP;Elastic search, Keras, Tensorflow, Numpy, Pandas, Requests, Sci-kit learn are the libraries needed for the project. Mã nguồn với video hướng dẫn - Xây dựng một công cụ tìm hình ảnh tương tự trong Python 12) Mô hình chủ đề bằng cách sử dụng cụm K-MeansMô hình chủ đề đang trích xuất các từ quan trọng từ một văn bản hoặc đoạn văn có thể mô tả một cách khéo léo toàn bộ đoạn văn. Nó giống như tóm tắt, nhưng mô hình chủ đề đặc biệt tập trung vào các câu ngắn hoặc các nhóm từ. Đó là một hương vị của việc khai thác văn bản để có được các mô hình định kỳ của các từ hình thành các điểm dữ liệu quan trọng cho chủ đề này. Các bước liên quan đến việc thực hiện dự án Python này cho khoa học dữ liệu -
Bước này loại bỏ tất cả các mẫu/ký hiệu không có lợi cho thuật toán trong tập dữ liệu. & NBSP; Ví dụ: các biểu tượng như & nbsp; ‘ @,’ Đến, ’’ a Ngay cả những từ có độ dài từ nhỏ hơn 3 cũng không cần thiết. Số cũng có thể được xóa khỏi các tweet.
Tokenisation trích xuất tất cả các từ riêng lẻ trong văn bản và đếm các trường hợp của chúng trong bộ dữ liệu. & Nbsp;
Thư viện & NBSP; - NLTK, WordCloud, Sklearn, Yêu cầuNltk, wordcloud, sklearn, requests Dự án sử dụng phân cụm K-MEAN không được giám sát để xác định các chủ đề hoặc ý tưởng chính trong các đánh giá/bộ dữ liệu kiểm tra. Cụm là điểm cuối của kho văn bản của chúng tôi. Ví dụ, các tweet được dán nhãn là vui, trung lập, buồn bã, tức giận. Các danh mục này sẽ trở thành cụm bốn kết thúc. & NBSP;
Tám cụm có nghĩa là sẽ có tám cụm thuật toán sẽ xuất ra. Các ngữ nghĩa và ý nghĩa của các cụm sẽ phải được chúng tôi suy ra.
Hai trung tâm ngụ ý sẽ có 2 cụm. Số lượng trung tâm ít hơn có thể ảnh hưởng đến hiệu quả của thuật toán vì sẽ chỉ có hai chủ đề. & NBSP; Mã nguồn và video hướng dẫn - Mô hình chủ đề sử dụng cụm K -Means 13) Nhận dạng hoạt động của con người bằng cách sử dụng phân loại đa lớp trong PythonDự án công nhận hoạt động của con người như đạp xe, đi bộ, đặt, chạy bằng cách phân tích vị trí, con quay hồi chuyển và số liệu gia tốc. Nhận dạng hoạt động tìm thấy sử dụng trong các đồng hồ thông minh và điện thoại thông minh chạy các ứng dụng theo dõi thể dục. Dự án được giới hạn trong 6 hoạt động cụ thể: đi bộ, nằm, đi trên lầu, đi bộ xuống cầu thang, ngồi, đứng. Mô tả dữ liệu & NBSP; Dữ liệu là từ một thí nghiệm trên 30 người thực hiện các hoạt động khác nhau trong khi mặc điện thoại thông minh. Dữ liệu xử lý trước
Phân tích dữ liệu khám phá
Các trường cần thiết như độ lệch chuẩn, tối thiểu, tối đa và giá trị trung bình được vẽ theo từng biến dữ liệu trong tập dữ liệu. Một phân phối bình thường với một hình dạng chuông ngụ ý rằng biến dữ liệu được phân phối thường trên tập dữ liệu.
Phân tích BI biểu đồ hai tính năng khác nhau trên trục X và Y và biểu thị mối quan hệ của chúng. Một đường cong đồ họa giúp phân biệt các mẫu và sự phụ thuộc giữa các tính năng và biến. & NBSP;
Một phân tích đa biến trở nên khó khăn khi có nhiều biến liên quan, đôi khi thậm chí lên tới 500. Một lô với 500 biến chỉ có ý nghĩa. & NBSP; Các sơ đồ TSNE giúp đỡ khi có nhiều biến trong biểu đồ để trực quan hóa các hệ thống đa biến thành dữ liệu hai chiều. & NBSP;
Chuẩn hóa là quá trình để thu nhỏ các phạm vi biến lớn theo -1 và 1. Nó hoàn thành phép đo của từng biến theo một số liệu tiêu chuẩn. Sau khi chuẩn hóa, một đầu ra lý tưởng sẽ là khi giá trị trung bình bằng 0 và độ lệch chuẩn là một. Thư viện -Pythonpandas, Matplotlib, Numpy, Seaborn-PythonPandas, matplotlib, NumPy, seaborn Mã nguồn và video hướng dẫn - Nhận dạng hoạt động của con người trong Python 14) Mô hình chủ đề bằng LDA với bộ dữ liệu đuaMục tiêu của dự án là trích xuất chủ đề chi phối từ văn bản hoặc tài liệu. Mô hình chủ đề Tìm thấy sử dụng trong việc dán nhãn một lượng lớn dữ liệu phi cấu trúc và tổ chức các văn bản thành các chủ đề và nhãn. Nhóm các từ tương tự về mặt ngữ nghĩa và logic theo cùng một chủ đề. & Nbsp; & nbsp; Các bước tiền xử lý dữ liệu
Thư viện - Numpy, Matpltlib, Sci -kit Learn, NLTK, Pandas, Tsne, PvldavisNumpy, matpltlib, sci-kit learn, nltk, pandas, tsne, pvLDAvis Phân tích ngữ nghĩa tiềm ẩn, phân bổ Dirichlet tiềm ẩn và yếu tố ma trận không âm là một số thuật toán và kỹ thuật mà người ta có thể học được từ dự án khoa học dữ liệu Python này. Mã nguồn với bộ dữ liệu có hướng dẫn - Mô hình hóa chủ đề bằng LDA 15) Dự án dự đoán bán hàng cửa hàng Rossman & NBSP;Một cửa hàng bán hàng phụ thuộc vào ngày trong tháng, thời gian trong ngày, khuyến mãi, ưu đãi, thời vụ, v.v ... Thật khó để dự đoán doanh số bán hàng vào bất kỳ ngày nào nói chung. & NBSP; Dự đoán bán hàng cũng là bắt buộc đối với những hiểu biết của công ty và tìm nguồn cung ứng trước khi giữ cho các cổ phiếu không hết. Nó cũng giúp chúng tôi biết khi nào nên bắt đầu chạy các ưu đãi theo mùa hoặc ngày thông minh để thu hút nhiều người đến cửa hàng. & NBSP; Bộ dữ liệu & NBSP; Sự mô tả Bộ dữ liệu cho dự án được thu thập từ Rossman lưu trữ dữ liệu lịch sử từ trang Kaggle. Mã nguồn và video hướng dẫn - Dự án bán hàng dự đoán cửa hàng Rossman & NBSP; 16) Chuỗi thời gian sử dụng dự báo bộ nhớ ngắn hạn dàiLSTM hoặc mạng bộ nhớ dài hạn là một mạng thần kinh tái phát nhân tạo với một tế bào bộ nhớ trong mỗi nút. Một LSTM có các kết nối phản hồi trong các lớp ẩn của nó giúp nó khác với mạng lưới thần kinh chuyển tiếp thức ăn. Nó khắc phục vấn đề biến mất độ dốc. & Nbsp; Một số ví dụ phổ biến bao gồm phân tích tình cảm, phân tích video, nhận dạng giọng nói, v.v. Mô tả tập dữ liệu Bộ dữ liệu chứa số lượng hành khách hàng tháng đi lại thông qua một hãng hàng không cụ thể. Dữ liệu được định dạng là - tháng trong năm, & NBSP; số lượng hành khách. Mục tiêu của dự án là dự đoán số lượng hành khách trong tương lai trong một tháng nhất định bằng cách sử dụng dữ liệu trong quá khứ và bộ nhớ gần đây. & NBSP; Bình thường hóa dữ liệu Dữ liệu được chuẩn hóa bằng cách sử dụng hàm MinMaxScaler có trong gói tiền xử lý theo Sklearn. Sau khi hoạt động MinMaxScaler, chúng ta cần chuyển đổi bộ dữ liệu trong phạm vi -1 thành 1. & NBSP; Thư viện Gấu trúc, matplotlib, bộ dữ liệu, keras, toán học, sklearn Implementation LSTM là RNN khắc phục những hạn chế như phát nổ độ dốc và lỗi biến mất. Nó có thể giảm thiểu lỗi trong mỗi lần lặp và đi đến một dự đoán chính xác. Nó sử dụng hai lớp là bộ mã hóa và bộ giải mã. Lớp bộ mã hóa đọc chuỗi đầu vào và đầu ra một biểu diễn vectơ của chuỗi. Đầu ra của bộ mã hóa được đưa vào bộ giải mã giải thích nó thành một giá trị duy nhất cho mỗi điểm thời gian trong chuỗi thời gian. Mã nguồn và video hướng dẫn - chuỗi thời gian sử dụng dự báo bộ nhớ ngắn hạn dài 17) Dự án phân loại tin tức giả & NBSP;Tin tức giả mạo lên trong các nguồn cấp tin tức của chúng tôi và khuất phục sự thật. Tin tức giả là một người có chủ ý xuyên tạc dữ liệu và sự kiện. Với khả năng truy cập dễ dàng vào Internet, các phương tiện truyền thông và tin tức mới đã xuất hiện trên khắp đất nước. Và do đó, nó đã trở nên dễ dàng hơn để xuất bản và truyền bá tin tức không được kiểm soát. Điều quan trọng là phải kiềm chế các bài báo và bài viết tin tức như vậy. Mô tả tập dữ liệu Bộ dữ liệu chứa số lượng hành khách hàng tháng đi lại thông qua một hãng hàng không cụ thể. Dữ liệu được định dạng là - tháng trong năm, & NBSP; số lượng hành khách. Mục tiêu của dự án là dự đoán số lượng hành khách trong tương lai trong một tháng nhất định bằng cách sử dụng dữ liệu trong quá khứ và bộ nhớ gần đây. & NBSP; Bình thường hóa dữ liệu Dữ liệu được chuẩn hóa bằng cách sử dụng hàm MinMaxScaler có trong gói tiền xử lý theo Sklearn. Sau khi hoạt động MinMaxScaler, chúng ta cần chuyển đổi bộ dữ liệu trong phạm vi -1 thành 1. & NBSP;
Mã nguồn và video hướng dẫn - chuỗi thời gian sử dụng dự báo bộ nhớ ngắn hạn dài
Làm sạch dữ liệu Xóa các hồ sơ bị thiếu & nbsp;Sci-kit, TensorFlow, Keras, glove, flask, NLTK, pandas, NumPy Hợp nhất tất cả văn bản & nbsp;Xóa các ký tự đặc biệt khỏi văn bản Mô tả tập dữ liệu Bộ dữ liệu bao gồm tên sản phẩm, giá sản phẩm, ngày lễ khu vực, kết hợp sản phẩm với các sản phẩm khác, v.v.
Tập hợp là ý tưởng tạo một tập hợp các tính năng sẽ xác định một cách khéo léo mô hình. Nó không bao gồm tất cả các tính năng bổ sung và không cần thiết không đóng góp cho độ chính xác của mô hình.
Thư viện Numpy, gấu trúc, matplotlib, seeborn, sklearn, scipy.sparse, lightgbm Thực hiện
Mã nguồn với video hướng dẫn - Tối ưu hóa giá bán lẻ dựa trên độ co giãn của nhu cầu 19) Dự đoán của khách hàng cho tổ chứcTỷ lệ khu vực là tỷ lệ phần trăm hàng năm biểu thị cho khách hàng về tỷ lệ không đăng ký từ dịch vụ hoặc tỷ lệ nhân viên rời bỏ công việc của họ. Một công ty cần biết khách hàng nào sẽ rời bỏ họ để định tuyến quảng cáo và nỗ lực tham gia của họ với những khách hàng này một cách thích hợp. Mô tả tập dữ liệu Bộ dữ liệu chứa hồ sơ ngân hàng được thu thập trong một khoảng thời gian. Sau đây là các chi tiết hữu ích cho dự án: & nbsp;
Chuyển đổi dữ liệu & NBSP; Điều trị giá trị ngoài và thiếu
Encoding Mã hóa là quá trình chuyển đổi các giá trị đặt dữ liệu thành các giá trị phân loại. & NBSP;
Lựa chọn tính năng Không phải mọi tính năng là rất quan trọng để phân tích dữ liệu và phù hợp với mô hình. Một số tính năng không hiển thị bất kỳ đường cong phân phối vì randoms. Điều quan trọng là chỉ chọn những tính năng giúp phù hợp mô hình. & NBSP;
Libraries Numpy, Sklearn, Keras, Gandas, Joblib Mã nguồn với video hướng dẫn - Churn khách hàng cho tổ chức 20) Dự án phát hiện gian lận thẻ tín dụng là vấn đề phân loạiCác công ty thẻ tín dụng sẽ có thể nhận ra các giao dịch gian lận xảy ra trên hệ thống của họ để họ có thể tính phí khách hàng một cách chính xác và chính xác. Các công ty cần có một mô hình để hiểu các giao dịch nào là chính hãng và những giao dịch nào có khả năng giả mạo. Vấn đề trở nên phức tạp vì bộ dữ liệu bị mất cân bằng, có nghĩa là có rất ít giao dịch giả mạo trong số các giao dịch chính hãng. Mô tả tập dữ liệu Bộ dữ liệu chứa các giao dịch được thực hiện bởi khách hàng cho một khối thời gian cụ thể. Bộ thedata giữ ba trường - thời gian, số lượng và giá trị đầu vào số. Giá trị đầu vào số là đầu ra của chuyển đổi phân tích thành phần chính trên bộ tính năng.data set holds three fields - time, amount and numerical input values. Numerical input values are the output of Principal Component Analysis transformation on the feature set. So sánh, thời gian và số tiền là thời gian giao dịch và số lượng giao dịch, tương ứng. Chuyển đổi PCA được áp dụng để ẩn thông tin và tính năng của khách hàng để duy trì tính bảo mật. & NBSP; Thư viện Numpy, gấu trúc, matplotlib, seeborn, sklearn, scipy.sparse, lightgbm Thực hiện Các sơ đồ hồi quy tuyến tính các biến trên biểu đồ tuyến tính để mô hình hóa bộ dữ liệu được chuyển đổi/chuẩn hóa. & NBSP;is the ratio of the actual number of accurate predictions to the total number of valid values. LightGBM sử dụng thuật toán dựa trên cây cho khung tăng gradient. is the ratio of the actual true values in the dataset to the total number of true predictions given by the model.
Trong số tất cả các thuật toán, hồi quy logistic và người hàng xóm gần nhất là chính xác nhất. & NBSP; Mã nguồn với các video hướng dẫn - & NBSP; Phát hiện gian lận thẻ tín dụng bằng cách sử dụng phân loại & nbsp; Bắt đầu với Python cho khoa học dữ liệuTóm lại, có rất nhiều thuật toán trong khoa học dữ liệu rất hữu ích trong việc giải quyết nhiều vấn đề. Điều quan trọng là phải học các loại thuật toán và có một bí quyết cơ bản về việc triển khai của chúng. Python rất dễ tận dụng trong việc hoàn thành nhiệm vụ tương tự này. Ngoài ra, các tài nguyên và hướng dẫn Python rất phong phú trên Internet và cộng đồng các nhà phát triển rất hữu ích. Nhưng đừng quên rằng Python là một trong số nhiều ngôn ngữ tốt. & NBSP; Có những con cá đáng yêu khác trên biển ngoài con trăn già thân thiện :) Câu hỏi thường gặp về các dự án khoa học dữ liệu & NBSP;Mỗi dự án khoa học dữ liệu tuân theo cùng một bản thiết kế mà chúng tôi thêm các nhiệm vụ dành riêng cho dự án. Một số bước là phổ biến cho nhiều dự án khoa học dữ liệu. Các tác vụ này chuẩn bị và phân tích bộ dữ liệu để mô hình hóa. & NBSP; Dưới đây là danh sách các câu hỏi thường gặp về các dự án khoa học dữ liệu ở Python. Cách bắt đầu một dự án khoa học dữ liệu ở PythonĐể bắt đầu một dự án khoa học dữ liệu, người ta cần chọn một chủ đề mà người ta thấy hấp dẫn và thú vị. Danh sách được đề cập ở trên là một điểm khởi đầu tốt. & NBSP; Sau khi ý tưởng dự án đến thu thập dữ liệu và chuẩn hóa dữ liệu. Kaggle quản lý các bộ dữ liệu cho nhiều vấn đề khoa học dữ liệu và thậm chí một tìm kiếm đơn giản của Google cũng có thể mang lại bộ dữ liệu cho vấn đề. & NBSP; Khi bộ dữ liệu đã sẵn sàng, chúng ta cần thực hiện phân tích dữ liệu khám phá để tìm các thành kiến và mẫu trong tập dữ liệu. Nhận ra các xu hướng vốn có trong tập dữ liệu có thể tiết lộ các sự kiện và sắc thái thiết yếu có thể hữu ích trong nghiên cứu. & NBSP; Tiếp theo, chúng ta có thể tiến hành phù hợp với mô hình bằng cách thử các thuật toán khác nhau để đạt được & nbsp; Độ chính xác tối đa. & NBSP; Dưới đây là nhiều dự án khoa học dữ liệu được giải quyết - Các dự án khoa học dữ liệu đã giải quyết. & NBSP; Làm sạch dữ liệu trong một dự án khoa học dữ liệu là gì?Dữ liệu làm sạch đang làm sạch bộ dữ liệu bằng cách xóa các giá trị null, ngoại lệ và điểm dữ liệu dự phòng. & NBSP; Điều gì có nghĩa là bình thường hóa phạm vi và buộc tội?Chuẩn hóa là quá trình chuyển đổi các giá trị dữ liệu số khác nhau thành một thang đo tiêu chuẩn. Một bộ dữ liệu thường chứa nhiều cột trong đó mỗi cột đại diện cho một tính năng. Các tính năng này có thể có phạm vi khác nhau và điều cần thiết là phải có thang đo tiêu chuẩn cho bộ dữ liệu hoàn chỉnh. & NBSP; Cắt bỏ là kỹ thuật thay thế các giá trị bị thiếu trong bộ dữ liệu. Giá trị thay thế có thể là giá trị trung bình hoặc trung bình của tất cả các giá trị. & NBSP; Dữ liệu đào tạo và thử nghiệm trong một dự án khoa học dữ liệu điển hình là gì?Bộ dữ liệu trong một dự án được chia thành dữ liệu đào tạo và thử nghiệm. Đào tạo mô hình sử dụng dữ liệu đào tạo, trong khi dữ liệu thử nghiệm được sử dụng để kiểm tra độ chính xác của mô hình. Nói chung, 80% bộ dữ liệu được dành riêng để đào tạo. & NBSP; Tại sao phân tích dữ liệu sơ bộ cần thiết trong một dự án khoa học dữ liệu? & NBSP;Phân tích dữ liệu giúp trực quan hóa bộ dữ liệu và kiểm tra các sai lệch hoặc phụ thuộc lẫn nhau trong dữ liệu. Khai thác tính năng có nghĩa là gì?Khai thác tính năng làm giảm kích thước của dữ liệu để nó có thể được xử lý hiệu quả trong các vectơ nhỏ. Quá trình kết hợp hoặc chọn nhiều biến thành các tính năng dễ quản lý. Mô hình phù hợp trong một dự án khoa học dữ liệu là gì? & NBSP;Phù hợp mô hình xác định mức độ tốt của một mô hình có thể phù hợp với dữ liệu đào tạo. Nó kiểm tra độ chính xác của dự đoán bằng mô hình so với các giá trị đầu ra thực tế. Tại sao HyperParameter điều chỉnh quan trọng trong một dự án khoa học dữ liệu?Điều chỉnh siêu phân tích tìm thấy tập hợp các giá trị tối ưu cho các tham số tạo ra mô hình học tập tốt nhất.
Một số dự án phân tích dữ liệu tốt là gì?Phân tích dữ liệu Ý tưởng dự án.. Rút trích nội dung trang web. .... Làm sạch dữ liệu. .... Phân tích dữ liệu khám phá (EDA) .... 10 Bộ dữ liệu công cộng miễn phí cho EDA. .... Phân tích tình cảm. .... Trực quan hóa dữ liệu .. Làm thế nào Python có thể được sử dụng để phân tích dữ liệu?Một trong những cách sử dụng phổ biến nhất cho Python là khả năng tạo và quản lý các cấu trúc dữ liệu một cách nhanh chóng - ví dụ, Pandas cung cấp rất nhiều công cụ để thao tác, phân tích và thậm chí đại diện cho cấu trúc dữ liệu và bộ dữ liệu phức tạp.create and manage data structures quickly — Pandas, for instance, offers a plethora of tools to manipulate, analyze, and even represent data structures and complex datasets.
Các dự án tốt cho Python là gì?Trong bài viết này, bạn sẽ tìm hiểu 42 ý tưởng & chủ đề dự án Python thú vị ... Máy phát điện điên cuồng .. Đoán số .. Trò chơi phiêu lưu dựa trên văn bản .. Xúc xắc Simulator .. Hangman.. Sổ liên lạc.. Thuật toán tìm kiếm nhị phân .. Ứng dụng thông báo máy tính để bàn .. Làm thế nào để bạn thực hiện phân tích dữ liệu cho một dự án?Dự án phân tích dữ liệu: Hướng dẫn từng bước.. Công nhận ngành công nghiệp .. Có được thông tin của bạn .. Kiểm tra và xóa dữ liệu không đúng .. Tăng cường bộ dữ liệu .. Để tạo ra hình ảnh sâu sắc .. Dự đoán là chìa khóa để thành công .. Tóm lại, lặp lại quá trình .. |