Hướng dẫn python data analysis sample projects - dự án mẫu phân tích dữ liệu python

Show

40 Amazing Data Analysis Projects with Python: solved and explained.

From logging into your Facebook account to buying a new iPhone, it’s all backed up somewhere. We have so much data today that it’s used everywhere today, for example, to help a business understand a client’s needs or to help a dating app find the perfect fit for you. So when we analyze a large amount of data to find relationships between different characteristics, it is nothing more than data analysis. In this article, I will introduce you to some of the best data analysis projects with Python, that you can try as a beginner.

Data Analysis Projects with Python

  1. Stock Market Analysis
  2. iPhone Sales Analysis
  3. Diamond Price Analysis
  4. Virat Kohli Performance Analysis
  5. Smartwatch Data Analysis
  6. Covid-19 Impacts Analysis
  7. Instagram Reach Analysis
  8. IPL 2022 Analysis
  9. Ukraine Vs Russia: Twitter Sentiment Analysis
  10. Waiter Tips Analysis and Prediction
  11. Flipkart Reviews Sentiment Analysis
  12. Time Series Analysis
  13. TikTok Reviews Sentiment Analysis
  14. Tinder Reviews Sentiment Analysis
  15. Google Search Analysis
  16. Uber Trips Analysis
  17. WhatsApp Chats Analysis
  18. Water Quality Analysis
  19. Squid Game Sentiment Analysis
  20. Twitter Sentiment Analysis
  21. Movie Rating Analysis for Beginners
  22. Worldwide Billionaires Analysis
  23. Unemployment Analysis
  24. WhatsApp Chats Sentiment Analysis
  25. Covid-19 Vaccine Analysis
  26. Financial Budget Analysis
  27. Best Streaming Service Analysis
  28. Data Science Project on Birth Rate Analysis
  29. Data Science Project on Time Series
  30. Data Science Project on Area and Population
  31. Amazon Product Reviews Sentiment Analysis
  32. Hotel Reviews Sentiment Analysis
  33. Google Play Store Sentiment Analysis
  34. Instagram Reach Analysis
  35. Amazon Alexa Reviews Sentiment Analysis
  36. Real-time Sentiment Analysis
  37. Customer Personality Analysis
  38. Netflix Data Analysis
  39. Covid-19 Vaccine Sentiment Analysis
  40. Cohort Analysis

Summary

So these were some of the best data analysis projects with Python that you can try as a beginner. After working on these projects, if your next goal is to get your hands on data science and machine learning, you can find over 200+ projects here. Hope you liked this article on data analysis projects with Python. Please feel free to ask your valuable questions in the comments section below.

Hướng dẫn python data analysis sample projects - dự án mẫu phân tích dữ liệu python
Kết thúc để kết thúc các dự án

Blog chứa 20 dự án Python cho khoa học dữ liệu cho người mới bắt đầu được cập nhật lần cuối: 26 tháng 9 năm 2022
Last Updated: 26 Sep 2022


Mục lục

  • Tại sao học Python cho khoa học dữ liệu?
  • 20 dự án Python hàng đầu cho khoa học dữ liệu
    • 1) Hệ thống đề xuất âm nhạc trên bộ dữ liệu KKBox
    • 2) Chatbot xử lý ngôn ngữ tự nhiên với NLTK để phân loại văn bản
    • 3) Dự báo nhu cầu yêu cầu đi xe đạp Ola
    • 4) Đánh giá sản phẩm thương mại điện tử - Xếp hạng theo cặp và phân tích tình cảm
    • 5) Tóm tắt văn bản trừu tượng sử dụng mô hình bộ phận biến áp & NBSP;
    • 6) Xây dựng hệ thống đề xuất lọc hợp tác
    • 7) Tiếp tục phân tích cú pháp trong học máy với Python OCR và Spacy
    • 8) Hệ thống nhận dạng khuôn mặt trong Python sử dụng Facenet
    • 9) Dự án khuyến nghị khách sạn ở Python
    • 10) Nhận dạng chữ số viết tay bằng CNN cho bộ dữ liệu MNIST
    • 11) Xây dựng một công cụ tìm hình ảnh tương tự trong Python với Keras và Tensorflow
    • 12) Mô hình chủ đề bằng cách sử dụng cụm K-Means
    • 13) Nhận dạng hoạt động của con người bằng cách sử dụng phân loại đa lớp trong Python
    • 14) Mô hình chủ đề bằng LDA với bộ dữ liệu đua
    • 15) Dự án dự đoán bán hàng cửa hàng Rossman & NBSP;
    • 16) Chuỗi thời gian sử dụng dự báo bộ nhớ ngắn hạn dài
    • 17) Dự án phân loại tin tức giả & NBSP;
    • 18) Tối ưu hóa giá bán lẻ dựa trên độ co giãn của nhu cầu.
    • 19) Dự đoán của khách hàng cho tổ chức
    • 20) Dự án phát hiện gian lận thẻ tín dụng là vấn đề phân loại
  • Bắt đầu với Python cho khoa học dữ liệu
  • Câu hỏi thường gặp về các dự án khoa học dữ liệu & NBSP;
    • Cách bắt đầu một dự án khoa học dữ liệu ở Python
    • Làm sạch dữ liệu trong một dự án khoa học dữ liệu là gì?
    • Điều gì có nghĩa là bình thường hóa phạm vi và buộc tội?
    • Dữ liệu đào tạo và thử nghiệm trong một dự án khoa học dữ liệu điển hình là gì?
    • Tại sao phân tích dữ liệu sơ bộ cần thiết trong một dự án khoa học dữ liệu? & NBSP;
    • Khai thác tính năng có nghĩa là gì?
    • Mô hình phù hợp trong một dự án khoa học dữ liệu là gì? & NBSP;
    • Tại sao HyperParameter điều chỉnh quan trọng trong một dự án khoa học dữ liệu?

Tại sao học Python cho khoa học dữ liệu?

20 dự án Python hàng đầu cho khoa học dữ liệu

Hướng dẫn python data analysis sample projects - dự án mẫu phân tích dữ liệu python

Bỏ qua mô hình gram thực hiện Python cho các từ nhúng

Mã giải pháp có thể tải xuống | Video giải thích | Hô trợ ky thuật

Bắt đầu dự án

20 dự án Python hàng đầu cho khoa học dữ liệu

Không có nhiều quảng cáo, đó là thời gian để bạn có được sự bẩn thỉu với các dự án Python cho khoa học dữ liệu và khám phá nhiều cách khác nhau để tiếp cận một vấn đề kinh doanh để hiểu biết về dữ liệu.

Hướng dẫn python data analysis sample projects - dự án mẫu phân tích dữ liệu python

1) Hệ thống đề xuất âm nhạc trên bộ dữ liệu KKBox

Âm nhạc trong thời gian hôm nay là tất cả xung quanh chúng ta. Với hơn 70 triệu bài hát trên Spotify một mình vào năm 2021, nó an toàn khi nói âm nhạc có thể dễ dàng truy cập. Và có những dịch vụ khác cũng như Apple Music, Gaana, Saavn, KKBox. Trong một ngành công nghiệp đã có rất nhiều nội dung, làm thế nào để nội dung mới được khám phá? Thông qua hệ thống khuyến nghị mà mọi người tìm thấy các bài hát mới và có được thị hiếu âm nhạc mới. Dịch vụ phát âm nhạc lợi nhuận từ các thuật toán khuyến nghị là tốt. Nó giúp họ phát triển khán giả của họ và tăng sự tham gia trên nền tảng của họ.

KKBox là một trong những nền tảng dịch vụ phát trực tuyến lớn nhất châu Á.

Ace cuộc phỏng vấn việc làm tiếp theo của bạn với các cuộc phỏng vấn giả từ các chuyên gia để cải thiện kỹ năng của bạn và tăng cường sự tự tin!

Hướng dẫn python data analysis sample projects - dự án mẫu phân tích dữ liệu python

Mô tả dữ liệu & NBSP;

Bộ dữ liệu chứa siêu dữ liệu cho người dùng và bài hát. Siêu dữ liệu bao gồm dữ liệu dành riêng cho người dùng và cụ thể của bài hát, như user_id, user_registration_date, song_id, song_genre, song_artistname, song_reledate, v.v. Thông tin này là duy nhất cho mỗi cặp người dùng bài hát.

Có ba tệp trong bộ dữ liệu:

  • Train.csv - Nó lưu trữ các dữ liệu liên quan đến cặp người dùng như User_id, Source_System_Tab, Source_Type, Source_Screentime, Target. & NBSP;

Target xác định nếu người dùng nghe cùng một bản nhạc trong khung một tháng. & NBSP;

  • Target = 1 có nghĩa là người dùng lặp lại bài hát trong 30 ngày

  • Target = 0 có nghĩa là người dùng không lặp lại bài hát

  • Songs.csv - Nó chứa dữ liệu trên các bài hát như Song_id, Song_Genre, Song_artist, Song_lyricist, ETC.

  • Thành viên .csv - Nó chứa dữ liệu tài khoản người dùng như user_name, user_age, user_gender, user_subcrip_plan, v.v.

Làm sạch dữ liệu

Bộ dữ liệu có thể có sự bất thường, ngoại lệ và các giá trị bị thiếu. Những trường hợp như vậy có thể can thiệp vào hiệu quả và độ chính xác của việc triển khai thuật toán. Chúng ta cần bình thường hóa dữ liệu và làm cho nó đồng nhất trong suốt. Trung bình, khoảng 20-40% giá trị trong bộ dữ liệu là ngoại lệ hoặc bị thiếu.

Chúng tôi sử dụng các kỹ thuật sau để làm sạch dữ liệu

1. Phát hiện và điều trị ngoại lệ & NBSP;

Các ngoại lệ là những giá trị vô lý mà don don nằm trong phạm vi cho phép cho một nhãn. Ví dụ, độ tuổi của người dùng dưới 0 trở lên có thể được coi là vô lý. Nó có thể nghiêm ngặt hơn đối với một số trường hợp, như để mua rượu - từ 18 đến 100.

2. Trao đổi các giá trị bị thiếu & nbsp;

Cắt bỏ là thay thế các giá trị bị thiếu trong tập dữ liệu bằng một giá trị khác.

Chúng tôi phân loại các cặp bài hát người dùng theo hai nhãn nổi bật, tức là lặp lại và không lặp lại. & NBSP;

  • Thay thế các giá trị bị thiếu bằng dữ liệu phù hợp - các giá trị bị thiếu trong tập dữ liệu được thay thế bằng chế độ hoặc trung bình của các giá trị.

  • Loại bỏ tất cả các giá trị null - Trường hợp này loại bỏ tất cả các điểm dữ liệu bằng dữ liệu bị thiếu, dẫn đến mất dữ liệu. Sau quy trình này, tệp dữ liệu giảm hiệu quả về kích thước.

  • Tạo một nhãn mới là thiếu - một danh mục mới có tên ‘Thiếu, được tạo cho các điểm dữ liệu bị thiếu một số giá trị. Nó tách biệt các tài nguyên bị thiếu dưới một nhóm.

  • Và cuối cùng, chuyển đổi nhãn chuỗi thành các đối tác số. & Nbsp;

Thư viện

gấu trúc, sklearn, numpy

Dự án này sẽ đánh giá bốn phương pháp mô hình sau đây để xây dựng một hệ thống đề xuất âm nhạc -

  • Hồi quy logistic

Hồi quy logistic là đơn giản nhất trong tất cả các thuật toán. Nó nằm trong Python như một mô hình tuyến tính trong Thư viện Sklearn. & NBSP;

  • Cây quyết định & nbsp;

Cây quyết định sử dụng cấu trúc cây để đưa ra kết luận hoặc kết quả. Ở mỗi cấp độ, có một sự lựa chọn để theo một trong hai chi nhánh. Khi tất cả các lần lặp, cây đưa ra kết quả. & NBSP;

  • Rừng ngẫu nhiên

Một khu rừng ngẫu nhiên là một tập hợp các cây quyết định. & NBSP;

Mã nguồn với video hướng dẫn -& nbsp; Hệ thống đề xuất âm nhạc sử dụng KKBox

2) Chatbot xử lý ngôn ngữ tự nhiên với NLTK để phân loại văn bản

Chatbots là các chương trình có thể trò chuyện với người dùng về các vấn đề phổ biến và trả lời với thông tin đầy đủ. Nhiều tổ chức sử dụng chúng làm điểm tương tác đầu tiên với khách hàng của họ. & NBSP;

Hướng dẫn python data analysis sample projects - dự án mẫu phân tích dữ liệu python

Kỹ thuật NLP được triển khai trong dự án NLP Python này

Tokenization    

Chúng tôi chia các câu thành các từ cấu thành cơ bản của chúng được gọi là mã thông báo. Các dấu chấm câu được dán nhãn là mã thông báo riêng biệt. Mã thông báo giúp xử lý các khối lớn văn bản một cách hiệu quả bằng cách chia TET thành các phần nhỏ hơn.

Ví dụ: câu -& nbsp; Các dự án khoa học dữ liệu rất thú vị. Khi nào tôi có thể là một nhà khoa học dữ liệu?

Token = [‘dữ liệu,‘ khoa học, ‘các dự án,’ là, ’, vì vậy,’ vui nhộn, ‘. ‘,‘ Khi nào, ’có thể,’ i, ’là một ' nhà khoa học dữ liệu ', ' ? "]

Ngưng từ

Các từ không thêm vào ý nghĩa của câu là các từ dừng. Họ làm cho token-dataset dư thừa và không thêm vào hiệu quả của thuật toán.

Ví dụ. Tại sao chúng tôi thậm chí còn làm tất cả những điều này có các điểm dừng sau & nbsp;

TỪ CHỐNG - [‘Ngay cả, tất cả, tất cả đều]

Tagging 

Tagging liên kết mã thông báo với một số ý nghĩa. Mã thông báo được gắn thẻ dựa trên ngữ pháp; Ví dụ: danh từ, tính từ, trạng từ có thể chấp nhận được cho dự án. & NBSP;

Nhận dạng thực thể được đặt tên là một loại gắn thẻ khác trong đó tên của sự vật, địa điểm, đối tượng, con người là thẻ. & Nbsp; & nbsp;

Lemmatisation 

Nó nhóm các biến thể khác nhau của một từ thành một từ cha mẹ đơn lẻ. Nó đảm bảo rằng các hình thức khác nhau của các từ chính xác được gắn thẻ dưới cùng một mã thông báo. Lemmatisation giảm dự phòng và làm cho văn bản đặt độc đáo. & Nbsp; & nbsp; & nbsp;

Ví dụ. Bàn chân và bàn chân giống nhau trong bối cảnh, vì vậy chúng được nhóm dưới chân.

Nhét đầy

Xuất thân, giống như sự lemmatisation, thay thế các dạng khác nhau của một từ với dạng gốc của nó. Do đó, giảm sự nhầm lẫn và trùng lặp. Ví dụ, các từ được viết ở dạng quá khứ hoặc dạng số nhiều có thể được thay thế bằng thế giới gốc thay thế - thay thế Go có thể thay thế, đi, đi, biến mất. Mọi người có cách nói chuyện của họ. Có thể có nhiều câu khác nhau có thể đòi hỏi cùng một ý nghĩa. Về cơ bản, chúng tôi muốn thuật toán coi các câu này là như nhau, và do đó chúng tôi sử dụng xuất phát và lemmatisation. & Nbsp;

Định dạng tập dữ liệu cuối cùng & NBSP;

Dữ liệu trò chuyện cần tuân thủ một định dạng cụ thể trước khi cung cấp cho trình phân loại. Định dạng cho dự án này là - (‘văn bản đầu vào, có nghĩa là đằng sau văn bản - danh mục,‘ Phản hồi từ Chatbox,). Quá trình này được gọi là trích xuất tính năng.feature extraction.

Thuật toán đã thực hiện & nbsp;

  • Phân loại cây decison & nbsp;

Trình phân loại cây quyết định hoạt động bằng cách tạo một cây trong đó mỗi nút là một tên tính năng và mỗi nhánh xác định giá trị tính năng. Lá của cây là nhãn phân loại. & NBSP;

  • Phân loại Naive Bayers & nbsp; & nbsp;

Đây là một thuật toán đơn giản hơn đặt một mô hình chính xác cơ bản cơ bản. Phân loại Naive Bayers cung cấp độ chính xác tương đối ít hơn trong dự án cụ thể.

Hãy đến gần hơn với giấc mơ trở thành một nhà khoa học dữ liệu với hơn 70 dự án ML từ đầu đến cuối đã được giải quyếtEnd-to-End ML Projects

Điều chỉnh tham số Hyper

  • Entropy Cutoff - Tham số này tinh chỉnh cây dựa trên bộ dữ liệu đào tạo. Sự tinh chỉnh của cây là quá trình mà cây quyết định tạo ra các nhánh mới, do đó đưa ra quyết định mới. This parameter refines the tree based on the training dataset. Tree Refinement is the process where the tree decides to create new branches, thus making new decisions.

  • Hỗ trợ Cắt -& NBSP; Đó là số lượng các bộ tính năng nhãn được yêu cầu để tinh chỉnh cây. Hỗ trợ giá trị cắt xác định số lượng ít nhất được yêu cầu trong dữ liệu đào tạo của cây để hoàn thành quy trình tinh chỉnh. & NBSP;It is the number of label feature sets that are required to refine the tree. Support cutoff value defines the least number of instances required in the tree’s training data to complete the refining process. 

Các siêu âm tinh chỉnh đạt được dự đoán tốt nhất từ ​​thuật toán. Với thuật toán được thiết lập và điều chỉnh chính xác, chúng tôi tiến hành dự đoán dữ liệu. & NBSP;

Mã nguồn với video hướng dẫn - Chatbot xử lý ngôn ngữ tự nhiên với NLTK

3) Dự báo nhu cầu yêu cầu đi xe đạp Ola

Đó là một thách thức đối với các yêu cầu đi xe dịch vụ vì sự không thể đoán trước và tự phát của họ. Vì lý do này, điều quan trọng là phải có một thuật toán dự đoán có thể dự báo số lượng cưỡi xấp xỉ trong tương lai gần. Dự án này nhằm dự đoán nhu cầu yêu cầu đi xe cho một khu vực cụ thể trong một khoảng thời gian nhất định. Khu vực được công nhận bởi các giá trị vĩ độ và kinh độ và các biện pháp thời gian trong giờ quân sự.

Hướng dẫn python data analysis sample projects - dự án mẫu phân tích dữ liệu python

Mô tả tập dữ liệu

Dữ liệu được cung cấp từ Kho lưu trữ OLA. Nó chứa các trường như user_id, request_latitude, request_longitutude, request_time, vị trí bán tải và vị trí thả. Chúng tôi đưa ra một số giả định để đơn giản hóa tập dữ liệu, như sau.

  • Nếu có nhiều yêu cầu đi xe từ một khu vực (độ dài duy nhất) trong một giờ, nó chỉ được đơn giản hóa như một yêu cầu.

  • Các yêu cầu đi xe tiếp theo dưới 8 phút sau khi yêu cầu đầu tiên sẽ bị bỏ qua, bất kể khu vực xuất xứ cho các yêu cầu. & NBSP;

  • Khoảng cách dưới 50 mét dưới vị trí đón và thả được coi là gian lận và do đó bị bỏ qua. & Nbsp;

Phân cụm dữ liệu

Định dạng dữ liệu gốc ở vĩ độ và kinh độ khá lớn và khác biệt đối với thuật toán hoạt động hiệu quả. Vì vậy, chúng tôi nhóm tất cả các cặp vĩ độ và kinh độ thuộc một khu vực cụ thể thành một cụm. Thuật toán phân cụm K-MEAN chịu trách nhiệm lựa chọn khu vực và phân cụm dữ liệu. Chúng tôi đặc biệt sử dụng thuật toán K-MEANS mini Batch để tạo thành các cụm dữ liệu. & NBSP; Sau khi thuật toán K-MEANS mini Batch chạy, chúng tôi có dữ liệu như sau. K-means algorithm to form clusters of data.  After the mini-batch k-means algorithm runs, we have data as follows.

(Vĩ độ, Kinh độ) -> Số cụm

Đánh giá các phương pháp thuật toán khác nhau

  • Hồi quy tuyến tính

Hồi quy tuyến tính thường không phù hợp với dữ liệu và là một bộ dữ liệu thích hợp cho thấy tính tuyến tính vốn có. Vì dữ liệu trong dự án này không tuân theo bất kỳ mối quan hệ tuyến tính nào, nên sẽ không lý tưởng khi sử dụng hồi quy tuyến tính. Hồi quy tuyến tính giúp đặt đường cơ sở cho các thuật toán tiếp theo. & NBSP;

  • Thủy quân lục chiến ngẫu nhiên & NBSP;

Quá tải dữ liệu. Nó có xu hướng thực hiện tốt trên tập dữ liệu đào tạo so với tập dữ liệu thử nghiệm.

  • Thuật toán người học tuần tự - Boost gradient cực cao

XGBOOST là một thuật toán tăng gradient được tối ưu hóa dựa trên các cây quyết định. Nó tập trung vào tốc độ và hiệu suất với sự song song và tối ưu hóa bộ đệm như các tính năng của nó.

Mã nguồn với video hướng dẫn - & NBSP; Dự báo nhu cầu đi xe đạp OLA

4) Đánh giá sản phẩm thương mại điện tử - Xếp hạng theo cặp và phân tích tình cảm

DataSet 

Dữ liệu cho dự án được định dạng trong người dùng, đánh giá, đánh giá hữu ích và không hữu ích. & NBSP;

Xử lí dữ liệu

  • Phát hiện ngôn ngữ - Điều này phát hiện ngôn ngữ của đánh giá bằng văn bản. Nó cũng loại bỏ các ngôn ngữ không phải là ngôn ngữ được chọn của chúng tôi để phân tích tình cảm. Ví dụ, nó loại bỏ các ngôn ngữ bản địa như tiếng Hindi, Marathi, tiếng Ba Tư cho một công cụ phân tích tình cảm tiếng Anh. & NBSP;

  • Loại bỏ đánh giá vô nghĩa - Chúng bao gồm các đánh giá không hữu ích cho động cơ của chúng tôi. Đây có thể là biểu tượng cảm xúc hoặc đánh giá không liên quan đến sản phẩm, v.v.

  • Bộ lọc thô tục - Phần này loại bỏ sự thô tục và nguyền rủa khỏi bộ dữ liệu đánh giá. & NBSP;

  • Đúng các đánh giá bằng văn bản kém - Điều này giúp thực hiện đánh giá chính xác về mặt ngữ pháp và logic, do đó tạo ra tính đồng nhất trong ngữ pháp cho tất cả văn bản. & NBSP;

Khai thác tính năng

  • Danh từ sức mạnh & nbsp;

  • Xem xét phân cực & nbsp;

  • Đánh giá tính chủ quan - Điều này đủ điều kiện đánh giá là khách quan hoặc chủ quan hơn trên thang điểm từ 0 đến 1

  • Xem xét độ phức tạp & nbsp;

  • Đánh giá độ dài từ - Đánh giá một từ aren thông tin nói chung. Đó là lý do tại sao độ dài từ là một yếu tố tính năng quan trọng. & NBSP;

  • Tagger dịch vụ - Một số đánh giá, thay vì mô tả trải nghiệm sản phẩm, đổ lỗi cho nhà cung cấp dịch vụ. Những đánh giá này sẽ không giúp chúng tôi vì họ không truyền đạt tình cảm cụ thể của sản phẩm.

  • Điểm tổng hợp (RSC) - Giải mã này về tính âm của đánh giá tùy thuộc vào biểu tượng cảm xúc và viết hoa của các từ. Ví dụ, trong bài đánh giá ‘The Hand Wash là tuyệt vời !!! Nó làm cho việc xem xét nhiều thông tin hơn. & Nbsp; & nbsp;

Phân loại theo cặp của mỗi đánh giá được thực hiện đối với mọi đánh giá khác để gắn nhãn chúng là hữu ích và không hữu ích. Với tổng số đánh giá N, sẽ có các phân loại N-bình phương. Việc phân loại sử dụng các mô hình sau.

  • Mô hình tuyến tính sử dụng bộ hồi quy logistic để đạt được độ chính xác là 85 %. uses the logistic regressor to achieve an accuracy of 85 per cent.

  • Mô hình phi tuyến tính sử dụng bộ phân loại cây quyết định, đạt độ chính xác 70 %. & NBSP;uses a Decision Tree classifier, reaching an accuracy of 70 per cent. 

  • Mô hình hòa tấu sử dụng một phân loại rừng ngẫu nhiên, là một loạt các cây quyết định được đặt cùng nhau. & NBSP;uses a Random Forest Classifier, which is a bunch of decision trees put together. 

Mã nguồn với video hướng dẫn - Đánh giá sản phẩm thương mại điện tử

5) Tóm tắt văn bản trừu tượng sử dụng mô hình bộ phận biến áp & NBSP;

Tóm tắt là rất quan trọng trong nhiều lĩnh vực và tìm thấy nhiều trường hợp sử dụng trong cuộc sống hàng ngày. Chúng tôi luôn luôn tham gia vào bản tóm tắt trước cuốn sách, sản phẩm, khóa học hoặc tìm kiếm một trường đại học. Một số chuyên gia chuyên nghiệp viết tóm tắt nhưng không phải mỗi khi chúng tôi cần tóm tắt chuyên gia cho các sản phẩm của mình. & NBSP; Việc sử dụng các công cụ tóm tắt văn bản tạo ra các jist chất lượng tốt một cách tự động. Nó cũng mất ít thời gian hơn. Sau đây là hai cách để tóm tắt các văn bản:

  • Tóm tắt khai thác xây dựng một biểu diễn trung gian của văn bản với thông tin cấp thấp. Chúng tôi ghi điểm các câu dựa trên đại diện. Và cuối cùng, chúng tôi chọn một vài câu với điểm số cao nhất. & NBSP; constructs an intermediate representation of the text with low-level information. We score the sentences based on representation. And finally, we select the few sentences with the top score. 

  • Tóm tắt trừu tượng được chia thành tóm tắt cú pháp và tóm tắt ngữ nghĩa. is further divided into Syntactical summarisation and Semantic summarisation.

    • Tóm tắt cú pháp xem xét mối quan hệ giữa các thực thể trong văn bản.

    • Tóm tắt ngữ nghĩa xác định các quan hệ đồ họa dựa trên ý nghĩa của các thực thể trong văn bản.

BART hoặc Biến đổi Bi-Directional Transformer là một bộ điều chỉnh tự động khử trùng làm hỏng văn bản đào tạo và thêm tiếng ồn để đào tạo mô hình. Sau đó, nó học mô hình để xây dựng văn bản gốc từ chuỗi nhúng nhiễu. & NBSP; is a denoising autoencoder that corrupts the training text and adds noise for training the model. It then learns the model to construct the original text from the noise-embedded sequence. 

Bộ dữ liệu - Dọn dẹp và định dạng

Bộ dữ liệu là bộ sưu tập 40.000 bản tóm tắt các bài báo và các bài báo gốc tương ứng.

Thư viện- Pandas, Pytorch, Sklearn, Transformers & NBSP;Pandas, PyTorch, sklearn, transformers 

Implementation 

BART là một bộ điều chỉnh tự động khử nhiễu, đào tạo trình tự cho các mô hình trình tự. Nó sử dụng các cách tiếp cận nhiễu khác nhau như xáo trộn ngẫu nhiên thứ tự các câu trong văn bản hoặc thay thế một phần câu bằng các mã thông báo cụ thể.

Mã nguồn với video hướng dẫn - Tóm tắt văn bản trừu tượng

6) Xây dựng hệ thống đề xuất lọc hợp tác

Khuyến nghị các sản phẩm phù hợp cho khách hàng có thể là công cụ cho các công ty bán hàng và tham gia. Khuyến nghị làm việc với xếp hạng của sản phẩm và loại sản phẩm mà khách hàng đã mua. & NBSP; Lọc hợp tác sử dụng khoảng cách khoảng cách sử dụng các hàng xóm gần nhất và khoảng cách cosin. Các yếu tố chính như tương tác của khách hàng và phản hồi là rất cần thiết trong bộ lọc hợp tác. & NBSP;

Tương tự cosine - Số liệu khoảng cách

Sự tương đồng về cosine phụ thuộc vào việc tìm nhóm người dùng tương tự như người dùng cần đề xuất. Sự giống nhau giữa hai người dùng là khoảng cách giữa chúng trong ma trận xếp hạng. Hai người dùng càng gần thì càng có nhiều khả năng họ sẽ thích cùng một bộ phim.

Mô tả dữ liệu và xử lý trước

  • Normalisation 

Mã hóa nhãn chuyển đổi ID sản phẩm thành các giá trị số. Do đó, làm cho nó có thể vẽ các sản phẩm một cách toán học. Xếp hạng chuẩn hóa được trừ trung bình từ xếp hạng thực tế.

  • Quá trình lọc

Các sản phẩm có xếp hạng thấp hơn bị giảm, vì vậy dữ liệu còn lại mạnh mẽ và có thể nhanh hơn. Nhóm xếp hạng càng lớn, mô hình càng tốt có thể đào tạo.

  • Ma trận người dùng

Nó có một ma trận với người dùng trong các cột và sản phẩm trong các hàng, trong đó giao lộ xác định xếp hạng do người dùng đưa ra cho sản phẩm. Thiếu giá trị trong ma trận được thay thế bằng 0.

Thư viện - Numpy, Nhà điều hành, Sklearn, & NBSP;Numpy, operator, sklearn, 

Sự tương đồng về cosine giúp tìm kiếm người dùng tương tự K-TOP. Sau khi nhận ra k người dùng tương tự, chúng tôi tổng hợp các bộ phim được mỗi người dùng yêu thích thành một nhóm. Chúng tôi có thể bắt đầu giới thiệu những bộ phim đó từ nhóm này cho người dùng đã xem chúng. Một điểm quan trọng cần lưu ý là tạo ra các ma trận tương tự bằng cách sử dụng ma trận người dùng.similarity matrices using the user-item matrices.

Mã nguồn với video hướng dẫn - Xây dựng hệ thống đề xuất lọc hợp tác

7) Tiếp tục phân tích cú pháp trong học máy với Python OCR và Spacy

Các nhà tuyển dụng và các công ty nhận được hàng ngàn hồ sơ mỗi tháng trong hộp thư đến của họ từ những người xin việc. Đó là khá khó khăn và đánh thuế để sàng lọc nhiều ứng dụng công việc này cho một người. Quá trình sớm trở nên và đơn điệu và tê liệt. & Nbsp; Sơ yếu lý lịch phân tích cú pháp giúp đối chiếu thông tin quan trọng trong sơ yếu lý lịch thành các loại/nhãn Hồng y. Các nhãn này là những điểm quan trọng tạo nên ý chính của sơ yếu lý lịch. Các nhãn này có thể là tên, chỉ định, trường học, đại học, kinh nghiệm làm việc, vv & nbsp; Một trình phân tích cú pháp tiếp tục chuyển đổi các quá trình này tiếp tục thành một định dạng chỉ chứa thông tin quan trọng. Do đó, làm cho nhà tuyển dụng hoạt động dễ quản lý hơn và ít mệt mỏi hơn. & NBSP;

Mô tả tập dữ liệu

Định dạng tập dữ liệu nằm trong JSON AS (Nhãn, Thẻ bắt đầu thực thể, Thẻ End End, Văn bản thực tế)

Nhãn, như đã thảo luận trước đó, là các danh mục trong sơ yếu lý lịch tạo thành mấu chốt. Giống như, tên, chỉ định, thành phố, kinh nghiệm, kỹ năng, vv Bộ dữ liệu cần phải trải qua quá trình xử lý trước khi mô hình hóa. Xử lý đảm bảo dữ liệu được định dạng theo cách chính xác để thực hiện trong Spacy NER.

Nhận dạng thực thể tự nhiên Spacy là một khuôn khổ được viết bằng Python tương quan văn bản và ngữ nghĩa của nó. Đây là một thuật toán xử lý ngôn ngữ tự nhiên tiên tiến sử dụng kỹ thuật phân tích vị trí tổng quát. Kỹ thuật này hoạt động bằng cách sử dụng từ ngữ rút ra mối quan hệ giữa ngữ nghĩa và cú pháp của một từ. is a framework written in python that correlates text and its semantics. It is an advanced natural language processing algorithm that uses the generative positional parsing technique. The technique works by word-embedding that pulls out the relation between semantics and syntax of a word.

Ví dụ, kinh nghiệm của tôi ở Cambridge không dễ chịu. Ner sẽ nhận ra rằng Cambridge có nghĩa là một trường đại học hoặc trường học sau khi trải qua hàng trăm hồ sơ tiếp tục với cùng một nội dung hoặc ý nghĩa. & NBSP;

Nhận dạng ký tự quang đọc và chuyển đổi các văn bản từ hình ảnh. Nhận dạng ký tự quang học đọc sơ yếu lý lịch và chuyển đổi chúng thành PDF hoặc văn bản làm đầu vào cho mô hình. & NBSP; reads and converts texts from images. Optical character recognition reads the resumes and converts them into pdf or text as inputs to the model. 

Mã nguồn với các video hướng dẫn - Tiếp tục phân tích cú pháp với máy học

8) Hệ thống nhận dạng khuôn mặt trong Python sử dụng Facenet

Nhận dạng khuôn mặt xác định người hoặc một đối tượng được cho một hình ảnh hoặc một video. Nó thuộc thể loại tầm nhìn máy tính của trí tuệ nhân tạo. Nhiều điện thoại di động ngày nay đi kèm với tính năng mở khóa nhận dạng khuôn mặt. Việc sử dụng của nó được phổ biến rộng rãi trong an ninh và giám sát. Nhận dạng khuôn mặt cũng tìm thấy việc sử dụng trong việc gắn thẻ mọi người trên ảnh của họ và nhận ra các loài thực vật hoặc các vật thể tối nghĩa. Lợi ích của nó là đa ngành. & NBSP;

Mô tả tập dữ liệu

Bộ dữ liệu chứa các khuôn mặt của những người được trích xuất từ ​​video hoặc kho lưu trữ camera sở hữu. & NBSP; Khuôn mặt thu được theo cách này có thể thay đổi về kích thước và chất lượng. Vì vậy, tất cả các hình ảnh được xử lý để phù hợp với tỷ lệ kích thước cụ thể và có chất lượng đồng đều. & NBSP;

& nbsp; Một khi chúng tôi đã sẵn sàng bộ dữ liệu hình ảnh được chuẩn hóa, chúng tôi có thể bắt đầu với việc thực hiện mô hình nhận dạng khuôn mặt.

  • Chúng tôi bắt đầu bằng cách xử lý các pixel trong mỗi bức ảnh để trích xuất các mối quan hệ có ý nghĩa và tám lần cho mô hình của chúng tôi. & NBSP;

  • Thuật toán học máy được áp dụng tùy thuộc vào các yêu cầu và điều kiện.

  • Trích xuất khuôn mặt từ ảnh để tạo thành một tầng Haar để chiết mặt

  • Đào tạo mô hình xác định và nhãn đối mặt được trích xuất trong bước trước.

Mã nguồn với video hướng dẫn- Hệ thống nhận dạng khuôn mặt là Python sử dụng Facenet

9) Dự án khuyến nghị khách sạn ở Python

Chọn điểm đến kỳ nghỉ là khó khăn và chọn một khách sạn là một rắc rối lớn hơn. Với rất nhiều tour du lịch và các nhà điều hành khách sạn qua internet, nó có thể trở nên quá sức. Khuyến nghị của khách sạn đi vào hình ảnh cung cấp các khuyến nghị của khách sạn cá nhân dựa trên sự lựa chọn và nhu cầu của người dùng.

Mô tả tập dữ liệu

Dữ liệu cho dự án khoa học dữ liệu này bao gồm một lịch sử tìm kiếm và đặt phòng người dùng, chi tiết cụm khách sạn, chi tiết khách sạn và chi tiết người dùng. & NBSP;

  • Chi tiết người dùng bao gồm tên người dùng, tuổi người dùng, vị trí người dùng, lịch sử đặt phòng người dùng.

  • Lịch sử tìm kiếm người dùng là tất cả các tìm kiếm mà người dùng đã thực hiện trong quá khứ để tìm khách sạn. & NBSP;

  • Chi tiết khách sạn bao gồm tên khách sạn, địa điểm khách sạn, giá khách sạn và xếp hạng khách sạn. & NBSP;

  • Khách sạn Cluster là một nhóm khách sạn có đặc điểm phù hợp như giá cả, đánh giá khách sạn. Phân cụm là rất quan trọng vì nó làm giảm sản lượng dự kiến ​​và tăng hiệu quả trong giai đoạn học tập của thuật toán.

Hệ thống đề xuất khách sạn Expedia Bộ dữ liệu dự án Python. & NBSP;

Vì các điểm cuối là riêng biệt, chúng tôi sử dụng các thuật toán phân loại để dự đoán các cụm khách sạn cho một người dùng nhất định. Trong dự án này, bạn có thể triển khai nhiều thuật toán phân loại để tìm một thuật toán tốt nhất phù hợp cho bộ dữ liệu. & NBSP;

  • Phân loại rừng ngẫu nhiên

  • Phân loại Gaussian Naive Bayes

  • Hồi quy logistic

  • Phân loại KNN

  • Phân loại XGBOOST

  • Phân loại cây quyết định

Mã nguồn với video hướng dẫn - Dự án khuyến nghị khách sạn ở Python

10) Nhận dạng chữ số viết tay bằng CNN cho bộ dữ liệu MNIST

Dự án này nhằm xác định chính xác các chữ số viết tay và có thể lưu trữ chúng bằng kỹ thuật số ở một nơi. Trước sự ra đời của máy tính, không quá 25 năm trước, các tổ chức đã dựa vào giấy để lưu trữ các sự kiện và chi tiết. Dữ liệu được lưu trữ trong các tài liệu giấy này bây giờ, ngay cả khi chúng tan rã chậm. & NBSP; Điều quan trọng là lưu trữ các bản ghi cũ này trong một bản sao kỹ thuật số để tham khảo chúng trong tương lai nếu có nhu cầu. Phân bổ nguồn nhân lực cho một nhiệm vụ như vậy có vẻ dư thừa khi nó có thể được tự động hóa và tăng gấp đôi thông qua khoa học dữ liệu và trí tuệ nhân tạo. & NBSP;

Bộ dữ liệu

MNSIT hoặc Viện dữ liệu công nghệ và công nghệ được sửa đổi là khá phổ biến đối với các mô hình nhận dạng chữ số viết tay. Nó lưu trữ hơn 60.000 hình ảnh của các chữ số viết tay, với mỗi hình ảnh có kích thước 28x28 pixel.

Xử lý dữ liệu & NBSP;

  • Định hình dữ liệu

Định hình dữ liệu đề cập đến việc thay đổi vectơ 3 chiều thành vectơ 4 chiều vì mô hình lấy các vectơ 4D làm đầu vào.

  • Một mã hóa nóng & nbsp;

Nó có nghĩa là ghi nhãn hình ảnh có số để chúng có thể được xử lý hiệu quả trong mô hình. Thao tác số tương đối dễ dàng hơn so với thao tác hình ảnh.

  • Tính năng tỷ lệ

Hình ảnh được thu nhỏ xuống 0-1 từ phạm vi 0-255 pixel để có quy mô tiêu chuẩn có sẵn cho tất cả các hình ảnh.

Thư viện/gói - Numpy, Gandas, Matplotlib, Tensorflow, Sci -kit Learn, Seaborn. & NBSP;NumPy, Pandas, Matplotlib, TensorFlow, sci-kit learn, seaborn. 

Mã nguồn với video hướng dẫn - Nhận dạng chữ số viết tay bằng CNN

11) Xây dựng một công cụ tìm hình ảnh tương tự trong Python với Keras và Tensorflow

Dự án nhằm mục đích xây dựng một mô hình chụp ảnh làm đầu vào và cung cấp hình ảnh tương tự như hình ảnh gốc do người dùng đưa ra. Khuyến nghị các sản phẩm tương tự dựa trên hình ảnh sản phẩm được sử dụng trong các trang web bán lẻ trực tuyến như Amazon, Flipkart, v.v. & NBSP; Nó giúp người dùng đưa ra lựa chọn có học thức bằng cách hiển thị nhiều khuyến nghị hơn thông qua kỹ thuật.

Mô tả dữ liệu & NBSP;

Bộ dữ liệu có ba cột

  • URL - URL công khai cho hình ảnh & nbsp;

  • ID - ID duy nhất cho mỗi hình ảnh & nbsp;

  • Lớp - Hình ảnh được dán nhãn với các lớp tùy thuộc vào danh mục hoặc bản chất của chúng. & NBSP;

  • Lập chỉ mục sử dụng tìm kiếm đàn hồi, trong đó các tính năng trích xuất bằng cách sử dụng các trọng số của hình ảnh từ Mobilenetv2.

K Thuật toán hàng xóm gần nhất giúp tìm hình ảnh tương tự như hình ảnh đầu vào. Tìm các vectơ k-gần nhất trong bản đồ cụm hoàn thành điều này cho một hình ảnh.

Thư viện - Tìm kiếm đàn hồi, Keras, Tensorflow, Numpy, Gandas, Yêu cầu, Học Sci -KIT là các thư viện cần thiết cho dự án. & NBSP;Elastic search, Keras, Tensorflow, Numpy, Pandas, Requests, Sci-kit learn are the libraries needed for the project. 

Mã nguồn với video hướng dẫn - Xây dựng một công cụ tìm hình ảnh tương tự trong Python

12) Mô hình chủ đề bằng cách sử dụng cụm K-Means

Mô hình chủ đề đang trích xuất các từ quan trọng từ một văn bản hoặc đoạn văn có thể mô tả một cách khéo léo toàn bộ đoạn văn. Nó giống như tóm tắt, nhưng mô hình chủ đề đặc biệt tập trung vào các câu ngắn hoặc các nhóm từ. Đó là một hương vị của việc khai thác văn bản để có được các mô hình định kỳ của các từ hình thành các điểm dữ liệu quan trọng cho chủ đề này. Các bước liên quan đến việc thực hiện dự án Python này cho khoa học dữ liệu -

  • Làm sạch dữ liệu

Bước này loại bỏ tất cả các mẫu/ký hiệu không có lợi cho thuật toán trong tập dữ liệu. & NBSP;

Ví dụ: các biểu tượng như & nbsp; ‘ @,’ Đến, ’’ a Ngay cả những từ có độ dài từ nhỏ hơn 3 cũng không cần thiết.

Số cũng có thể được xóa khỏi các tweet.

  • Tokenise

Tokenisation trích xuất tất cả các từ riêng lẻ trong văn bản và đếm các trường hợp của chúng trong bộ dữ liệu. & Nbsp;

  • Vectorise dữ liệu

    • Thuật ngữ Tần số-Ngược lại Tài liệu Vector hóa tần số xác định mức độ quan trọng của một từ cụ thể đối với một tài liệu trong tập dữ liệu hoặc kho văn bản. Nó đếm số lần một từ xảy ra trong tài liệu và so sánh nó với các tài liệu khác. Một từ càng xuất hiện trong nhiều tài liệu, số TFIDF càng thấp và ngược lại. Ít tần suất của một thế giới ngụ ý sự độc đáo. vectorisation defines how important a particular word is to a document in a dataset or corpus. It counts the number of times a word occur in the document and compares it with other documents. The more a word appears in multiple documents, the lower is the TFIDF number and vice versa. Less frequency of a world implies uniqueness.

    • Count Vectoriser chỉ cần đếm số lần xuất hiện của một từ trong toàn bộ kho văn bản. Tổng số tính năng được xác định bởi tổng số từ duy nhất trong kho văn bản.Vectoriser simply counts the number of occurrences of a word in the whole corpus. The total number of features get defined by the total number of unique words in the corpus.

Thư viện & NBSP; - NLTK, WordCloud, Sklearn, Yêu cầuNltk, wordcloud, sklearn, requests

Dự án sử dụng phân cụm K-MEAN không được giám sát để xác định các chủ đề hoặc ý tưởng chính trong các đánh giá/bộ dữ liệu kiểm tra. Cụm là điểm cuối của kho văn bản của chúng tôi. Ví dụ, các tweet được dán nhãn là vui, trung lập, buồn bã, tức giận. Các danh mục này sẽ trở thành cụm bốn kết thúc. & NBSP;

  • Phân cụm với tám centroid & nbsp;

Tám cụm có nghĩa là sẽ có tám cụm thuật toán sẽ xuất ra. Các ngữ nghĩa và ý nghĩa của các cụm sẽ phải được chúng tôi suy ra.

  • Phân cụm với hai tâm

Hai trung tâm ngụ ý sẽ có 2 cụm. Số lượng trung tâm ít hơn có thể ảnh hưởng đến hiệu quả của thuật toán vì sẽ chỉ có hai chủ đề. & NBSP;

Mã nguồn và video hướng dẫn - Mô hình chủ đề sử dụng cụm K -Means

13) Nhận dạng hoạt động của con người bằng cách sử dụng phân loại đa lớp trong Python

Dự án công nhận hoạt động của con người như đạp xe, đi bộ, đặt, chạy bằng cách phân tích vị trí, con quay hồi chuyển và số liệu gia tốc. Nhận dạng hoạt động tìm thấy sử dụng trong các đồng hồ thông minh và điện thoại thông minh chạy các ứng dụng theo dõi thể dục. Dự án được giới hạn trong 6 hoạt động cụ thể: đi bộ, nằm, đi trên lầu, đi bộ xuống cầu thang, ngồi, đứng.

Mô tả dữ liệu & NBSP;

Dữ liệu là từ một thí nghiệm trên 30 người thực hiện các hoạt động khác nhau trong khi mặc điện thoại thông minh.

Dữ liệu xử lý trước

  • Các giá trị null trong tập dữ liệu được thay thế bằng giá trị trung bình, trung bình hoặc không. Chế độ đặt dữ liệu bị thiếu trong tập dữ liệu. Kỹ thuật này được gọi là thay thế chế độ. & NBSP;

  • Duy trì số lượng xảy ra cho mỗi hoạt động để kiểm tra xem dữ liệu có lệch đối với một hoạt động nhiều hơn các hoạt động khác không. Một bộ dữ liệu cân bằng tốt là một trong đó số lần xuất hiện cho mỗi hoạt động gần như giống nhau. & NBSP;

Phân tích dữ liệu khám phá

  • Phân tích biến đổi uni

Các trường cần thiết như độ lệch chuẩn, tối thiểu, tối đa và giá trị trung bình được vẽ theo từng biến dữ liệu trong tập dữ liệu. Một phân phối bình thường với một hình dạng chuông ngụ ý rằng biến dữ liệu được phân phối thường trên tập dữ liệu.

  • Phân tích hai biến

Phân tích BI biểu đồ hai tính năng khác nhau trên trục X và Y và biểu thị mối quan hệ của chúng. Một đường cong đồ họa giúp phân biệt các mẫu và sự phụ thuộc giữa các tính năng và biến. & NBSP;

  • âm mưu tsne

Một phân tích đa biến trở nên khó khăn khi có nhiều biến liên quan, đôi khi thậm chí lên tới 500. Một lô với 500 biến chỉ có ý nghĩa. & NBSP;

Các sơ đồ TSNE giúp đỡ khi có nhiều biến trong biểu đồ để trực quan hóa các hệ thống đa biến thành dữ liệu hai chiều. & NBSP;

  • Bình thường hóa hoặc tiêu chuẩn hóa

Chuẩn hóa là quá trình để thu nhỏ các phạm vi biến lớn theo -1 và 1. Nó hoàn thành phép đo của từng biến theo một số liệu tiêu chuẩn.

Sau khi chuẩn hóa, một đầu ra lý tưởng sẽ là khi giá trị trung bình bằng 0 và độ lệch chuẩn là một.

Thư viện -Pythonpandas, Matplotlib, Numpy, Seaborn-PythonPandas, matplotlib, NumPy, seaborn

Mã nguồn và video hướng dẫn - Nhận dạng hoạt động của con người trong Python

14) Mô hình chủ đề bằng LDA với bộ dữ liệu đua

Mục tiêu của dự án là trích xuất chủ đề chi phối từ văn bản hoặc tài liệu. Mô hình chủ đề Tìm thấy sử dụng trong việc dán nhãn một lượng lớn dữ liệu phi cấu trúc và tổ chức các văn bản thành các chủ đề và nhãn. Nhóm các từ tương tự về mặt ngữ nghĩa và logic theo cùng một chủ đề. & Nbsp; & nbsp;

Các bước tiền xử lý dữ liệu

  • Lowercasing tất cả các từ

  • Từ mã hóa và các từ hóa & nbsp;

  • Loại bỏ các từ dừng và dấu chấm câu & nbsp;

  • Thêm tất cả các mã thông báo từ tài liệu để tạo thành tài liệu đã xử lý

  • Chuyển đổi tài liệu được xử lý bằng TFIDF hoặc Count Vectoriser & NBSP;

Thư viện - Numpy, Matpltlib, Sci -kit Learn, NLTK, Pandas, Tsne, PvldavisNumpy, matpltlib, sci-kit learn, nltk, pandas, tsne, pvLDAvis

Phân tích ngữ nghĩa tiềm ẩn, phân bổ Dirichlet tiềm ẩn và yếu tố ma trận không âm là một số thuật toán và kỹ thuật mà người ta có thể học được từ dự án khoa học dữ liệu Python này.

Mã nguồn với bộ dữ liệu có hướng dẫn - Mô hình hóa chủ đề bằng LDA

15) Dự án dự đoán bán hàng cửa hàng Rossman & NBSP;

Một cửa hàng bán hàng phụ thuộc vào ngày trong tháng, thời gian trong ngày, khuyến mãi, ưu đãi, thời vụ, v.v ... Thật khó để dự đoán doanh số bán hàng vào bất kỳ ngày nào nói chung. & NBSP; Dự đoán bán hàng cũng là bắt buộc đối với những hiểu biết của công ty và tìm nguồn cung ứng trước khi giữ cho các cổ phiếu không hết. Nó cũng giúp chúng tôi biết khi nào nên bắt đầu chạy các ưu đãi theo mùa hoặc ngày thông minh để thu hút nhiều người đến cửa hàng. & NBSP;

Bộ dữ liệu & NBSP; Sự mô tả

Bộ dữ liệu cho dự án được thu thập từ Rossman lưu trữ dữ liệu lịch sử từ trang Kaggle.

Mã nguồn và video hướng dẫn - Dự án bán hàng dự đoán cửa hàng Rossman & NBSP;

16) Chuỗi thời gian sử dụng dự báo bộ nhớ ngắn hạn dài

LSTM hoặc mạng bộ nhớ dài hạn là một mạng thần kinh tái phát nhân tạo với một tế bào bộ nhớ trong mỗi nút. Một LSTM có các kết nối phản hồi trong các lớp ẩn của nó giúp nó khác với mạng lưới thần kinh chuyển tiếp thức ăn. Nó khắc phục vấn đề biến mất độ dốc. & Nbsp;

Một số ví dụ phổ biến bao gồm phân tích tình cảm, phân tích video, nhận dạng giọng nói, v.v.

Mô tả tập dữ liệu

Bộ dữ liệu chứa số lượng hành khách hàng tháng đi lại thông qua một hãng hàng không cụ thể. Dữ liệu được định dạng là - tháng trong năm, & NBSP; số lượng hành khách. Mục tiêu của dự án là dự đoán số lượng hành khách trong tương lai trong một tháng nhất định bằng cách sử dụng dữ liệu trong quá khứ và bộ nhớ gần đây. & NBSP;

Bình thường hóa dữ liệu

Dữ liệu được chuẩn hóa bằng cách sử dụng hàm MinMaxScaler có trong gói tiền xử lý theo Sklearn. Sau khi hoạt động MinMaxScaler, chúng ta cần chuyển đổi bộ dữ liệu trong phạm vi -1 thành 1. & NBSP;

Thư viện

Gấu trúc, matplotlib, bộ dữ liệu, keras, toán học, sklearn

Implementation 

LSTM là RNN khắc phục những hạn chế như phát nổ độ dốc và lỗi biến mất. Nó có thể giảm thiểu lỗi trong mỗi lần lặp và đi đến một dự đoán chính xác. Nó sử dụng hai lớp là bộ mã hóa và bộ giải mã. Lớp bộ mã hóa đọc chuỗi đầu vào và đầu ra một biểu diễn vectơ của chuỗi. Đầu ra của bộ mã hóa được đưa vào bộ giải mã giải thích nó thành một giá trị duy nhất cho mỗi điểm thời gian trong chuỗi thời gian.

Mã nguồn và video hướng dẫn - chuỗi thời gian sử dụng dự báo bộ nhớ ngắn hạn dài

17) Dự án phân loại tin tức giả & NBSP;

Tin tức giả mạo lên trong các nguồn cấp tin tức của chúng tôi và khuất phục sự thật. Tin tức giả là một người có chủ ý

xuyên tạc dữ liệu và sự kiện. Với khả năng truy cập dễ dàng vào Internet, các phương tiện truyền thông và tin tức mới đã xuất hiện trên khắp đất nước. Và do đó, nó đã trở nên dễ dàng hơn để xuất bản và truyền bá tin tức không được kiểm soát. Điều quan trọng là phải kiềm chế các bài báo và bài viết tin tức như vậy.

Mô tả tập dữ liệu

Bộ dữ liệu chứa số lượng hành khách hàng tháng đi lại thông qua một hãng hàng không cụ thể. Dữ liệu được định dạng là - tháng trong năm, & NBSP; số lượng hành khách. Mục tiêu của dự án là dự đoán số lượng hành khách trong tương lai trong một tháng nhất định bằng cách sử dụng dữ liệu trong quá khứ và bộ nhớ gần đây. & NBSP;

Bình thường hóa dữ liệu

Dữ liệu được chuẩn hóa bằng cách sử dụng hàm MinMaxScaler có trong gói tiền xử lý theo Sklearn. Sau khi hoạt động MinMaxScaler, chúng ta cần chuyển đổi bộ dữ liệu trong phạm vi -1 thành 1. & NBSP;

  • Thư viện

  • Gấu trúc, matplotlib, bộ dữ liệu, keras, toán học, sklearn

  • LSTM là RNN khắc phục những hạn chế như phát nổ độ dốc và lỗi biến mất. Nó có thể giảm thiểu lỗi trong mỗi lần lặp và đi đến một dự đoán chính xác. Nó sử dụng hai lớp là bộ mã hóa và bộ giải mã. Lớp bộ mã hóa đọc chuỗi đầu vào và đầu ra một biểu diễn vectơ của chuỗi. Đầu ra của bộ mã hóa được đưa vào bộ giải mã giải thích nó thành một giá trị duy nhất cho mỗi điểm thời gian trong chuỗi thời gian.

Mã nguồn và video hướng dẫn - chuỗi thời gian sử dụng dự báo bộ nhớ ngắn hạn dài

  • 17) Dự án phân loại tin tức giả & NBSP;

  • Tin tức giả mạo lên trong các nguồn cấp tin tức của chúng tôi và khuất phục sự thật. Tin tức giả là một người có chủ ý

  • xuyên tạc dữ liệu và sự kiện. Với khả năng truy cập dễ dàng vào Internet, các phương tiện truyền thông và tin tức mới đã xuất hiện trên khắp đất nước. Và do đó, nó đã trở nên dễ dàng hơn để xuất bản và truyền bá tin tức không được kiểm soát. Điều quan trọng là phải kiềm chế các bài báo và bài viết tin tức như vậy.

  • Bộ dữ liệu chứa tin tức ở định dạng sau.

  • Padding 

  • News_id, news_author, news_text, news_label, news_title

Làm sạch dữ liệu

Xóa các hồ sơ bị thiếu & nbsp;Sci-kit, TensorFlow, Keras, glove, flask, NLTK, pandas, NumPy

Hợp nhất tất cả văn bản & nbsp;

Xóa các ký tự đặc biệt khỏi văn bản

Mô tả tập dữ liệu

Bộ dữ liệu bao gồm tên sản phẩm, giá sản phẩm, ngày lễ khu vực, kết hợp sản phẩm với các sản phẩm khác, v.v.

  • Tập hợp

Tập hợp là ý tưởng tạo một tập hợp các tính năng sẽ xác định một cách khéo léo mô hình. Nó không bao gồm tất cả các tính năng bổ sung và không cần thiết không đóng góp cho độ chính xác của mô hình.

  • Thay thế các điểm dữ liệu bị thiếumissing data points

  • Xóa các mục với giá là 0 entries with price as 0

Thư viện

Numpy, gấu trúc, matplotlib, seeborn, sklearn, scipy.sparse, lightgbm

Thực hiện

  • Các sơ đồ hồi quy tuyến tính các biến trên biểu đồ tuyến tính để mô hình hóa bộ dữ liệu được chuyển đổi/chuẩn hóa. & NBSP;plots variables on a linear graph to model the transformed/normalised dataset. 

  • LightGBM sử dụng thuật toán dựa trên cây cho khung tăng gradient.uses a tree-based algorithm for the gradient boost framework.

Mã nguồn với video hướng dẫn - Tối ưu hóa giá bán lẻ dựa trên độ co giãn của nhu cầu

19) Dự đoán của khách hàng cho tổ chức

Tỷ lệ khu vực là tỷ lệ phần trăm hàng năm biểu thị cho khách hàng về tỷ lệ không đăng ký từ dịch vụ hoặc tỷ lệ nhân viên rời bỏ công việc của họ. Một công ty cần biết khách hàng nào sẽ rời bỏ họ để định tuyến quảng cáo và nỗ lực tham gia của họ với những khách hàng này một cách thích hợp.

Mô tả tập dữ liệu

Bộ dữ liệu chứa hồ sơ ngân hàng được thu thập trong một khoảng thời gian. Sau đây là các chi tiết hữu ích cho dự án: & nbsp;

  • ID khách hàng

  • Họ của khách hàng

  • Giới tính

  • Địa lý là vị trí của khách hàng is the location of the customer

  • Nhiệm kỳ là thời gian liên kết với ngân hàng cho đến nay) is the association time with the bank so far)

  • Balance 

  • Tuổi tác

  • Sản phẩm được sử dụng & nbsp; 

  • Thẻ tín dụng là trường nhị phân biểu thị nếu khách hàng có thẻ tín dụng. & NBSP;is a binary field denoting if the customer has a credit card. 

Chuyển đổi dữ liệu & NBSP;

Điều trị giá trị ngoài và thiếu

  • Các ngoại lệ có thể ảnh hưởng đến độ lệch trung bình và độ lệch chuẩn trong tập dữ liệu. Vì vậy, điều quan trọng là phải xử lý chúng bằng cách xóa các mục hoặc thay thế chúng bằng các giá trị trung bình/trung bình. can affect the mean and standard deviation in the data set. So it is crucial to treat them by either deleting the entries or replacing them with mean/median values.

  • Các giá trị bị thiếu làm cho Corpus yếu và không đầy đủ và có thể làm lệch kết quả. Các cột có quá nhiều giá trị bị thiếu được bỏ khỏi bộ dữ liệu. & NBSP; values make the corpus weak and inadequate and can skew the results. Columns with too many missing values are dropped out of the dataset. 

Encoding 

Mã hóa là quá trình chuyển đổi các giá trị đặt dữ liệu thành các giá trị phân loại. & NBSP;

  • Mã hóa nhãn - Mã hóa nhãn được sử dụng cho các giá trị phân loại nhị phân hoặc thứ tự trong đó thứ tự hoặc nhãn của các mục là cần thiết. & Nbsp; & nbsp;

  • Mã hóa một lần nóng-Nó rất hữu ích cho các biến phân loại phi phân loại với tính chất trung bình, tức là một số lần xuất hiện. & NBSP;

  • Mã hóa mục tiêu - Mã hóa mục tiêu được sử dụng trong đó các biến hiển thị tính toán cao. & NBSP;

Lựa chọn tính năng

Không phải mọi tính năng là rất quan trọng để phân tích dữ liệu và phù hợp với mô hình. Một số tính năng không hiển thị bất kỳ đường cong phân phối vì randoms. Điều quan trọng là chỉ chọn những tính năng giúp phù hợp mô hình. & NBSP;

  • Lựa chọn đơn biến

  • Loại bỏ tính năng đệ quy - Hàm này loại bỏ đệ quy các tính năng không thêm vào độ chính xác của mô hình. Trong khi cuối cùng, chỉ còn lại các tính năng thiết yếu. & NBSP; - This function recursively removes features that do not add to the model’s accuracy. While in the end, only the essential features remain. 

  • Phân tích thành phần chính biến đổi một bộ dữ liệu với nhiều biến thành một dạng nén với ít biến hơn, giữ cho phân phối dữ liệu và đặc điểm nguyên vẹn. & NBSP; transforms a dataset with many variables into a compressed form with fewer variables, keeping the data distribution and characteristics intact. 

Libraries 

Numpy, Sklearn, Keras, Gandas, Joblib

Mã nguồn với video hướng dẫn - Churn khách hàng cho tổ chức

20) Dự án phát hiện gian lận thẻ tín dụng là vấn đề phân loại

Các công ty thẻ tín dụng sẽ có thể nhận ra các giao dịch gian lận xảy ra trên hệ thống của họ để họ có thể tính phí khách hàng một cách chính xác và chính xác. Các công ty cần có một mô hình để hiểu các giao dịch nào là chính hãng và những giao dịch nào có khả năng giả mạo. Vấn đề trở nên phức tạp vì bộ dữ liệu bị mất cân bằng, có nghĩa là có rất ít giao dịch giả mạo trong số các giao dịch chính hãng.

Mô tả tập dữ liệu

Bộ dữ liệu chứa các giao dịch được thực hiện bởi khách hàng cho một khối thời gian cụ thể. Bộ thedata giữ ba trường - thời gian, số lượng và giá trị đầu vào số. Giá trị đầu vào số là đầu ra của chuyển đổi phân tích thành phần chính trên bộ tính năng.data set holds three fields - time, amount and numerical input values. Numerical input values are the output of Principal Component Analysis transformation on the feature set.

So sánh, thời gian và số tiền là thời gian giao dịch và số lượng giao dịch, tương ứng. Chuyển đổi PCA được áp dụng để ẩn thông tin và tính năng của khách hàng để duy trì tính bảo mật. & NBSP;

Thư viện

Numpy, gấu trúc, matplotlib, seeborn, sklearn, scipy.sparse, lightgbm

Thực hiện

Các sơ đồ hồi quy tuyến tính các biến trên biểu đồ tuyến tính để mô hình hóa bộ dữ liệu được chuyển đổi/chuẩn hóa. & NBSP;is the ratio of the actual number of accurate predictions to the total number of valid values.

LightGBM sử dụng thuật toán dựa trên cây cho khung tăng gradient. is the ratio of the actual true values in the dataset to the total number of true predictions given by the model.

  • Phân loại rừng ngẫu nhiên & nbsp;

  • Hỗ trợ phân loại vector & nbsp;

  • Phân loại cây quyết định

  • Phân loại hàng xóm k-gần nhất hoặc KNN

  • Hồi quy logistic & nbsp;

Trong số tất cả các thuật toán, hồi quy logistic và người hàng xóm gần nhất là chính xác nhất. & NBSP;

Mã nguồn với các video hướng dẫn - & NBSP; Phát hiện gian lận thẻ tín dụng bằng cách sử dụng phân loại & nbsp;

Bắt đầu với Python cho khoa học dữ liệu

Tóm lại, có rất nhiều thuật toán trong khoa học dữ liệu rất hữu ích trong việc giải quyết nhiều vấn đề. Điều quan trọng là phải học các loại thuật toán và có một bí quyết cơ bản về việc triển khai của chúng. Python rất dễ tận dụng trong việc hoàn thành nhiệm vụ tương tự này. Ngoài ra, các tài nguyên và hướng dẫn Python rất phong phú trên Internet và cộng đồng các nhà phát triển rất hữu ích. Nhưng đừng quên rằng Python là một trong số nhiều ngôn ngữ tốt. & NBSP;

Có những con cá đáng yêu khác trên biển ngoài con trăn già thân thiện :)

Câu hỏi thường gặp về các dự án khoa học dữ liệu & NBSP;

Mỗi dự án khoa học dữ liệu tuân theo cùng một bản thiết kế mà chúng tôi thêm các nhiệm vụ dành riêng cho dự án. Một số bước là phổ biến cho nhiều dự án khoa học dữ liệu. Các tác vụ này chuẩn bị và phân tích bộ dữ liệu để mô hình hóa. & NBSP;

Dưới đây là danh sách các câu hỏi thường gặp về các dự án khoa học dữ liệu ở Python.

Cách bắt đầu một dự án khoa học dữ liệu ở Python

Để bắt đầu một dự án khoa học dữ liệu, người ta cần chọn một chủ đề mà người ta thấy hấp dẫn và thú vị. Danh sách được đề cập ở trên là một điểm khởi đầu tốt. & NBSP;

Sau khi ý tưởng dự án đến thu thập dữ liệu và chuẩn hóa dữ liệu. Kaggle quản lý các bộ dữ liệu cho nhiều vấn đề khoa học dữ liệu và thậm chí một tìm kiếm đơn giản của Google cũng có thể mang lại bộ dữ liệu cho vấn đề. & NBSP;

Khi bộ dữ liệu đã sẵn sàng, chúng ta cần thực hiện phân tích dữ liệu khám phá để tìm các thành kiến ​​và mẫu trong tập dữ liệu. Nhận ra các xu hướng vốn có trong tập dữ liệu có thể tiết lộ các sự kiện và sắc thái thiết yếu có thể hữu ích trong nghiên cứu. & NBSP;

Tiếp theo, chúng ta có thể tiến hành phù hợp với mô hình bằng cách thử các thuật toán khác nhau để đạt được & nbsp;

Độ chính xác tối đa. & NBSP;

Dưới đây là nhiều dự án khoa học dữ liệu được giải quyết - Các dự án khoa học dữ liệu đã giải quyết. & NBSP;

Làm sạch dữ liệu trong một dự án khoa học dữ liệu là gì?

Dữ liệu làm sạch đang làm sạch bộ dữ liệu bằng cách xóa các giá trị null, ngoại lệ và điểm dữ liệu dự phòng. & NBSP;

Điều gì có nghĩa là bình thường hóa phạm vi và buộc tội?

Chuẩn hóa là quá trình chuyển đổi các giá trị dữ liệu số khác nhau thành một thang đo tiêu chuẩn. Một bộ dữ liệu thường chứa nhiều cột trong đó mỗi cột đại diện cho một tính năng. Các tính năng này có thể có phạm vi khác nhau và điều cần thiết là phải có thang đo tiêu chuẩn cho bộ dữ liệu hoàn chỉnh. & NBSP;

Cắt bỏ là kỹ thuật thay thế các giá trị bị thiếu trong bộ dữ liệu. Giá trị thay thế có thể là giá trị trung bình hoặc trung bình của tất cả các giá trị. & NBSP;

Dữ liệu đào tạo và thử nghiệm trong một dự án khoa học dữ liệu điển hình là gì?

Bộ dữ liệu trong một dự án được chia thành dữ liệu đào tạo và thử nghiệm. Đào tạo mô hình sử dụng dữ liệu đào tạo, trong khi dữ liệu thử nghiệm được sử dụng để kiểm tra độ chính xác của mô hình. Nói chung, 80% bộ dữ liệu được dành riêng để đào tạo. & NBSP;

Tại sao phân tích dữ liệu sơ bộ cần thiết trong một dự án khoa học dữ liệu? & NBSP;

Phân tích dữ liệu giúp trực quan hóa bộ dữ liệu và kiểm tra các sai lệch hoặc phụ thuộc lẫn nhau trong dữ liệu.

Khai thác tính năng có nghĩa là gì?

Khai thác tính năng làm giảm kích thước của dữ liệu để nó có thể được xử lý hiệu quả trong các vectơ nhỏ. Quá trình kết hợp hoặc chọn nhiều biến thành các tính năng dễ quản lý.

Mô hình phù hợp trong một dự án khoa học dữ liệu là gì? & NBSP;

Phù hợp mô hình xác định mức độ tốt của một mô hình có thể phù hợp với dữ liệu đào tạo. Nó kiểm tra độ chính xác của dự đoán bằng mô hình so với các giá trị đầu ra thực tế.

Tại sao HyperParameter điều chỉnh quan trọng trong một dự án khoa học dữ liệu?

Điều chỉnh siêu phân tích tìm thấy tập hợp các giá trị tối ưu cho các tham số tạo ra mô hình học tập tốt nhất.

Hướng dẫn python data analysis sample projects - dự án mẫu phân tích dữ liệu python

Một số dự án phân tích dữ liệu tốt là gì?

Phân tích dữ liệu Ý tưởng dự án..
Rút trích nội dung trang web. ....
Làm sạch dữ liệu. ....
Phân tích dữ liệu khám phá (EDA) ....
10 Bộ dữ liệu công cộng miễn phí cho EDA. ....
Phân tích tình cảm. ....
Trực quan hóa dữ liệu ..

Làm thế nào Python có thể được sử dụng để phân tích dữ liệu?

Một trong những cách sử dụng phổ biến nhất cho Python là khả năng tạo và quản lý các cấu trúc dữ liệu một cách nhanh chóng - ví dụ, Pandas cung cấp rất nhiều công cụ để thao tác, phân tích và thậm chí đại diện cho cấu trúc dữ liệu và bộ dữ liệu phức tạp.create and manage data structures quickly — Pandas, for instance, offers a plethora of tools to manipulate, analyze, and even represent data structures and complex datasets.

Các dự án tốt cho Python là gì?

Trong bài viết này, bạn sẽ tìm hiểu 42 ý tưởng & chủ đề dự án Python thú vị ...
Máy phát điện điên cuồng ..
Đoán số ..
Trò chơi phiêu lưu dựa trên văn bản ..
Xúc xắc Simulator ..
Hangman..
Sổ liên lạc..
Thuật toán tìm kiếm nhị phân ..
Ứng dụng thông báo máy tính để bàn ..

Làm thế nào để bạn thực hiện phân tích dữ liệu cho một dự án?

Dự án phân tích dữ liệu: Hướng dẫn từng bước..
Công nhận ngành công nghiệp ..
Có được thông tin của bạn ..
Kiểm tra và xóa dữ liệu không đúng ..
Tăng cường bộ dữ liệu ..
Để tạo ra hình ảnh sâu sắc ..
Dự đoán là chìa khóa để thành công ..
Tóm lại, lặp lại quá trình ..