Bài tập môn khai phá dữ liệu là gì năm 2024

The Ground Penetrating Radar can be effectively applied in ground surface exploration geophysics. Underground anomalies are shown in the ground penetratingradar slices in the form of signals having similarity in amplitude and phase. Typically, each point-scattering object can be seen as a form of hyperbola. During the Ground Penetrating Radar measurement in an urban environment, the data including information of high frequency electromagnetic waveforms were easily affected by civil noise (human activities, etc.). Shielded antennas could help to eliminate mostly the civil noise, but processing and analysis of the data were still difficult because of attenuation of electromagnetic waves and wave energy dispersion during their propagation in the ground environment. Due to the field geometry condition, 2D profiles were conducted. In order to analyze and interpret data effectively, we processed each 2D profile separately and located all the 2D profiles into the 3D dimensional space for e...

Currently, there have been no publications of using unmanned aerial vehicles (drones) in mine management and supervision in Vietnam. Meanwhile, drones have been used in many fields worldwide, especially in exploitation management. Therefore, the purpose of this paper is to present the feasibility of applying unmanned aerial vehicles to the management of open-cast mines. The data of this research was collected from Ta Zon 2 quarry using Phantom 4 at two moments (October 2018 and February 2019). Through the methods of calibrating and processing images on specialized software, the authors obtained point cloud data sets and digital elevation models (DEM) of the mining area two times. In which, the point cloud is the key product of the research, this large and detailed data set helps to fully and accurately reproduce and process the DEM and 3D models of the mine area. Next, the authors compared and adjusted DEM of the mine area, resulting in fluctuations of the geological block in Ta Zon...

TÓM TẮT: Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quá trình khai phá dữ liệu và khám phá tri thức. Trong mấy năm gần đây, các nhà nghiên cứu đề xuất các phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ (Fuzzy Rough Set FRS) nhằm nâng cao độ chính xác mô hình phân lớp. Tuy nhiên, số lượng thuộc tính thu được theo tiếp cận FRS chưa tối ưu do ràng buộc giữa các đối tượng trong bảng quyết định chưa được xem xét đầy đủ. Trong bài báo này, chúng tôi đề xuất phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ trực cảm (Intuitionistic Fuzzy Rough Set IFRS) dựa trên các đề xuất mới về hàm thành viên và không thành viên. Kết quả thử nghiệm trên các bộ dữ liệu mẫu cho thấy, số lượng thuộc tính của tập rút gọn theo phương pháp đề xuất giảm đáng kể so với các phương pháp FRS và một số phương pháp IFRS khác.

Preparing soft skills for students has been being a matter of great concern to both society and the education industry. Soft skills are an essential factor for the success and happiness of each individual. Many decades ago, the weakness of soft skills of Vietnamese students have been warned by educational organizations, businesses and domestic and foreign experts. Although knowledge that is considered as a necessary condition during the learning process; it is still not a sufficient condition for students who want to get a desired job. Nowadays, soft skills training activities are quite popular in almost universities and it is one of requirements for student’s graduation. However, these training activities are different in each university. In this study, from the practical experience in training soft skills of other universities, the authors recommend some basic solutions for integrating soft skills into main subjects in the specialized knowledge teaching process.

Về cơ bản, Data Mining hay khai phá dữ liệu là việc xử lý, nhận biết các xu hướng từ các thông tin dữ liệu để có thể đưa ra quyết định hoặc đánh giá.

Thông thường, các bạn sẽ thấy có 6 kỹ thuật cốt lõi, được sử dụng nhiều trong việc khai phá dữ liệu. Sau đây, hãy cùng Viện ISB và ISB Insight tìm hiểu về 6 Kỹ thuật quan trọng trong khai phá dữ liệu và ví dụ thực tiễn của chúng nhé!

Bài tập môn khai phá dữ liệu là gì năm 2024

Các kỹ thuật quan trọng trong khai phá dữ liệu (Data Mining)

1. Kỹ thuật phân tích phân loại (Classification Analysis)

Kỹ thuật khai phá dữ liệu đầu tiên là kỹ thuật phân tích phân loại. Đây là kỹ thuật cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước.

Bạn có thể sử dụng kỹ thuật này để phân loại khách hàng, mặt hàng, v.v bằng cách mô tả nhiều thuộc tính để phân loại đối tượng vào một lớp cụ thể.

Chúng ta thường sử dụng kỹ thuật khai thác dữ liệu này để lấy các thông tin quan trọng từ dữ liệu và siêu dữ liệu. Vì vậy, trong phân tích phân loại, chúng ta cần áp dụng các thuật toán khác nhau tùy thuộc vào mục tiêu sử dụng.

Ví dụ, Email Outlook sử dụng các thuật toán nhất định để mô tả một email là hợp pháp hoặc spam. Hay các doanh nghiệp có thể áp dụng kỹ thuật này để phân loại khách hàng theo đối tượng hay độ tuổi.

2. Kỹ thuật Association Rule Learning

Kỹ thuật Association Rule Learning trong khai phá dữ liệu được sử dụng để xác định mối quan hệ giữa các biến khác nhau trong cơ sở dữ liệu. Ngoài ra, nó còn được sử dụng để “giải nén” các mẫu ẩn trong dữ liệu. Association Rule rất hữu ích để kiểm tra, dự đoán hành vi và thường được áp dụng trong ngành bán lẻ.

Thêm vào đó, các doanh nghiệp sử dụng kỹ thuật này để xác định hành vi mua sắm, phân tích dữ liệu trong giỏ hàng của khách hàng tiềm năng. Trong lĩnh vực Công nghệ Thông tin, các lập trình viên sử dụng kỹ thuật này để xây dựng các chương trình Machine Learning.

3. Kỹ thuật phát hiện bất thường (Anomaly or Outlier Detection)

Về cơ bản, kỹ thuật khai phá dữ liệu (Data Mining) này dùng để nhấn mạnh vào việc quan sát các mục dữ liệu trong bộ dữ liệu để tìm ra các tập dữ liệu không khớp với mẫu dự kiến. Bất thường ở đây có thể đề cập đến độ lệch, sự khác thường, các nhiễu và ngoại lệ.

Sự bất thường được xem là khá quan trọng vì nó có thể cung cấp một số thông tin cần thiết. Nó có thể là một dữ liệu khác biệt so với mức trung bình chung trong một tập dữ liệu. Điều này chỉ ra rằng một cái gì đó khác thường đã xảy ra và các nhà phân tích dữ liệu cần chú ý.

Kỹ thuật này có thể được sử dụng trong nhiều lĩnh vực khác nhau. Chẳng hạn như phát hiện xâm nhập hay theo dõi sức khỏe.

4. Kỹ thuật phân tích theo cụm (Clustering Analysis)

“Cụm” có nghĩa là một nhóm các đối tượng dữ liệu. Các đối tượng tương tự nhau thì sẽ nằm trong một cụm. Kết quả là các đối tượng tương tự nhau trong cùng một nhóm.

Về cơ bản, kỹ thuật khai phá dữ liệu này thường được ứng dụng để tạo hồ sơ khách hàng. Hoặc trong lĩnh vực Marketing, đây được xem là việc chia phân khúc khách hàng.

Bài tập môn khai phá dữ liệu là gì năm 2024

Kỹ thuật phân tích theo cụm là phân tích các kết quả tương tự nhau thành một nhóm

5. Kỹ thuật phân tích hồi quy (regression analysis)

Theo thuật ngữ thống kê, phân tích hồi quy được sử dụng để xác định và phân tích mối quan hệ giữa các biến. Nó giúp bạn hiểu giá trị đặc trưng của sự thay đổi ở các biến phụ thuộc.

6. Kỹ thuật dự báo (prediction)

Trong khai phá dữ liệu, kỹ thuật dự báo được ứng dụng ở một số trường hợp đặc biệt. Nó được sử dụng để khám phá mối quan hệ giữa các biến độc lập và phụ thuộc.

Chẳng hạn, bạn có thể sử dụng kỹ thuật dự báo cho việc bán hàng để dự đoán lợi nhuận cho tương lai. Giả sử, bán hàng là một biến độc lập, lợi nhuận có thể là một biến phụ thuộc. Khi đó, chúng ta có thể vẽ đường cong hồi quy để dự đoán lợi nhuận.

Các kỹ thuật khai phá dữ liệu khác

  • Kỹ thuật Sequential Patterns

Đây là một kỹ thuật quan trọng trong khai phá dữ liệu. Kỹ thuật này giúp tìm cách khám phá các mẫu tương tự.

Trong bán hàng, với dữ liệu lịch sử giao dịch, doanh nghiệp có thể xác định một nhóm các mặt hàng mà khách hàng thường mua với nhau tại các mốc thời gian khác nhau trong một năm. Tận dụng điều đó, các doanh nghiệp có thể sử dụng thông tin này để giới thiệu sản phẩm đến khách hàng và tạo ra nhiều lợi nhuận hơn.

  • Kỹ thuật Decision Trees

Decision Trees là một thuật ngữ rất quan trọng trong khai phá dữ liệu. Nó đóng một vai trò quan trọng trong quá trình khai phá dữ liệu bởi vì mô hình này rất dễ hiểu cho người dùng.

Trong kỹ thuật Decision Trees, gốc cây là một câu hỏi đơn giản có nhiều câu trả lời. Ngoài ra, mỗi câu hỏi dẫn đến bộ câu hỏi khác. Và nó sẽ giúp chúng ta xác định dữ liệu. Vì vậy, chúng ta có thể đưa ra quyết định cuối cùng nhờ vào kỹ thuật này.

Lời kết.

Dựa trên mục đích cuối cùng mà bạn có thể cân nhắc áp dụng các kỹ thuật khai phá dữ liệu trên một cách riêng lẻ hay kết hợp lại với nhau. Nếu bạn có bất kỳ thắc mắc gì đừng quên để lại lời nhắn nhé!