Quá trình xử lý ảnh hình thái cố gắng loại bỏ các điểm không hoàn hảo khỏi ảnh nhị phân vì các vùng nhị phân được tạo ra bằng cách tạo ngưỡng đơn giản có thể bị biến dạng do nhiễu. Nó cũng giúp làm mịn hình ảnh bằng các thao tác mở và đóng Show
Các hoạt động hình thái có thể được mở rộng cho các hình ảnh thang độ xám. Nó bao gồm các hoạt động phi tuyến tính liên quan đến cấu trúc của các tính năng của một hình ảnh. Nó phụ thuộc vào thứ tự pixel có liên quan mà còn phụ thuộc vào giá trị số của chúng. Kỹ thuật này phân tích một hình ảnh bằng cách sử dụng một mẫu nhỏ được gọi là phần tử cấu trúc được đặt trên các vị trí có thể khác nhau trong hình ảnh và được so sánh với các pixel lân cận tương ứng. Phần tử cấu trúc là một ma trận nhỏ có giá trị 0 và 1 Hãy cùng xem hai hoạt động cơ bản của xử lý hình ảnh hình thái học, Dilation và Erosion
Số lượng pixel bị xóa hoặc thêm vào ảnh gốc phụ thuộc vào kích thước của phần tử cấu trúc. Tại thời điểm này, bạn có thể đang nghĩ "yếu tố cấu trúc là gì?" Phần tử cấu trúc là một ma trận chỉ bao gồm các số 0 và 1 có thể có bất kỳ hình dạng và kích thước tùy ý. Nó được định vị ở tất cả các vị trí có thể có trong ảnh và nó được so sánh với vùng lân cận pixel tương ứng NguồnPhần tử cấu trúc hình vuông 'A' vừa với đối tượng chúng ta muốn chọn, 'B' cắt đối tượng và 'C' nằm ngoài đối tượng Mẫu không-một xác định cấu hình của phần tử cấu trúc. Đó là theo hình dạng của đối tượng mà chúng ta muốn chọn. Trung tâm của phần tử cấu trúc xác định pixel đang được xử lý Nguồnsự giãn nở. NguồnXói mòn. Nguồn2. Xử lý ảnh GaussianĐộ mờ Gaussian còn được gọi là làm mịn gaussian, là kết quả của việc làm mờ hình ảnh bằng hàm Gaussian Nó được sử dụng để giảm nhiễu hình ảnh và giảm chi tiết. Hiệu ứng hình ảnh của kỹ thuật làm mờ này tương tự như nhìn một hình ảnh qua màn hình mờ. Đôi khi nó được sử dụng trong thị giác máy tính để nâng cao hình ảnh ở các tỷ lệ khác nhau hoặc như một kỹ thuật tăng cường dữ liệu trong học sâu Hàm gaussian cơ bản trông giống như Trong thực tế, tốt nhất là tận dụng đặc tính có thể tách rời của Gaussian blur bằng cách chia quá trình thành hai lần. Trong lần đầu tiên, hạt nhân một chiều được sử dụng để làm mờ hình ảnh chỉ theo hướng ngang hoặc dọc. Trong lần thứ hai, cùng một hạt nhân một chiều được sử dụng để làm mờ theo hướng còn lại. Hiệu ứng thu được giống như kết hợp với nhân hai chiều trong một lần chạy. Hãy xem một ví dụ để hiểu bộ lọc gaussian làm gì với hình ảnh Nếu chúng ta có một bộ lọc được phân phối bình thường và khi nó được áp dụng cho một hình ảnh, kết quả sẽ như thế này Nguyên bản Lọc Kết quả Nguồn Bạn có thể thấy rằng một số cạnh có ít chi tiết hơn. Bộ lọc mang lại nhiều trọng lượng hơn cho các pixel ở trung tâm so với các pixel ở xa trung tâm. Bộ lọc Gaussian là bộ lọc thông thấp i. e. làm suy yếu tần số cao. Nó thường được sử dụng trong phát hiện cạnh 3. Biến đổi Fourier trong xử lý ảnhBiến đổi Fourier chia ảnh thành các thành phần sin và cosin. Nó có nhiều ứng dụng như tái tạo hình ảnh, nén hình ảnh hoặc lọc hình ảnh. Vì chúng ta đang nói về hình ảnh, chúng ta sẽ xem xét biến đổi Fourier rời rạc Hãy xem xét một hình sin, nó bao gồm ba thứ
Hình ảnh trong miền tần số trông như thế này NguồnCông thức cho phép biến đổi phạm vi rời rạc 2D là Trong công thức trên, f(x,y) là ảnh Biến đổi phạm vi nghịch đảo chuyển đổi biến đổi trở lại hình ảnh. Công thức cho phép biến đổi phạm vi rời rạc 2D nghịch đảo là 4. Phát hiện cạnh trong xử lý ảnhPhát hiện cạnh là một kỹ thuật xử lý ảnh để tìm ranh giới của các đối tượng trong ảnh. Nó hoạt động bằng cách phát hiện sự gián đoạn về độ sáng Điều này có thể rất có lợi trong việc trích xuất thông tin hữu ích từ hình ảnh vì hầu hết thông tin hình dạng được đặt trong các cạnh. Các phương pháp phát hiện cạnh cổ điển hoạt động bằng cách phát hiện sự gián đoạn về độ sáng. Nó có thể nhanh chóng phản ứng nếu một số nhiễu được phát hiện trong hình ảnh trong khi phát hiện các biến thể của mức xám. Các cạnh được định nghĩa là cực đại cục bộ của gradient. Thuật toán phát hiện cạnh phổ biến nhất là thuật toán phát hiện cạnh sobel. Toán tử phát hiện Sobel được tạo thành từ các hạt tích chập 3*3. Một hạt nhân đơn giản Gx và một hạt nhân xoay 90 độ Gy. Các phép đo riêng biệt được thực hiện bằng cách áp dụng riêng cả hạt nhân cho hình ảnh Và, * biểu thị hoạt động tích chập xử lý tín hiệu 2D Độ dốc kết quả có thể được tính như Nguồn5. Xử lý ảnh WaveletChúng tôi đã thấy một biến đổi Fourier nhưng nó chỉ giới hạn ở tần số. Wavelet xem xét cả thời gian và tần số. Biến đổi này phù hợp với các tín hiệu không cố định. Chúng tôi biết rằng các cạnh là một trong những phần quan trọng của hình ảnh, trong khi áp dụng các bộ lọc truyền thống, chúng tôi nhận thấy rằng nhiễu được loại bỏ nhưng hình ảnh bị mờ. Biến đổi wavelet được thiết kế sao cho chúng ta có được độ phân giải tần số tốt cho các thành phần tần số thấp. Dưới đây là ví dụ biến đổi wavelet 2D NguồnXử lý hình ảnh bằng Mạng thần kinhMạng thần kinh là mạng nhiều lớp bao gồm các nơ-ron hoặc nút. Những nơ-ron này là đơn vị xử lý cốt lõi của mạng nơ-ron. Chúng được thiết kế để hoạt động như bộ não con người. Họ lấy dữ liệu, rèn luyện bản thân để nhận ra các mẫu trong dữ liệu và sau đó dự đoán đầu ra Một mạng lưới thần kinh cơ bản có ba lớp
Các lớp đầu vào nhận đầu vào, lớp đầu ra dự đoán đầu ra và các lớp ẩn thực hiện hầu hết các phép tính. Số lượng các lớp ẩn có thể được sửa đổi theo yêu cầu. Nên có ít nhất một lớp ẩn trong mạng thần kinh Hoạt động cơ bản của mạng nơ-ron như sau
Trong hình ảnh bên dưới, ai là tập hợp các đầu vào, wi là trọng số, z là đầu ra và g là bất kỳ chức năng kích hoạt nào Hoạt động trong một nơ-ron duy nhất. NguồnDưới đây là một số hướng dẫn chuẩn bị dữ liệu để xử lý ảnh.
Các loại mạng thần kinhMạng thần kinh tích chậpMạng thần kinh tích chập, nói ngắn gọn là ConvNets có ba lớp
CNN chủ yếu được sử dụng trong việc trích xuất các tính năng từ hình ảnh với sự trợ giúp của các lớp của nó. CNN được sử dụng rộng rãi trong phân loại hình ảnh trong đó mỗi hình ảnh đầu vào được chuyển qua một loạt các lớp để nhận giá trị xác suất trong khoảng từ 0 đến 1 NguồnMạng đối thủ tạoCác mô hình tổng quát sử dụng phương pháp học tập không giám sát (có hình ảnh nhưng không có nhãn được cung cấp). GAN bao gồm hai mô hình Generator và Discriminator. Trình tạo học cách tạo hình ảnh giả trông như thật để đánh lừa người phân biệt đối xử và Người phân biệt học cách phân biệt hình ảnh giả với hình ảnh thật (nó cố gắng không để bị lừa). Trình tạo không được phép xem hình ảnh thật, do đó, nó có thể tạo ra kết quả kém trong giai đoạn bắt đầu trong khi bộ phân biệt được phép xem hình ảnh thật nhưng chúng bị lẫn lộn với những hình ảnh giả do trình tạo tạo ra mà nó phải phân loại là thật hay giả. . Một số nhiễu được cung cấp làm đầu vào cho trình tạo để nó có thể tạo ra các ví dụ khác nhau mỗi lần và không phải cùng một loại hình ảnh. Dựa trên điểm số được dự đoán bởi bộ phân biệt, bộ tạo sẽ cố gắng cải thiện kết quả của nó, sau một thời điểm nhất định, bộ tạo sẽ có thể tạo ra những hình ảnh khó phân biệt hơn, tại thời điểm đó, người dùng sẽ hài lòng với . Discriminator cũng tự cải thiện khi ngày càng có nhiều hình ảnh chân thực hơn ở mỗi vòng từ trình tạo Các loại GAN phổ biến là Deep Convolutional GAN (DCGAN), GAN có điều kiện (cGAN), StyleGAN, CycleGAN, DiscoGAN, GauGAN, v.v. GAN rất tốt cho việc tạo và thao tác hình ảnh. Một số ứng dụng của GAN bao gồm. Lão hóa khuôn mặt, Trộn ảnh, Siêu phân giải, Inpainting ảnh, Dịch quần áo. NguồnCông cụ xử lý ảnh1. OpenCVNó là viết tắt của Open Source Computer Vision Library. Thư viện này bao gồm khoảng hơn 2000 thuật toán được tối ưu hóa hữu ích cho thị giác máy tính và học máy. Có một số cách bạn có thể sử dụng opencv trong xử lý ảnh, một số cách được liệt kê bên dưới
Tham khảo liên kết này để biết thêm chi tiết 2. Scikit-hình ảnhNó là một thư viện nguồn mở được sử dụng để xử lý trước hình ảnh. Nó sử dụng máy học với các chức năng tích hợp và có thể thực hiện các thao tác phức tạp trên hình ảnh chỉ với một vài chức năng. Nó hoạt động với các mảng có nhiều mảng và là một thư viện khá đơn giản ngay cả đối với những người mới làm quen với python. Một số thao tác có thể được thực hiện bằng cách sử dụng hình ảnh scikit là
3. PIL/gốiPIL là viết tắt của Thư viện hình ảnh Python và Gối là ngã ba PIL thân thiện của Alex Clark và Người đóng góp. Đó là một trong những thư viện mạnh mẽ. Nó hỗ trợ nhiều định dạng hình ảnh như PPM, JPEG, TIFF, GIF, PNG và BMP. Nó có thể giúp bạn thực hiện một số thao tác trên hình ảnh như xoay, thay đổi kích thước, cắt xén, thang độ xám, v.v. Hãy xem qua một số thao tác đó Để thực hiện các thao tác thao tác, có một mô-đun trong thư viện này có tên là Hình ảnh.
Đọc thêmHướng dẫn hình ảnh Essential Pil (Gối) (dành cho người học máy) 4. NumPyVới thư viện này, bạn cũng có thể thực hiện các kỹ thuật hình ảnh đơn giản, chẳng hạn như lật hình ảnh, trích xuất các tính năng và phân tích chúng. Hình ảnh có thể được biểu diễn bằng các mảng đa chiều có nhiều khối và do đó, kiểu của chúng là NdArrays. Một hình ảnh màu là một mảng numpy với 3 chiều. Bằng cách cắt mảng đa chiều, các kênh RGB có thể được tách ra. Dưới đây là một số thao tác có thể được thực hiện bằng NumPy trên hình ảnh (hình ảnh được tải trong một biến có tên test_img bằng imread)
|