Show
Nội phân chính
Tesseract OCR cho PHPMột trình bao bọc để làm việc với Tesseract OCR bên trong PHP. Cài đặtThông qua nhà soạn nhạc:
Thư viện này phụ thuộc vào Tesseract OCR, phiên bản 3.02 trở lên.This library depends on Tesseract OCR, version 3.02 or later. Lưu ý cho người dùng WindowsLưu ý cho người dùng MacOS
Cách sử dụng cơ bản Lưu ý cho người dùng MacOSCách sử dụng cơ bản
Những ngôn ngữ khácEnglish support by default, so if you intend to use it for other language, the quickest solution is to install them all: Đa ngôn ngữUsageCách sử dụng cơ bảnNhững ngôn ngữ khácOther languagesĐa ngôn ngữMultiple languagesTạo ra sự công nhậnInducing recognitionPhá vỡ CaptchasBreaking CAPTCHAsNgon ngu co san Tessdatadir Người dùngSetOutputFilemà không cần $ocr = new TesseractOCR(); $ocr->run(); 0Sự lựa chọn khácNhận trợ giúp ở đâu 1Làm thế nào để đóng gópViệc sử dụng Tesseract OCR là gì? 2Làm thế nào để bạn sử dụng Tesseract OCR trong Laravel?Làm cách nào để sử dụng tesseract để đọc văn bản từ một hình ảnh? 3Tesseract có tốt cho OCR không?Một trình bao bọc để làm việc với Tesseract OCR bên trong PHP. 4Ngon ngu co sanTessdatadir 5Người dùng https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages-and-scripts TessdatadirNgười dùng 6SetOutputFilemà không cần Sự lựa chọn khác Nhận trợ giúp ở đâu 7 8Người dùngSetOutputFile mà không cần 9 0Sự lựa chọn khácNhận trợ giúp ở đâu Làm thế nào để đóng góp Use the combination use thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('text.png')) ->run();8 for proper recognition of Chinese. 1Việc sử dụng Tesseract OCR là gì?Làm thế nào để bạn sử dụng Tesseract OCR trong Laravel? Làm cách nào để sử dụng tesseract để đọc văn bản từ một hình ảnh? https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#page-segmentation-method 2Tesseract có tốt cho OCR không?Một trình bao bọc để làm việc với Tesseract OCR bên trong PHP. 3Thông qua nhà soạn nhạc:Thư viện này phụ thuộc vào Tesseract OCR, phiên bản 3.02 trở lên. 4Có nhiều cách để cài đặt Tesseract OCR trên hệ thống của bạn, nhưng nếu bạn chỉ muốn một cái gì đó nhanh chóng đứng dậy, tôi khuyên bạn nên cài đặt gói Capture2Text với sô cô la.Các phiên bản gần đây của Capture2Text đã ngừng vận chuyển nhị phân 9. 5Với MacPorts, bạn có thể cài đặt hỗ trợ cho các ngôn ngữ riêng lẻ, như SO:Nhưng điều đó là không thể với homebrew. Nó chỉ đi kèm với hỗ trợ tiếng Anh theo mặc định, vì vậy nếu bạn dự định sử dụng nó cho ngôn ngữ khác, giải pháp nhanh nhất là cài đặt tất cả: 6$ brew install tesseract tesseract-lang sử dụnguse thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('text.png')) ->run(); Các ngôn ngữ khácuse thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('german.png')) ->lang('deu') ->run();nhiều ngôn ngữ 7use thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('mixed-languages.png')) ->lang('eng', 'jpn', 'spa') ->run(); Công nhậnuse thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('8055.png')) ->allowlist(range('A', 'Z')) ->run();Breaking Captchas 8Có, tôi biết một số bạn có thể muốn sử dụng thư viện này cho mục đích cao quý là phá vỡ các captchas, vì vậy hãy xem nhận xét này:#91 (bình luận) 9APIchạy 0Thực thi lệnh $ brew install tesseract tesseract-lang 9, tùy chọn nhận số nguyên là use thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('text.png')) ->run();1, trong trường hợp bạn trải nghiệm các quy trình Tesseract bị đình trệ.hình ảnh 1Xác định đường dẫn của một hình ảnh được nhận ra bởi $ brew install tesseract tesseract-lang 9.Hình ảnh 2Đặt hình ảnh được nhận dạng bởi $ brew install tesseract tesseract-lang 9 từ một chuỗi, với kích thước của nó. Điều này có thể hữu ích khi xử lý các tệp đã được tải trong bộ nhớ. Bạn có thể dễ dàng truy xuất dữ liệu hình ảnh và kích thước của một đối tượng hình ảnh:thực thi 3Xác định một vị trí tùy chỉnh của $ brew install tesseract tesseract-lang 9 thực thi, nếu vì bất kỳ lý do gì nó không có trong use thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('text.png')) ->run();5.phiên bản 4mà không cầnChỉ định rằng 9 nên xuất văn bản được công nhận mà không cần ghi vào các tệp tạm thời. Thay vào đó, dữ liệu được thu thập từ đầu ra tiêu chuẩn của 9. 5Sự lựa chọn khácBất kỳ tùy chọn cấu hình nào được cung cấp bởi Tesseract có thể được sử dụng như thế: 6Hoặc như vậy: 7Thông tin thêm: https://github.com/tesseract-oc/tesseract/wiki/controlparams https://github.com/tesseract-ocr/tesseract/wiki/ControlParams Thread-limitĐôi khi, có thể hữu ích để giới hạn số lượng luồng mà Tesseract được phép sử dụng (ví dụ: trong trường hợp này). Đặt số lượng chủ đề maxmium làm tham số cho hàm use thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('german.png')) ->lang('deu') ->run();7: 8Nhận trợ giúp ở đâuTham gia trò chuyện trên Gitter. Làm thế nào để đóng gópBạn có thể đóng góp cho dự án này bằng cách:
Chỉ cần chắc chắn rằng bạn xem xét quy tắc ứng xử và hướng dẫn đóng góp của chúng tôi. Giấy phépTesseract-onr-for-php được phát hành theo giấy phép MIT. Được thực hiện với ở Berlin Tesseract là một công cụ nhận dạng văn bản nguồn mở (OCR), có sẵn theo giấy phép Apache 2.0. Nó có thể được sử dụng trực tiếp hoặc (cho các lập trình viên) bằng cách sử dụng API để trích xuất văn bản in từ hình ảnh. Nó hỗ trợ nhiều ngôn ngữ khác nhau.It can be used directly, or (for programmers) using an API to extract printed text from images. It supports a wide variety of languages. ROUTE :: get ('/test', function () {$ tesseract = new TesserActoc (tài sản ('hình ảnh/myImage.jpg')); Trong đó hình ảnh myimage. JPG tồn tại bên trong một thư mục được gọi là hình ảnh bên trong thư mục công khai. jpg')); echo $tesseract->recognize(); }); Where the image myimage. jpg exists inside a folder called images inside the public folder. Tạo tập lệnh Python Tesseract Tạo một thư mục dự án và thêm một tệp Main.py mới bên trong thư mục đó. Khi ứng dụng cung cấp quyền truy cập vào các tệp PDF, nội dung của nó sẽ được trích xuất dưới dạng hình ảnh. Những hình ảnh này sau đó sẽ được xử lý để trích xuất văn bản. Create a project folder and add a new main.py file inside that folder. Once the application gives access to PDF files, its content will be extracted in the form of images. These images will then be processed to extract the text. Mặc dù Tesseract được gọi là một trong những động cơ OCR miễn phí chính xác nhất hiện nay, nhưng nó có rất nhiều hạn chế ảnh hưởng đáng kể đến hiệu suất của nó; Khả năng nhận dạng chính xác các ký tự trong quét hoặc hình ảnh.one of the most accurate free OCR engines available today, it has numerous limitations that dramatically affect its performance; its ability to correctly recognize characters in a scan or image. |