Hướng dẫn tesseract-ocr php - tesseract-ocr php

Hướng dẫn tesseract-ocr php - tesseract-ocr php

Show

Nội phân chính

  • Tesseract OCR cho PHP
  • Cài đặt
  • Lưu ý cho người dùng Windows
  • Lưu ý cho người dùng MacOS
  • Cách sử dụng cơ bản
  • Những ngôn ngữ khác
  • Đa ngôn ngữ
  • Tạo ra sự công nhận
  • Phá vỡ Captchas
  • Ngon ngu co san
  • Tessdatadir
  • Người dùng
  • SetOutputFile
  • mà không cần
  • Sự lựa chọn khác
  • Thread-limit
  • Nhận trợ giúp ở đâu
  • Làm thế nào để đóng góp
  • Việc sử dụng Tesseract OCR là gì?
  • Làm thế nào để bạn sử dụng Tesseract OCR trong Laravel?
  • Làm cách nào để sử dụng tesseract để đọc văn bản từ một hình ảnh?
  • Tesseract có tốt cho OCR không?

Tesseract OCR cho PHP

Một trình bao bọc để làm việc với Tesseract OCR bên trong PHP.

Cài đặt

Thông qua nhà soạn nhạc:

$ composer require thiagoalessio/tesseract_ocr

Thư viện này phụ thuộc vào Tesseract OCR, phiên bản 3.02 trở lên.This library depends on Tesseract OCR, version 3.02 or later.


Lưu ý cho người dùng Windows

Lưu ý cho người dùng MacOS

choco install capture2text --version 3.9

Cách sử dụng cơ bản


Lưu ý cho người dùng MacOS

Cách sử dụng cơ bản

$ sudo port install tesseract-<langcode>

Những ngôn ngữ khácEnglish support by default, so if you intend to use it for other language, the quickest solution is to install them all:

Đa ngôn ngữ

Usage

Cách sử dụng cơ bản

Những ngôn ngữ khác

Other languages

Đa ngôn ngữ

Multiple languages

Tạo ra sự công nhận

Inducing recognition

Phá vỡ Captchas

Breaking CAPTCHAs

Ngon ngu co san

Tessdatadir

Người dùng

SetOutputFile

mà không cần

$ocr = new TesseractOCR();
$ocr->run();
choco install capture2text --version 3.9
0

Sự lựa chọn khác

Nhận trợ giúp ở đâu

choco install capture2text --version 3.9
1

Làm thế nào để đóng góp

Việc sử dụng Tesseract OCR là gì?

choco install capture2text --version 3.9
2

Làm thế nào để bạn sử dụng Tesseract OCR trong Laravel?

Làm cách nào để sử dụng tesseract để đọc văn bản từ một hình ảnh?

choco install capture2text --version 3.9
3

Tesseract có tốt cho OCR không?

Một trình bao bọc để làm việc với Tesseract OCR bên trong PHP.

choco install capture2text --version 3.9
4

Ngon ngu co san

Tessdatadir

choco install capture2text --version 3.9
5

Người dùng https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages-and-scripts

Tessdatadir

Người dùng

choco install capture2text --version 3.9
6

SetOutputFile

mà không cần

Sự lựa chọn khác

Nhận trợ giúp ở đâu

choco install capture2text --version 3.9
7
choco install capture2text --version 3.9
8

Người dùng

SetOutputFile

mà không cần

choco install capture2text --version 3.9
9
$ sudo port install tesseract-<langcode>
0

Sự lựa chọn khác

Nhận trợ giúp ở đâu

Làm thế nào để đóng góp Use the combination

use thiagoalessio\TesseractOCR\TesseractOCR;
echo (new TesseractOCR('text.png'))
    ->run();
8 for proper recognition of Chinese.

$ sudo port install tesseract-<langcode>
1

Việc sử dụng Tesseract OCR là gì?

Làm thế nào để bạn sử dụng Tesseract OCR trong Laravel?

Làm cách nào để sử dụng tesseract để đọc văn bản từ một hình ảnh? https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#page-segmentation-method

$ sudo port install tesseract-<langcode>
2

Tesseract có tốt cho OCR không?

Một trình bao bọc để làm việc với Tesseract OCR bên trong PHP.

$ sudo port install tesseract-<langcode>
3

Thông qua nhà soạn nhạc:

Thư viện này phụ thuộc vào Tesseract OCR, phiên bản 3.02 trở lên.

$ sudo port install tesseract-<langcode>
4

Có nhiều cách để cài đặt Tesseract OCR trên hệ thống của bạn, nhưng nếu bạn chỉ muốn một cái gì đó nhanh chóng đứng dậy, tôi khuyên bạn nên cài đặt gói Capture2Text với sô cô la.

Các phiên bản gần đây của Capture2Text đã ngừng vận chuyển nhị phân

$ brew install tesseract tesseract-lang
9.

$ sudo port install tesseract-<langcode>
5

Với MacPorts, bạn có thể cài đặt hỗ trợ cho các ngôn ngữ riêng lẻ, như SO:

Nhưng điều đó là không thể với homebrew. Nó chỉ đi kèm với hỗ trợ tiếng Anh theo mặc định, vì vậy nếu bạn dự định sử dụng nó cho ngôn ngữ khác, giải pháp nhanh nhất là cài đặt tất cả:

$ sudo port install tesseract-<langcode>
6

$ brew install tesseract tesseract-lang sử dụng

use thiagoalessio\TesseractOCR\TesseractOCR;
echo (new TesseractOCR('text.png'))
    ->run();
The quick brown fox
jumps over
the lazy dog.
Các ngôn ngữ khác

use thiagoalessio\TesseractOCR\TesseractOCR;
echo (new TesseractOCR('german.png'))
    ->lang('deu')
    ->run();
nhiều ngôn ngữ

$ sudo port install tesseract-<langcode>
7

use thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('mixed-languages.png')) ->lang('eng', 'jpn', 'spa') ->run(); Công nhận

use thiagoalessio\TesseractOCR\TesseractOCR;
echo (new TesseractOCR('8055.png'))
    ->allowlist(range('A', 'Z'))
    ->run();
Breaking Captchas

$ sudo port install tesseract-<langcode>
8

Có, tôi biết một số bạn có thể muốn sử dụng thư viện này cho mục đích cao quý là phá vỡ các captchas, vì vậy hãy xem nhận xét này:

#91 (bình luận)

$ sudo port install tesseract-<langcode>
9

API

chạy

$ brew install tesseract tesseract-lang
0

Thực thi lệnh $ brew install tesseract tesseract-lang 9, tùy chọn nhận số nguyên là use thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('text.png')) ->run();1, trong trường hợp bạn trải nghiệm các quy trình Tesseract bị đình trệ.

hình ảnh

$ brew install tesseract tesseract-lang
1

Xác định đường dẫn của một hình ảnh được nhận ra bởi $ brew install tesseract tesseract-lang 9.

Hình ảnh

$ brew install tesseract tesseract-lang
2

Đặt hình ảnh được nhận dạng bởi $ brew install tesseract tesseract-lang 9 từ một chuỗi, với kích thước của nó. Điều này có thể hữu ích khi xử lý các tệp đã được tải trong bộ nhớ. Bạn có thể dễ dàng truy xuất dữ liệu hình ảnh và kích thước của một đối tượng hình ảnh:

thực thi

$ brew install tesseract tesseract-lang
3

Xác định một vị trí tùy chỉnh của $ brew install tesseract tesseract-lang 9 thực thi, nếu vì bất kỳ lý do gì nó không có trong use thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('text.png')) ->run();5.

phiên bản

$ brew install tesseract tesseract-lang
4

mà không cần

Chỉ định rằng

$ brew install tesseract tesseract-lang
9 nên xuất văn bản được công nhận mà không cần ghi vào các tệp tạm thời. Thay vào đó, dữ liệu được thu thập từ đầu ra tiêu chuẩn của
$ brew install tesseract tesseract-lang
9.

$ brew install tesseract tesseract-lang
5

Sự lựa chọn khác

Bất kỳ tùy chọn cấu hình nào được cung cấp bởi Tesseract có thể được sử dụng như thế:

$ brew install tesseract tesseract-lang
6

Hoặc như vậy:

$ brew install tesseract tesseract-lang
7

Thông tin thêm: https://github.com/tesseract-oc/tesseract/wiki/controlparams https://github.com/tesseract-ocr/tesseract/wiki/ControlParams

Thread-limit

Đôi khi, có thể hữu ích để giới hạn số lượng luồng mà Tesseract được phép sử dụng (ví dụ: trong trường hợp này). Đặt số lượng chủ đề maxmium làm tham số cho hàm

use thiagoalessio\TesseractOCR\TesseractOCR;
echo (new TesseractOCR('german.png'))
    ->lang('deu')
    ->run();
7:

$ brew install tesseract tesseract-lang
8

Nhận trợ giúp ở đâu

Tham gia trò chuyện trên Gitter.

Làm thế nào để đóng góp

Bạn có thể đóng góp cho dự án này bằng cách:

  • Giúp người dùng mới trên Gitter;
  • Mở một vấn đề nếu bạn tìm thấy một lỗi hoặc muốn đề xuất một tính năng mới;
  • Đặt yêu cầu kéo bằng mã sửa lỗi, thiếu/sai tài liệu hoặc thực hiện một tính năng mới;

Chỉ cần chắc chắn rằng bạn xem xét quy tắc ứng xử và hướng dẫn đóng góp của chúng tôi.

Giấy phép

Tesseract-onr-for-php được phát hành theo giấy phép MIT.

Được thực hiện với ở Berlin

Tesseract là một công cụ nhận dạng văn bản nguồn mở (OCR), có sẵn theo giấy phép Apache 2.0. Nó có thể được sử dụng trực tiếp hoặc (cho các lập trình viên) bằng cách sử dụng API để trích xuất văn bản in từ hình ảnh. Nó hỗ trợ nhiều ngôn ngữ khác nhau.It can be used directly, or (for programmers) using an API to extract printed text from images. It supports a wide variety of languages.

ROUTE :: get ('/test', function () {$ tesseract = new TesserActoc (tài sản ('hình ảnh/myImage.jpg')); Trong đó hình ảnh myimage. JPG tồn tại bên trong một thư mục được gọi là hình ảnh bên trong thư mục công khai. jpg')); echo $tesseract->recognize(); }); Where the image myimage. jpg exists inside a folder called images inside the public folder.

Tạo tập lệnh Python Tesseract Tạo một thư mục dự án và thêm một tệp Main.py mới bên trong thư mục đó. Khi ứng dụng cung cấp quyền truy cập vào các tệp PDF, nội dung của nó sẽ được trích xuất dưới dạng hình ảnh. Những hình ảnh này sau đó sẽ được xử lý để trích xuất văn bản. Create a project folder and add a new main.py file inside that folder. Once the application gives access to PDF files, its content will be extracted in the form of images. These images will then be processed to extract the text.

Mặc dù Tesseract được gọi là một trong những động cơ OCR miễn phí chính xác nhất hiện nay, nhưng nó có rất nhiều hạn chế ảnh hưởng đáng kể đến hiệu suất của nó; Khả năng nhận dạng chính xác các ký tự trong quét hoặc hình ảnh.one of the most accurate free OCR engines available today, it has numerous limitations that dramatically affect its performance; its ability to correctly recognize characters in a scan or image.