Tesseract to bezpłatne narzędzie do rozpoznawania tekstu typu open source, znane również jako OCR (Optyczne rozpoznawanie znaków). Służy przede wszystkim do identyfikacji i wyodrębniania tekstu z obrazów. Odczyta tekst z danych obrazu i zapisze dane wyjściowe w nowym pliku .txt. Tesseract działa również pod Pythonem, ponieważ służy głównie do rozpoznawania pisma ręcznego z obrazów. Wykorzystuje model LSTR (długa pamięć krótkotrwała). Tesseract działa na licencji Apache 2.0.
W tym blogu omówimy metodę instalacji Tesseractu w systemie Windows.
Więc zacznijmy!
Jak zainstalować Tesseract w systemie Windows?
Tesseract to narzędzie wiersza poleceń, które służy do wyodrębniania tekstu z obrazów. Aby zainstalować Tesseract w systemie Windows, musisz postępować zgodnie z instrukcjami podanymi poniżej.
Krok 1: Pobierz instalator Tesseract
Najpierw przejdź do poniższego linku i pobierz instalator Tesseract zgodnie ze specyfikacją swojego systemu:
https: // github.com / UB-Mannheim / teserakt / tydzień
Krok 2: Uruchom instalator Tesseract
Odwiedzić ' Pliki do pobrania ” katalog, w którym pobierany jest instalator Tesseracta. Aby zainstalować Tesseract w systemie Windows, uruchom instalator Tesseract, klikając go dwukrotnie:
Krok 3: Wybierz język
Instalator Tesseracta obsługuje wiele języków. Aby wejść w interakcję z interfejsem instalatora, wybierz „ język angielski ” jako swój język i kliknij „ OK ”:
Krok 4: Zainstaluj Tesseract
Po wykonaniu tej czynności na ekranie pojawi się kreator konfiguracji Tesseract OCR. Aby rozpocząć instalację Tesseract, naciśnij „ Następny ' przycisk:
Aby zaakceptować „ Umowa licencyjna ', Kliknij ' Zgadzam się ' przycisk:
Wybierz ' Zainstaluj dla wszystkich osób korzystających z tego komputera ” i naciśnij przycisk „ Następny ' przycisk:
Jeśli chcesz dodać dane skryptu lub dołączyć inny język, zaznacz odpowiednie pola wyboru i naciśnij „ Następny ' przycisk. Ponieważ nie chcemy żadnych dodatkowych skryptów danych ani języka, będziemy kontynuować z domyślnymi wybranymi opcjami:
Wybierz miejsce instalacji i kliknij „ Następny ' przycisk:
Jeśli nie chcesz tworzyć skrótu w menu Start, zaznacz „ Nie twórz skrótów ” i naciśnij przycisk „ zainstalować ' przycisk:
Następnie rozpocznie się instalacja Tesseracta. Poczekaj, aż instalacja się zakończy i naciśnij „ Następny ' przycisk:
Na koniec kliknij „ Skończyć ' przycisk:
Krok 5: Ustaw zmienną środowiskową
Po instalacji musisz ustawić zmienną środowiskową Tesseractu. Aby to zrobić, najpierw odwiedź katalog, w którym zainstalowałeś Tesseract i skopiuj ścieżkę z „ Adres zamieszkania ' bar:
Wyszukaj „ Zmienne środowiska ' w ' Uruchomienie ” menu i otwórz “ Edytuj zmienne środowiskowe systemu ”:
W ustawieniach przejdź do „ Zaawansowany ” menu ustawień i kliknij na „ Zmienne środowiska ' przycisk:
Wybierz ' Ścieżka ” Zmienna od „ Zmienne systemowe ” i naciśnij „ Edytować ' przycisk:
Po tym ' Edytuj zmienną środowiskową Na ekranie pojawi się okno. Wciśnij ' Nowy ” i wklej skopiowaną ścieżkę katalogu instalacyjnego Tesseracta tutaj. Na koniec kliknij „ OK ' przycisk:
Krok 6: Sprawdź instalację Tesseract
Aby zweryfikować instalację Tesseract, otwórz wiersz polecenia systemu Windows, wyszukując „ Wiersz polecenia ' w ' Uruchomienie ' menu:
Sprawdź wersję Tesseracta za pomocą dostarczonego polecenia:
> teserakt --wersja
Podane poniżej dane wyjściowe wskazują, że pomyślnie zainstalowaliśmy wersję Tesseract „ v5.2.0 ” w systemie Windows:
Przejdźmy dalej, aby sprawdzić, jak korzystać z Tesseract w systemie Windows.
Jak korzystać z Tesseract w systemie Windows?
Tesseract służy do odczytywania pisma ręcznego lub wyodrębniania tekstu ze zdjęć. Zobaczmy, jak to działa:
Krok 1: Wybierz obraz
Wybierz obraz, z którego chcesz wyodrębnić tekst. Jak wybraliśmy” 1.png ”:
Krok 2: Wyodrębnij tekst z obrazu
Po otwarciu CMD. Wykorzystaj „ płyta CD ” polecenie, aby zmienić katalog, w którym przechowywany jest obraz. Następnie uruchom „ teserakt ” i zdefiniuj nazwę pliku obrazu, tak jak podaliśmy „ 1.png ”. „ Tekst ” parametr pokazy oznaczają nazwę pliku wyjściowego:
> płyta CD C:\Użytkownicy\anuma\OneDrive\Obrazy\Zapisane obrazy> teserakt 1 .png 'Tekst'
Krok 3: Sprawdź wyodrębnienie tekstu
Aby zweryfikować wyodrębnienie tekstu, przejdź do katalogu, w którym znajduje się plik obrazu. Widać, że plik wyjściowy „ Tekst ” jest również tutaj zapisany. Kliknij dwukrotnie plik wyjściowy, aby sprawdzić, czy tesseract wyodrębnił tekst z obrazu, czy nie:
Widać, że pomyślnie wyodrębniliśmy tekst za pomocą narzędzia wiersza poleceń Tesseract:
Zademonstrowaliśmy technikę instalowania i używania Tesseract w systemie Windows.
Wniosek
Aby zainstalować Tesseract w systemie Windows, należy pobrać instalator Tesseract. W tym celu wykonaj pierwszą sesję tego artykułu. Następnie ustaw zmienną środowiskową Path, aby używać i uzyskiwać dostęp do Tesseractu z wiersza polecenia systemu Windows. Następnie wybierz plik obrazu i użyj „ Teserakt ” polecenie, aby rozpoznać i wyodrębnić tekst z obrazu. Tutaj nauczyłeś się instalować, a także korzystać z „ Teserakt ” w oknach.