OCR

Hur man kör tesseract på GIF-fil i Linux

Hur man kör tesseract på GIF-fil i Linux
Tesseract är ett OCR-system (Optical Character Recognition), bland de bästa. OCR-programvara kan förstå text från bilder och skannade dokument (inklusive handskrift om du tränar den). Ett OCR-system kan vara användbart för många uppgifter som ordräkning av skannade dokument, automatisk transkription, teckenkonvertering från bild till text och mer.

LinuxHint har redan publicerat en handledning som förklarar hur man installerar och förstår Tesseracts utbildning.

Denna handledning visar Tesseracts installationsprocess i Debian / Ubuntu-system men utvidgas inte med träningsfunktioner, om du inte är bekant med den här programvaran kan det vara en bra introduktion att läsa den nämnda artikeln.  Sedan visar vi dig hur du bearbetar en GIF-bild med Tesseract för att få ut texten ur den.

Tesseract-installation:

Springa:

apt install tesseract-ocr

Nu måste du installera imagemagick som är en bildkonverterare.

När vi väl har installerat kan vi redan testa Tesseract, för att testa det hittade jag en gif licensierad för återanvändning.

Låt oss nu se vad som händer när vi kör tesseract på gif-bilden:

tesseract 2002NY40.gif 1resultat

Gör nu ett "mindre" på 1resultat.Text

mindre 1resultat.Text

Här är bilden med text:

I denna Tesseracts standardinställningar är ganska exakta, vanligtvis för att få en sådan noggrannhet krävs det träning. Låt oss prova en annan gratis bild som jag hittade på Wiki Commons efter att ha laddat ner den:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2resultat

Kontrollera nu filens innehåll.

mindre 2resultat.Text


Det var resultatet medan originalbildens innehåll var:

För att förbättra karaktärsigenkänningen har vi många alternativ och steg att följa som beskrivs i vår tidigare handledning: kantborttagning, brusborttagning, storleksoptimering och sidrotation bland andra funktioner som beskärning.

För denna handledning använder vi textcleaner, ett manus utvecklat av Freds ImageMagick Scripts.

Ladda ner skriptet och kör:

./ textcleaner -g -e stretch -f 25 -o 10 -s 1
Actualizar_GNULinux_Terminal_apt-get.gif-test.gif

Notera: innan du kör skriptet ge det körningstillstånd genom att köra “chmod + x textrengöring”Som rot eller med sudo prefix.

Var:

textrengöring: ringer programmet

-g: Konvertera bilden till gråskala

-e: enache

-f: filterstorlek

-s: sharpamt, mängden pixelslipning som ska appliceras på resultatet.

För information och exempel på användning med textcleaner, besök http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php

Som du ser textcleaner ändrade bakgrundsfärgen, vilket ökar kontrasten mellan teckensnittet och bakgrunden.

Om vi ​​kör tesseract kommer troligen resultatet att bli annorlunda:

tesseract-test.gif testoutput

mindre testutgång

Som du ser blev resultatet verkligen bättre även när det inte är helt korrekt.

Kommandot konvertera tillhandahålls av imagemagick tillåter oss att extrahera ramar från gif-bilder som ska bearbetas senare av Tesseract, detta är användbart om det finns extra innehåll i olika ramar av gif-bilden.

Syntaksen är enkel:

konvertera

Resultatet genereras som antal filer som ramar i gifen, i det angivna exemplet skulle resultaten vara: utgång-0.jpg, utgång-1.jpg, utgång-2.jpg, etc.

Sedan kan du bearbeta dem med tesseract och instruera den att bearbeta alla filer med ett jokertecken och spara resultatet i en enda fil genom att köra:

för i i utgång- *; gör tesseract $ i outputresultat; Gjort;

Imagemagick har ett stort utbud av alternativ för att optimera bilder och det finns inte ett generiskt läge, för varje typ av scenario bör du läsa konverterings kommandosida.

Jag hoppas att du tyckte att den här guiden om Tesseract var användbar.

HD Remastered Games för Linux som aldrig tidigare hade en Linux-version
Många spelutvecklare och utgivare kommer med HD-remaster av gamla spel för att förlänga livstiden för franchisen, snälla fans som begär kompatibilitet...
Hur man använder AutoKey för att automatisera Linux-spel
AutoKey är ett verktyg för desktopautomatisering för Linux och X11, programmerat i Python 3, GTK och Qt. Med hjälp av dess skript och MACRO-funktional...
Hur man visar FPS-räknare i Linux-spel
Linux-spel fick ett stort tryck när Valve tillkännagav Linux-stöd för Steam-klient och deras spel 2012. Sedan dess har många AAA- och indiespel tagit ...