Sådan fungerer billed-til-tekst (aka optisk karaktergenkendelse)

  • Lesley Fowler
  • 0
  • 1287
  • 32
Reklame

At trække tekst ud af billeder har aldrig været lettere, end det er i dag takket være OCR-teknologi (optisk karaktergenkendelse).

OCR giver os mulighed for at gøre alle slags nyttige ting, som at søge efter billeder ved hjælp af tekstforespørgsler, gengive dokumenter uden at skrive dem ud for hånd og endda konvertere håndskrevet tekst til digital tekst Sådan konverteres et billede med håndskrift til tekst ved hjælp af OCR Sådan konverteres et billede med håndskrift til tekst ved hjælp af OCR For at konvertere et billede af håndskrevet tekst til digital tekst, som du kan redigere og søge, har du brug for et OCR (optisk tegngenkendelses) værktøj. Prøv et af disse OCR-værktøjer til at digitalisere håndskrift. .

Men hvad er optisk tegngenkendelse? Hvordan fungerer det egentlig? Det kan virke som sort magi for dig, men i slutningen af ​​denne artikel har du en solid forståelse af, hvordan computere kan genkende bogstaver og ord.

Sådan fungerer optisk karaktergenkendelse

For at forstå, hvordan tekst udvindes fra et billede, skal vi først forstå, hvad der er billeder, og hvordan de gemmes på computere.

EN pixel er en enkelt prik i en bestemt farve. en billede er hovedsagelig en samling af pixels. Jo flere pixels i et billede, jo højere er dens opløsning. En computer ved ikke, at et billede af en skiltning virkelig er en skiltning - den ved bare, at den første pixel er denne farve, den næste pixel er den farve, og viser alle dens pixels for dig at se.

Dette betyder, at tekst og ikke-tekst ikke adskiller sig fra en computer, og det er derfor, at optisk tegngenkendelse er så vanskelig. Med det i tankerne er det sådan, det fungerer.

Trin 1: Forbehandling af billedet

Før teksten kan trækkes, skal billedet masseres på bestemte måder for at gøre ekstraktion lettere og mere sandsynlig at få succes. Dette kaldes forbehandling, og forskellige softwareløsninger bruger forskellige kombinationer af teknikker.

De mere almindelige forbehandlingsteknikker inkluderer:

Binarization
Hver enkelt pixel i billedet konverteres til enten sort eller hvid. Målet er at gøre det klart, hvilke pixels der hører til tekst, og hvilke pixels, der hører til baggrunden, hvilket fremskynder den faktiske OCR-proces.

skævhed
Da dokumenter sjældent scannes med perfekt justering, kan tegn muligvis ende skråt eller endda op og ned. Målet her er at identificere vandrette tekstlinjer og derefter rotere billedet, så disse linjer faktisk er vandrette.

Pletfjerning
Uanset om billedet er binariseret eller ej, kan der være støj, der kan forstyrre identifikationen af ​​tegn. Despeckling slipper for denne støj og prøver at udjævne billedet.

Linjefjerning
Identificerer alle linjer og markeringer, der sandsynligvis ikke er tegn, og fjerner dem derefter, så den faktiske OCR-proces ikke bliver forvirret. Det er især vigtigt, når du scanner dokumenter med tabeller og bokse.

zoneinddeling
Adskiller billedet i forskellige stykker tekst, f.eks. Identificering af kolonner i dokumenter med flere kolonner.

Billedkredit: WayneRay / Wikimedia

Trin 2: Behandling af billedet

Første ting først, OCR-processen forsøger at etablere baseline for hver tekstlinje i billedet (eller hvis den blev zoneret under forbehandlingen, fungerer den gennem hver zone én ad gangen). Hver identificerede linje med tegn håndteres en efter en.

For hver linje med tegn identificerer OCR-softwaren afstanden mellem tegn ved at lede efter lodrette linjer med ikke-tekstpixels (hvilket burde være indlysende med korrekt binærisering). Hver bit af pixels mellem disse ikke-tekstlinjer markeres som en “polet” der repræsenterer en karakter. Derfor kaldes dette trin tokenization.

Når alle de potentielle tegn på billedet er tokeniseret, kan OCR-softwaren bruge to forskellige teknikker til at identificere, hvilke tegn disse tegn faktisk er:

Mønster genkendelse
Hvert token sammenlignes pixel til pixel mod et helt sæt kendte glyfer - inklusive tal, tegnsætning og andre specielle symboler - og det nærmeste match vælges. Denne teknik er også kendt som matrix matching.

Der er flere ulemper her. For det første skal symbolerne og glyferne være af samme størrelse, ellers er der ingen af ​​dem, der matcher hinanden. For det andet skal tokenerne være i en lignende skrifttype som glyferne, hvilket udelukker håndskrift. Men hvis tokenens skrifttype er kendt, kan mønstergenkendelse være hurtig og nøjagtig.

Funktionsekstraktion
Hvert symbol sammenlignes med forskellige regler, der beskriver, hvilken type karakter det kan være. F.eks. Vil to lodrette linjer med lige højde, der er forbundet med en enkelt vandret linje, sandsynligvis være en hoved H.

Denne teknik er nyttig, fordi den ikke er begrænset til bestemte skrifttyper eller størrelser. Det kan også være mere nuanceret ved at genkende de subtile forskelle mellem en hovedstol I, små bogstaver L og tallet 1. Ulempen? Programmering af reglerne er meget mere kompliceret end blot at sammenligne pixels i et token med pixels i en glyph.

Trin 3: Efterbehandling af billedet

Når alle token-matching er afsluttet, kunne OCR-softwaren bare kalde det en dag og præsentere resultaterne for dig. Men normalt skal der gøres lidt mere fudging for at sikre dig, at du ikke ruller øjnene med gibberiske resultater.

Leksikalsk begrænsning
Alle ord sammenlignes med et leksikon af godkendte ord, og ethvert, der ikke matcher, erstattes med det nærmeste passende ord. En ordbog er et eksempel på et leksikon. Dette kan hjælpe med at rette ord med forkerte tegn, f.eks “torn” i stedet for “th0rn”.

Applikationsspecifikke optimeringer
Når OCR bruges i nicheindstillinger, f.eks. Til medicinske eller juridiske dokumenter, kan der bruges en særlig slags OCR, der er specielt designet til den indstilling. I disse tilfælde kan OCR-softwaren være på udkig efter matematiske ligninger, branche-specifikke vilkår osv.

Naturligt sprog
Denne avancerede teknik korrigerer sætninger ved hjælp af en sprogmodel, der beskriver, hvor sandsynligt visse ord skal følges af andre ord. Det svarer til teknologien, der forudsiger hvilket ord du vil indtaste næste på et mobilt tastatur.

Når det gøres godt, kan dette resultere i tekst, der er bemærkelsesværdigt læsbar.

Anbefalede værktøjer til genkendelse af optisk karakter

Nu hvor du ved, hvordan OCR fungerer, skal det være let at se, at ikke alle OCR-værktøjer gøres lige. Nøjagtigheden af ​​dine resultater afhænger meget af, hvor godt softwaren implementerer de forskellige OCR-teknikker, der er omtalt i denne artikel.

Vi anbefaler stærkt OneNote til dette, hvilket kun er en grund til, at det slår Evernote til note-tagende Evernote vs. OneNote: Hvilken note-tagende app er den rigtige for dig? Evernote vs. OneNote: Hvilken app, der tager note, er den rigtige for dig? Evernote og OneNote er fantastiske notat-apps. Det er svært at vælge mellem de to. Vi sammenlignede alt fra interface til noteorganisation for at hjælpe dig med at vælge. Hvad fungerer bedst for dig? . Hvis du er villig til at betale for en premium-løsning, skal du overveje OmniPage. Se vores sammenligning af OneNote vs. OmniPage til OCR Free vs. Betalt OCR-software: Microsoft OneNote og Nuance OmniPage Sammenlignet gratis vs. Betalt OCR-software: Microsoft OneNote og Nuance OmniPage Sammenlignet OCR-scannersoftware giver dig mulighed for at konvertere tekst i billeder eller PDF-filer til redigerbar tekst Dokumenter. Er et gratis OCR-værktøj som OneNote godt nok? Lad os finde ud af det! . For mobile dokumenter skal du tjekke disse OCR-apps til Android-enheder 6 Bedste Android OCR-apps til udtrækning af tekst fra billeder 6 Bedste Android OCR-apps til udpakning af tekst fra billeder Har du brug for at digitalisere enhver trykt tekst, så du kan opretholde en blød kopi af det? I så fald er alt hvad du behøver, et OCR-værktøj til optisk karaktergenkendelse. .

Hvordan bruger du OCR? Har du nogen foretrukne OCR-værktøjer, som vi ikke nævnte? Fortæl os det i kommentarerne herunder!




Endnu ingen kommentarer

Om moderne teknologi, enkel og overkommelig.
Din guide i en verden af moderne teknologi. Lær hvordan du bruger de teknologier og gadgets, der omgiver os hver dag, og lær, hvordan du finder interessante ting på Internettet.