Hvad er det bedste gratis OCR eller ICR-program til manuskripttranskription?

  • Michael Fisher
  • 0
  • 2016
  • 500
Reklame

Javier spørger:

Jeg er forfatter af noveller og historier. Jeg leder efter et gratis OCR-program (Intelligent Optical Character Recognition) eller Intelligent Character Recognition (ICR) til at scanne mine gamle manuskripter fra billeder eller fotografier, så jeg kan konvertere dem til Microsoft Word-filer.

Er der nogen gratis og nøjagtige programmer, der kan gøre dette? Desværre har jeg ikke en scanner, men jeg har adgang til et digitalt kamera med en 20 megapixel opløsning.

Kannons svar:

Som du allerede har nævnt, er der flere slags tegngenkendelsesteknologier, der automatisk kan konvertere håndskrevet eller indtastet skrivning til digitale tegn. Nøjagtighedsniveauet for denne slags software varierer meget mellem forskellige implementeringer. Nogle konverterer på brev-for-brev-basis, og andre kan konvertere hele ord. Der er tre generelle kategorier af denne software:

  • Optisk karaktergenkendelse (OCR)
  • Intelligent karaktergenkendelse (ICR)
  • Intelligent ordgenkendelse (IWR)

Anerkendelse af optisk karakter

I sandhed er OCR et generisk udtryk, og ofte kaldes alle de metoder, der er beskrevet i denne artikel, som OCR - Wikipedia giver imidlertid OCR sin egen klassificering, men moderne implementeringer har en tendens til at klumpe sammen flere metoder. Så hvad gør det? OCR konverterer individuelle-skrevet eller håndskrevne breve til digitale tegn. Så softwaren ser på et dokument og forsøger derefter at konvertere det til almindelig tekst ved at gætte, hvad hver karakter er.

Softwaren er ikke perfekt. OCR-software kan fortolke individuelle tegn med lignende optræden, hvilket resulterer i forkert stavede ord og unøjagtige output. Det meste af tiden kan brugere kopiere teksten, der er genereret af et OCR-program, til en tekstbehandler og automatisk rette stavefejlene. Ofte vises fejl som lignende tegn. For eksempel brevet “d” kan være repræsenteret som “cl”.

Men når det kommer til håndskrevne tekster, gør OCR ikke særlig godt. I det mindste er størstedelen af ​​de gratis implementeringer tragisk dårlige. Der er nogle kommercielle produkter, der kan virkelig søm håndskrevet transkription, men deres prisfastsættelse placerer dem fuldstændig utilgængeligt for offentligheden. For eksempel er der Lexmarks ReadSoft OCR-software. Denne software til kun virksomheden koster tusinder dollars.

Intelligent karaktergenkendelse

ICR er en undergruppe af OCR, der er specialiseret i at konvertere håndskrevet tekst til individuelle digitale tegn. I betragtning af at dine noter og manuskripter er håndskrevne, er et ICR-program det mest nyttige. Jeg er dog ikke sikker på, hvor nøjagtigt de kan konvertere tekster skrevet på fremmede sprog, såsom spansk. Som med OCR, kan brugerne forbedre kvaliteten af ​​de outputte tekster ved at kopiere dem til en tekstbehandler med stavningskorrektion tændt og derefter korrekturlæsning for hånd.

Intelligent ordgenkendelse

Den seneste udvikling af OCR og ICR er intelligent ordgenkendelsessoftware. I stedet for at genkende individuelle tegn forsøger den at oversætte hele håndskrevne ord. Ligesom OCR og ICR, oversætter intelligent ordgenkendelse ofte ord, og kræver, at brugeren manuelt korrigerer foretagne fejl.

Hvad er den bedste gratis OCR-software?

Tesseract

Der er masser af muligheder tilgængelige. Tesseract er sandsynligvis den bedste open source (og gratis) OCR-software derude. Så vidt jeg ved, ser det kun på individuelle karakterer og ikke hele ord.

Fordi du bruger Microsoft Word (som har den bedste, mest tilpassede stavekontrol Sådan stave- og grammatjekontrol i Microsoft Word Sådan stave- og grammatikcheck i Microsoft Word Du kan tilpasse Microsoft Words indbyggede stave- og grammatikontrolværktøjer til at imødekomme dine behov. Du kan endda bruge AutoCorrect til at fremskynde din indtastning. i virksomhederne), du kan bare kopiere hele teksten til Word og derefter køre en stavekontrol for at rydde stavefejl.

Tesseract er faktisk en OCR-motor, der kører fra kommandolinjen. Medmindre du er villig til at håndtere vanskelighederne med at udføre et kommandolinjeværktøj, vil du sandsynligvis ønsker at installere noget mere brugervenligt. Der kan downloades “front-end” (eller en grafisk brugergrænseflade), der giver dig mulighed for at bruge Tesseract som et træk-og-slip-værktøj: PDF OCR X. Installer først softwarepakken, og kør derefter den. Derefter ser du et vindue:

Derefter skal du bare trække og slippe billedfilen til vinduet. Når billedet er indlæst, skal du køre OCR-transkriptionssoftware. Det kan tage et minut eller deromkring.

Desværre viste det sig at være helt utilstrækkelig til håndtering af din tekst. Sådan ser det ud efter at have udpakket tekst fra dokumentet:

Microsoft OneNote

Da det ser ud til, at du allerede bruger Microsoft Office, er den bedste mulighed sandsynligvis også fra Microsoft. Jeg vil gætte, at du ejer en kopi af Microsoft Office, der inkluderer OneNote. Dette udstyres med temmelig avanceret OCR-teknologi.

På både iOS og Android er der også den helt gratis Microsoft Office-objektiv, der kan konvertere JPEG (og andre billedformater) direkte til tekst. Det, der gør de mobile versioner så vidunderlige, er at du kan optage et billede, uploade det til Microsofts cloud computing-system og derefter køre tekstekstraktionen fra OneNote på et skrivebord.

Processen er forholdsvis enkel. Tag først et foto af din tekst. Hvis du har besluttet at bruge OneNote-appen, skal du kun gemme filen på din OneDrive-konto. Ellers skal du overføre billedet til din computer og drop til OneNote.

Højreklik derefter på billedet, og vælg Kopi Tekst fra billede fra genvejsmenuen.

Højreklik derefter på en tom del af OneNote (eller i et program til tekstlæsning) og indsæt teksten ind. Den outputtede tekst fra dit dokument ser sådan ud:

Desværre gør resultaterne fra OneNote ikke overalt i nærheden af ​​et godt stykke arbejde, der producerer fuldstændig vrøvl. Dette kan være forårsaget af en kombination af faktorer, såsom et forvrænget billede eller skrivning, der ikke udføres i en lige linje, eller simpelthen fordi softwaren ikke er god nok.

Google Keep

Lige nu vedrører den bedste løsning til OCR på håndskrevne dokumenter maskinlæring: Specielt dyb læring. Deep-learning er en sofistikeret metode til at træne en computer til at udføre opgaver, som tidligere kun menneskelig udmærkede sig til, såsom ansigtsgenkendelse (Picasa gør ansigtsgenkendelse Sådan bruges ansigtsgenkendelse i Picasa webalbum Sådan bruges ansigtsgenkendelse i Picasa webalbum, tro det eller ej). Google købte for nylig DeepMind, der udvikler dybuddannelsesteknologi Cool forskningsprojekter, der kan ændre fremtiden Cool forskningsprojekter, der kan ændre fremtiden Vil mega-virksomheder som Google, Microsoft, IBM og Intel fortsætte med at give fremtidige generationer den verden, vi kan bare forestille dig nu? Disse spændende forskningsprojekter siger, at det er et løfte, de vil holde. . Denne nøgleafkøb havde en stor effekt: Microsoft taber til Google i OCR Microsoft vs Google - Hvem fører det kunstige intelligensløb? Microsoft vs Google - Hvem fører lederen af ​​kunstig intelligens? Kunstige intelligensforskere gør konkrete fremskridt, og folk begynder at tale alvorligt om AI igen. De to titaner, der fører det race af kunstig intelligens, er Google og Microsoft. . Lige nu tilbyder Google en af ​​de mest avancerede (og gratis) metoder: Google Keep.

Google Keep (som vi først gennemgik i 2013 Simple Notes On the Go: Google Keep For Android Anmeldt Simple Notes On the Go: Google Keep For Android Anmeldt Der er nogle fantastiske note-tagende apps derude, men her er en, der fortjener et nærmere kig : Google Keep, en noteholder, der både har en flot Android-app og en smart webapp.) Tilbyder også en mobil version af deres app til Android. Som med OneNote kan du optage billedet og overføre det direkte til Googles sky. Træk bare billedet til Google Keep-vinduet. Klik derefter på menuknappen (tre lodrette prikker), og vælg Grib billedtekst fra genvejsmenuen.

Sådan ser det ud efter udtrækning af teksten:

Google Keep vinder

Som du kan se, dominerer Google Keep i konkurrencen. Resultaterne kan forbedres yderligere ved at bruge et billedredigeringsværktøj 10 Gratis redigeringsværktøjer til foto Editor for at få mest muligt ud af dine billeder 10 Gratis redigeringsværktøjer til fotoeditor for at få mest muligt ud af dine billeder Uanset hvad der skete med alle de øjebliksbilleder, du har taget i fortiden ? Hvis du har planer og ideer, her er nogle gode Windows og nogle cross platform værktøjer til at behandle dem med. for at øge kontrasten og rette billedet op.

Forhåbentlig hjælper disse muligheder. Hvis du har brug for flere OCR-indstillinger, kan du tjekke de 5 bedste OCR-værktøjer. De 5 bedste OCR-værktøjer til udtrækning af tekst fra billeder. De 5 bedste OCR-værktøjer til udpakning af tekst fra billeder. Når du har papirstrimler, hvordan får du alt det, der er trykt tekst konverteret til noget, som et digitalt program vil kunne genkende og indeksere? Opbevar en god OCR-software i nærheden. , for mere information.




Endnu ingen kommentarer

Om moderne teknologi, enkel og overkommelig.
Din guide i en verden af moderne teknologi. Lær hvordan du bruger de teknologier og gadgets, der omgiver os hver dag, og lær, hvordan du finder interessante ting på Internettet.