Come eseguire il testo OCR in PDF e file di immagine in Adobe Acrobat

I documenti scansionati sono fantastici. Ti permettono di archiviare pile di carta in cartelle sul tuo computer, occupando molto meno spazio ed essendo infinitamente più facili da organizzare, spostare e copiare. Ciò che non è così eccezionale è trovare contenuti archiviati in una delle centinaia di documenti scansionati. Di default, sono poco più di una foto del tuo documento e se vuoi trovare informazioni al loro interno, dovrai aprirne uno e leggerlo da solo.

Oppure, puoi lasciare che il tuo computer faccia il lavoro più pesante per te, trasformando l'immagine in testo e permettendoti di cercare tra i documenti scansionati con la stessa facilità con cui cerchi altri documenti. Questo è ciò che OCR-Optical Character ReCognition-fa. Usa l'intelligenza del tuo computer per riconoscere le forme delle lettere in un'immagine o un documento scansionato e trasformale in testo digitale che puoi copiare e modificare secondo necessità.

Ecco come è possibile utilizzare lo strumento OCR integrato in Adobe Acrobat per trasformare i documenti scansionati e le immagini di testo in testo digitale reale.

OCR un documento o un'immagine in Acrobat

Adobe Acrobat è il programma standard originale per la creazione, la modifica e la visualizzazione di file PDF. È comunemente utilizzato nel mondo degli affari ed è in bundle con Adobe Creative Suite e la versione completa di Creative Cloud, quindi è probabile che il tuo computer aziendale sia già installato, oppure puoi installarlo gratuitamente dal tuo abbonamento a Creative Cloud. Se è così, è un ottimo strumento per OCR i tuoi documenti rapidamente su un Mac o PC.

Nota: questo tutorial richiede Adobe Acrobata, non Adobe Lettore. Quest'ultima è un'app gratuita solo per la visualizzazione di PDF. Se è tutto ciò che hai, vai alla fine di questo tutorial per altri fantastici strumenti OCR che puoi usare.

Apri la tua immagine o PDF e Acrobat inizia a riconoscere il tuo testo 

Acrobat può riconoscere il testo in qualsiasi file PDF o immagine in dozzine di lingue. Tutto quello che devi fare è aprire il documento o l'immagine scansionata che desideri rendere OCR, quindi fare clic sul blu Utensili pulsante in alto a destra della barra degli strumenti. In quella barra laterale, seleziona il Riconosci il testo scheda, quindi fare clic su In questo file pulsante.

Ora otterrai alcune opzioni per modificare l'OCR. Se stai riconoscendo un documento che è nelle lingue predefinite del tuo computer (inglese (USA) nel mio caso), fai semplicemente clic ok per far riconoscere il tuo testo. Altrimenti, fare clic su Modificare… per selezionare la lingua OCR, scegliere lo stile di output PDF e la risoluzione che Acrobat deve utilizzare durante il riconoscimento del testo.

Modifica le impostazioni OCR

Dopo una breve pausa indicata da una barra di avanzamento nella parte inferiore della finestra, il testo sarà completamente riconosciuto. Ci sono voluti solo circa 15 secondi per riconoscere il testo su un modulo di 1 pagina digitalizzato sul mio MacBook Air 2012, ma un paio di minuti su un PDF di quaderno a colori da 30 pagine. Una volta terminato, è possibile selezionare qualsiasi testo nel documento e copiarlo normalmente, oppure cercare il testo nel documento. Per impostazione predefinita, Acrobat salverà il testo riconosciuto all'interno del file originale quando esegui l'OCR di un PDF e, se esegui l'OCR di un'immagine, salverà l'immagine con il suo testo in un nuovo file PDF. In entrambi i casi, il testo riconosciuto verrà visualizzato in qualsiasi lettore PDF in seguito, proprio come se fosse un documento digitale originale.

Copia il testo da un documento scansionato come testo normale o con formattazione o semplicemente utilizza il PDF come un normale PDF

Dopo aver riconosciuto il testo, puoi ora contrassegnare il PDF utilizzando tutti i normali strumenti di markup: puoi evidenziare, barrare il testo e altro ancora. È anche possibile copiare il testo con la formattazione rilevata, sebbene sia spesso meno preciso del riconoscimento del testo stesso.

Esporta i tuoi documenti OCR

Se desideri modificare i tuoi documenti scansionati originali, o forse riutilizzare le informazioni in essi contenute in un nuovo documento, ti consigliamo di qualcosa di più del semplice testo selezionabile su un PDF. Vorresti convertire il documento completo. Acrobat rende anche questo semplice, OCRing del testo ed esportarlo come un nuovo documento in un unico passaggio.

Basta aprire il documento che vuoi convertire in OCR e fare clic FileSalva come… e scegli il formato che desideri. Puoi esportare come documento Word o RTF, foglio di calcolo Excel o CSV o HTML. Aggiungi il nome del file che desideri e la posizione in cui desideri salvare il nuovo file e fai clic Salvare. Acrobat continuerà a mostrare la stessa barra di avanzamento nella parte inferiore della finestra in quanto riconosce il testo e la formattazione nel documento, quindi salverà la copia esportata.

Esportare immagini e PDF da Acrobat con risultati diversi.

Le esportazioni di Acrobat dai documenti scansionati sono sorprendentemente buone e frustranti. Riconoscerà la maggior parte del testo e della formattazione, e probabilmente rimarrai sorpreso dalla bellezza del documento esportato finito, se non è troppo complesso. Ma poi, non è ancora il documento originale. Ci saranno errori, formattazione che dovrai correggere e altro ancora. Il modo migliore è sempre quello di utilizzare il documento digitale originale, ma questo è un ottimo modo per ottenere una copia digitale di un documento se tutto quello che hai è una scansione.

Mentre l'OCR non è perfetto, l'OCR di Acrobat è abbastanza buono. In questa forma scansionata, quasi ogni parola è stata rilevata correttamente, anche se un'istanza della parola Nome è stato rilevato come N "" e. Questo è perfetto se vuoi semplicemente cercare tra i tuoi documenti usando lo strumento di ricerca del tuo lettore PDF, anche se in realtà stai usando l'OCR per fare una copia del testo originale, ti consigliamo di provare -leggi prima e assicurati di correggere eventuali errori evidenti.

OCR più documenti contemporaneamente

Hai una tonnellata di documenti che vuoi fare all'OCR in una volta? Anche Acrobat è eccezionale. Basta aprire qualsiasi documento in Acrobat, quindi aprire il Riconosci il testo riquadro della barra laterale come prima. Questa volta, seleziona In più file pulsante, e vedrai una finestra in cui puoi trascinare tutti i tuoi file su OCR. Anche in questo caso, è possibile aggiungere file PDF o immagine e Acrobat riconoscerà il testo e li salverà in formato PDF. Ci sono anche alcune opzioni extra, dove puoi scegliere dove salvare i file finiti e come vorresti che vengano nominati.

Altri strumenti OCR

Acrobat non è l'unico modo per il testo OCR dei tuoi documenti scansionati, ovviamente. Se non ne hai già una copia, ci sono un sacco di altri strumenti che puoi usare. Abbiamo già trattato i migliori strumenti per OCR sul tuo Mac: Prizmo, FineReader, l'app Doxie, PDFPen e Evernote. Prizmo e PDFPen funzionano anche sui tuoi dispositivi iOS per OCR in movimento e l'app Doxie funziona anche su PC. Evernote non ti permette di copiare del testo, ma funziona ovunque e sul PC, l'OCR di OneNote è fantastico e gratuito.

C'è anche la libreria Tesseract OCR gratuita, con un'app Mac gratuita di base che riconosce il testo per te. Un altro strumento OCR adatto al budget è il testo pica, per $ 3,99. In ogni caso, se l'OCR è tutto ciò di cui hai bisogno, non devi ottenere una copia di Acrobat solo per quello, ma se hai Acrobat, il suo strumento OCR è un grande extra.

Conclusione

Prendendo alcuni minuti per OCR i tuoi documenti PDF è tutto ciò che servirà per ottenere da immagini di base dei documenti cartacei a documenti digitali completi che è possibile cercare, copiare testo, markup ed esportare in formati Office. Acrobat è stato diffamato per il suo lettore PDF, ma ha ancora un sacco di ottime funzionalità e l'OCR è uno di questi.

Se si dispone di una copia di Acrobat o di un abbonamento Creative Cloud, fare un tentativo e ottenere i documenti scansionati OCR. Saranno all'istante molto più preziosi di quanto non sarebbero mai stati come semplici scansioni.