Todos los temas

+
Home > Recursos > PDF > conocimiento de reconocimiento óptico de caracteres (OCR)

Conocimiento de reconocimiento óptico de caracteres (OCR)

¿Qué es OCR?

Reconocimiento óptico de caracteres, abreviado habitualmente como OCR, es la traducción mecánica o electrónica de imágenes escaneadas de textos manuscritos, mecanografiados o impresos en texto codificado de la máquina.

¿Por qué utilizar OCR?

OCR es ampliamente utilizado para convertir a diferentes tipos de documentos, tales como documentos en papel escaneados, archivos PDF o imágenes capturadas por una cámara digital de datos buscables y editables. En algunos entornos profesionales (por ejemplo, bibliotecas, oficinas), miles de libros y documentos se analizan regularmente para respaldo y archivo. Un escáner sólo toma fotografías de los documentos originales del papel, dando por resultado basado en imágenes documentos escaneados en formato PDF. El principal problema con el proceso y almacenamiento de estos grandes volúmenes de documentos escaneados es la incapacidad para buscar una frase específica o nombre dentro de un archivo. También ningún texto puede ser destacó, copiado o modificado, ya que el documento contiene un archivo de imagen grande en lugar de caracteres de texto individuales.

OCR Sample

Antes de realizar el OCR, el área entera en la página seleccionado y destacó y ningún texto puede ser buscado y editado.

Después de realizar OCR, texto en la página se puede seleccionar con la herramienta de selección, puede buscar y editar fácilmente carácter, palabras y párrafos.

¿Cómo te ayudan Wondershare herramientas de PDF OCR?

Wondershare herramientas de PDF OCR pueden ayudar a reconocer el texto de PDF escaneado rápidamente y con precisión y preservar los resultados reconocidos en múltiples formatos editables.

Wondershare PDF Editor Pro for Mac: con excepcional OCR exactitud y formato de conservación, permiten buscar, corregir y copiar texto en un PDF escaneado o imagen-basado directamente en el Mac. También permite exportar PDF escaneado a texto con formato basado en Word, Excel, PowerPoint, EPUB, HTML y formatos de texto.

Wondershare PDF Converter Pro: reconocer el texto de PDF escaneado con excepcional precisión de OCR y puede convertir múltiples archivos PDF escaneado a documentos basados en texto de Word, Excel, PowerPoint, EPUB, HTML y texto en Windows.


Wondershare PDF Converter Pro for Mac: reconocer el texto de PDF escaneado con excepcional precisión de OCR y puede convertir múltiples archivos PDF escaneado a documentos basados en texto de Word, Excel, PowerPoint, EPUB, HTML y texto en Mac.

¿Cómo mejorar la calidad de reconocimiento OCR?

Calidad de reconocimiento OCR depende en gran medida de la calidad de la imagen, que depende enormemente de la configuración utilizada en el documento de análisis de proceso. Con el fin de obtener mejor calidad de reconocimiento OCR para tus documentos escaneados, estos son algunos consejos para el escaneo de documentos:

Fuente es demasiado pequeña
Para obtener resultados óptimo reconocimiento, escanear documentos impresión en fuentes muy pequeñas en resoluciones más altas.
Puede especificar la resolución deseada en la propiedad de la resolución del objeto ScanSourceSettings .


Imagen de la fuente Resolución recomendada
Reader 300 ppp para textos típicos (impreso en tipos de letra de tamaño 10 pt o más grande)
Reader 400-600 ppp para textos impresos en las fuentes más pequeñas (9pt o menor)

Ajuste de brillo
Puede que necesite ajustar la configuración de brillo al escanear en modo blanco y negro. Puede especificar el brillo deseado en la propiedad de brillo del objeto ScanSourceSettings . Un valor medio de alrededor del 50% debería ser suficiente en la mayoría de los casos.
Si la imagen resultante contiene demasiados "roto" o "atascado" junto letras, solucionar los problemas utilizando la tabla a continuación.

La imagen se ve así Recomendaciones
Good Quality Esta imagen es conveniente para el reconocimiento
Very Light
personajes se "rompen" o muy ligera
  • Bajar el brillo para que la imagen más oscura.
  • Escaneo en escala de grises. Brillo se sintonizarán automáticamente.
  • Very Dark
    los personajes son muy distorsionados, pegadas, o llenar
  • Aumentar el brillo para hacer la imagen más brillante
  • Escaneo en escala de grises. Brillo se sintonizarán automáticamente.
  • Calidad de impresión
    Mala calidad documentos con "ruido" (es decir, al azar puntos negros o manchas), letras borrosas y desigual, o sesga líneas y fronteras de cambiado de puesto de la tabla pueden requerir ajustes de exploración específicos. Por ejemplo, este fax y periódico:

    Print Quality

    Documentos de mala calidad se analizan mejor en escala de grises. Cuando escaneo en escala de grises, el programa seleccionará el valor de brillo óptimo automáticamente.
    Modo escala de grises retiene más información acerca de las letras en el texto escaneado para lograr mejores resultados de reconocimiento al reconocer documentos de media a baja calidad.


    Artículos relacionados

    ¿Preguntas relacionadas con el producto? Hablar directamente con nuestro equipo de soporte >>

    Arriba