API de Reconocimiento Avanzado

Resumen

La API de Reconocimiento Avanzado proporciona reconocimiento de texto de alta precisión con información detallada de posición. A diferencia del reconocimiento de texto estándar, esta API devuelve no solo el texto extraído sino también coordenadas precisas para cada bloque de texto, incluyendo rectángulos de rotación y coordenadas de cuatro puntos.

Utiliza un formato de solicitud JSON unificado, aceptando referencias URL o datos de imagen codificados en base64.

Autenticación

La API admite el siguiente método de autenticación:

Clave API: Pase su clave API como parámetro de consulta ?key=SU_CLAVE_API

Extraer Texto con Datos de Posición

Extrae texto de un archivo de imagen y obtiene información detallada de posición para cada bloque de texto, incluyendo rectángulos de rotación y coordenadas de cuatro puntos.

Solicitud

POST /api/advanced-recognition

Parámetros:

Parámetro	Tipo	Requerido	Descripción
document	object	Sí	Objeto documento
document.type	string	Sí	Valor fijo "image_url"
document.image_url	string	Sí	URL de imagen o datos base64
filename	string	No	Nombre de archivo (recomendado para datos base64)
key	string	No	Clave API (parámetro de consulta, opcional para usuarios registrados)

Ejemplos:

Usando URL de Imagen:

curl -X POST "https://llmocr.com/api/advanced-recognition?key=SU_CLAVE_API" \
  -H "Content-Type: application/json" \
  -d '{
    "document": {
      "type": "image_url",
      "image_url": "https://llmocr.com/image.jpg"
    }
  }'

Usando Datos de Imagen Base64:

curl -X POST "https://llmocr.com/api/advanced-recognition?key=SU_CLAVE_API" \
  -H "Content-Type: application/json" \
  -d '{
    "document": {
      "type": "image_url",
      "image_url": "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQEA..."
    },
    "filename": "document.jpg"
  }'

Respuesta

Parámetros:

Parámetro	Tipo	Descripción
id	string	ID de registro en la base de datos
filename	string	Nombre de archivo
content	string	Contenido de texto extraído (todos los bloques de texto unidos por saltos de línea)
ocrResult	object	Resultados OCR detallados con información de posición
format	string	Formato de salida, fijo como "json"
timestamp	number	Marca de tiempo de finalización del procesamiento
payload	string	URL del endpoint API

Estructura de ocrResult.words_info:

Cada elemento en el array words_info contiene:

Campo	Tipo	Descripción
text	string	Contenido de texto del bloque
location	number[]	Coordenadas de cuatro puntos [x1,y1,x2,y2,x3,y3,x4,y4] (arriba-izquierda → arriba-derecha → abajo-derecha → abajo-izquierda)
rotate_rect	number[]	Rectángulo de rotación [center_x, center_y, width, height, angle], rango de ángulo: [-90, 90]

Ejemplo:

{
  "id": "12345",
  "filename": "document.jpg",
  "content": "Texto de línea 1\nTexto de línea 2",
  "ocrResult": {
    "words_info": [
      {
        "text": "Texto de línea 1",
        "location": [150, 80, 400, 80, 400, 120, 150, 120],
        "rotate_rect": [275, 100, 250, 40, 0]
      },
      {
        "text": "Texto de línea 2",
        "location": [150, 150, 400, 150, 400, 190, 150, 190],
        "rotate_rect": [275, 170, 250, 40, 0]
      }
    ]
  },
  "format": "json",
  "timestamp": 1640995200000,
  "payload": "https://llmocr.com/api/advanced-recognition?key=SU_CLAVE_API"
}

LLMOCR

Documentación API

Inicio rápido

Resumen

Autenticación

Extraer Texto con Datos de Posición

Solicitud

Respuesta