API de Reconocimiento Avanzado

Reconocimiento de texto de alta precisión con detección de posición, extrae contenido de texto y proporciona información detallada de coordenadas para cada bloque de texto

Resumen

La API de Reconocimiento Avanzado proporciona reconocimiento de texto de alta precisión con información detallada de posición. A diferencia del reconocimiento de texto estándar, esta API devuelve no solo el texto extraído sino también coordenadas precisas para cada bloque de texto, incluyendo rectángulos de rotación y coordenadas de cuatro puntos.

Utiliza un formato de solicitud JSON unificado, aceptando referencias URL o datos de imagen codificados en base64.

Autenticación

La API admite el siguiente método de autenticación:

  • Clave API: Pase su clave API como parámetro de consulta ?key=SU_CLAVE_API

Extraer Texto con Datos de Posición

Extrae texto de un archivo de imagen y obtiene información detallada de posición para cada bloque de texto, incluyendo rectángulos de rotación y coordenadas de cuatro puntos.

Solicitud

POST /api/advanced-recognition

Parámetros:

ParámetroTipoRequeridoDescripción
documentobjectObjeto documento
document.typestringValor fijo "image_url"
document.image_urlstringURL de imagen o datos base64
filenamestringNoNombre de archivo (recomendado para datos base64)
keystringNoClave API (parámetro de consulta, opcional para usuarios registrados)

Ejemplos:

Usando URL de Imagen:

curl -X POST "https://llmocr.com/api/advanced-recognition?key=SU_CLAVE_API" \
  -H "Content-Type: application/json" \
  -d '{
    "document": {
      "type": "image_url",
      "image_url": "https://llmocr.com/image.jpg"
    }
  }'

Usando Datos de Imagen Base64:

curl -X POST "https://llmocr.com/api/advanced-recognition?key=SU_CLAVE_API" \
  -H "Content-Type: application/json" \
  -d '{
    "document": {
      "type": "image_url",
      "image_url": "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQEA..."
    },
    "filename": "document.jpg"
  }'

Respuesta

Parámetros:

ParámetroTipoDescripción
idstringID de registro en la base de datos
filenamestringNombre de archivo
contentstringContenido de texto extraído (todos los bloques de texto unidos por saltos de línea)
ocrResultobjectResultados OCR detallados con información de posición
formatstringFormato de salida, fijo como "json"
timestampnumberMarca de tiempo de finalización del procesamiento
payloadstringURL del endpoint API

Estructura de ocrResult.words_info:

Cada elemento en el array words_info contiene:

CampoTipoDescripción
textstringContenido de texto del bloque
locationnumber[]Coordenadas de cuatro puntos [x1,y1,x2,y2,x3,y3,x4,y4] (arriba-izquierda → arriba-derecha → abajo-derecha → abajo-izquierda)
rotate_rectnumber[]Rectángulo de rotación [center_x, center_y, width, height, angle], rango de ángulo: [-90, 90]

Ejemplo:

{
  "id": "12345",
  "filename": "document.jpg",
  "content": "Texto de línea 1\nTexto de línea 2",
  "ocrResult": {
    "words_info": [
      {
        "text": "Texto de línea 1",
        "location": [150, 80, 400, 80, 400, 120, 150, 120],
        "rotate_rect": [275, 100, 250, 40, 0]
      },
      {
        "text": "Texto de línea 2",
        "location": [150, 150, 400, 150, 400, 190, 150, 190],
        "rotate_rect": [275, 170, 250, 40, 0]
      }
    ]
  },
  "format": "json",
  "timestamp": 1640995200000,
  "payload": "https://llmocr.com/api/advanced-recognition?key=SU_CLAVE_API"
}
API de Reconocimiento Avanzado - LLMOCR Developer Guide