APIドキュメント

クイックスタート

APIキーを取得して、数分でドキュメントの変換を開始します。

始める →

Advanced Recognition API

位置検出を備えた高精度テキスト認識。テキストコンテンツを抽出し、各テキストブロックの詳細な座標情報を提供します

概要

Advanced Recognition APIは、詳細な位置情報を備えた高精度テキスト認識を提供します。標準的なテキスト認識とは異なり、このAPIは抽出されたテキストだけでなく、各テキストブロックの正確な座標(回転矩形と4点座標を含む)も返します。

統一されたJSONリクエスト形式を使用し、URL参照またはbase64エンコードされた画像データを受け入れます。

認証

APIは以下の認証方法をサポートしています:

  • APIキー: クエリパラメータとしてAPIキーを渡す ?key=YOUR_API_KEY

位置データ付きテキスト抽出

画像ファイルからテキストを抽出し、回転矩形と4点座標を含む各テキストブロックの詳細な位置情報を取得します。

リクエスト

POST /api/advanced-recognition

パラメータ:

パラメータ必須説明
documentobjectはいドキュメントオブジェクト
document.typestringはい固定値 "image_url"
document.image_urlstringはい画像URLまたはbase64データ
filenamestringいいえファイル名(base64データの場合推奨)
keystringいいえAPIキー(クエリパラメータ、ログインユーザーにはオプション)

例:

画像URLを使用:

curl -X POST "https://llmocr.com/api/advanced-recognition?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "document": {
      "type": "image_url",
      "image_url": "https://llmocr.com/image.jpg"
    }
  }'

Base64画像データを使用:

curl -X POST "https://llmocr.com/api/advanced-recognition?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "document": {
      "type": "image_url",
      "image_url": "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQEA..."
    },
    "filename": "document.jpg"
  }'

レスポンス

パラメータ:

パラメータ説明
idstringデータベースレコードID
filenamestringファイル名
contentstring抽出されたテキストコンテンツ(改行で結合されたすべてのテキストブロック)
ocrResultobject位置情報を含む詳細なOCR結果
formatstring出力形式、固定値 "json"
timestampnumber処理完了タイムスタンプ
payloadstringAPIエンドポイントURL

ocrResult.words_info構造:

words_info配列の各アイテムには以下が含まれます:

フィールド説明
textstringブロックのテキストコンテンツ
locationnumber[]4点座標 [x1,y1,x2,y2,x3,y3,x4,y4](左上→右上→右下→左下)
rotate_rectnumber[]回転矩形 [center_x, center_y, width, height, angle]、角度範囲: [-90, 90]

例:

{
  "id": "12345",
  "filename": "document.jpg",
  "content": "Line 1 text\nLine 2 text",
  "ocrResult": {
    "words_info": [
      {
        "text": "Line 1 text",
        "location": [150, 80, 400, 80, 400, 120, 150, 120],
        "rotate_rect": [275, 100, 250, 40, 0]
      },
      {
        "text": "Line 2 text",
        "location": [150, 150, 400, 150, 400, 190, 150, 190],
        "rotate_rect": [275, 170, 250, 40, 0]
      }
    ]
  },
  "format": "json",
  "timestamp": 1640995200000,
  "payload": "https://llmocr.com/api/advanced-recognition?key=YOUR_API_KEY"
}
Advanced Recognition API - LLMOCR Developer Guide