PDF to Markdown API

PDF 문서를 Markdown 형식으로 변환하며 자동 이미지 추출을 지원합니다

개요

PDF to Markdown API는 PDF 문서를 Markdown 형식으로 변환할 수 있으며 자동 이미지 추출 및 호스팅을 지원합니다. 통일된 JSON 요청 형식을 사용하며 URL 참조 또는 base64 인코딩된 문서 데이터를 지원합니다.

인증

API는 다음 인증 방법을 지원합니다:

  • API 키: 쿼리 매개변수를 통해 API 키 전달 ?key=YOUR_API_KEY

PDF를 Markdown으로 변환

PDF 문서를 Markdown 형식으로 변환하며 자동 이미지 추출을 지원합니다.

요청

POST /api/pdf-to-markdown

매개변수:

매개변수유형필수설명
documentobject문서 객체
document.typestring고정값 "document_url"
document.document_urlstringPDF 문서 URL 또는 base64 데이터
filenamestring아니오파일명(base64 데이터 사용 시 제공 권장)
keystring아니오API 키(쿼리 매개변수, 로그인 사용자 선택 사항)

예제:

PDF URL 사용:

curl -X POST "https://llmocr.com/api/pdf-to-markdown?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "document": {
      "type": "document_url",
      "document_url": "https://llmocr.com/document.pdf"
    }
  }'

Base64 PDF 데이터 사용:

curl -X POST "https://llmocr.com/api/pdf-to-markdown?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "document": {
      "type": "document_url",
      "document_url": "data:application/pdf;base64,JVBERi0xLjQK..."
    },
    "filename": "my-document.pdf"
  }'

응답

매개변수:

매개변수유형설명
idstring데이터베이스 레코드 ID
filenamestring파일명
contentstring전체 Markdown 내용(임베드된 이미지 포함)
formatstring출력 형식, 고정값 "markdown"
total_pagesnumberPDF 총 페이지 수
pages_shownnumber응답에 포함된 페이지 수
is_partialboolean구독 제한으로 인해 부분 내용이 포함되었는지 여부
remaining_pagesnumber제한으로 인해 표시되지 않은 페이지 수(is_partial이 true일 때만 나타남)
messagestring구독 제한에 대한 정보 메시지(is_partial이 true일 때만 나타남)
timestampnumber처리 완료 타임스탬프
payloadstringAPI 엔드포인트 URL

예제:

{
  "id": "67890",
  "filename": "document.pdf",
  "content": "# 문서 제목\n\n이미지가 포함된 문서 내용...\n\n![이미지](https://storage.llmocr.com/image.jpg)",
  "format": "markdown",
  "total_pages": 29,
  "pages_shown": 21,
  "is_partial": true,
  "remaining_pages": 8,
  "message": "사용 가능한 구독에 따라 29페이지 중 21페이지가 표시됩니다. 모든 29페이지가 저장되었으며 더 많은 구독 페이지가 있으면 나머지 8페이지를 잠금 해제할 수 있습니다.",
  "timestamp": 1758871660489,
  "payload": "https://llmocr.com/api/pdf-to-markdown?key=YOUR_API_KEY"
}
PDF to Markdown API - LLMOCR Developer Guide