Docling Toolkit for Claude Code

Expert guidance and tooling for document extraction using IBM's Docling library.

Overview

The Docling Toolkit plugin provides comprehensive support for using Docling to extract structured data from documents. It helps you convert PDFs, HTML, and other document formats into clean, citation-rich JSONL files ready for downstream AI processing.

What is Docling?

Docling is an open-source document processing library developed at IBM Research and donated to the LF AI & Data Foundation. It transforms complex documents into structured, machine-readable data with:

Structure-aware chunking: Preserves document hierarchy (sections, paragraphs, tables, figures)
Rich metadata extraction: Automatically captures page numbers, section titles, layout information
Granite model support: Enhanced processing for scanned documents and complex layouts
Enterprise-grade quality: Battle-tested at IBM, 42K+ GitHub stars, 1.5M monthly downloads

Features

Skills (AI-Invoked Autonomously)

Claude will automatically help with Docling when you:

docling-fundamentals: Ask about Docling installation, basic usage, or when to use Docling
docling-chunking: Discuss chunking strategies, HybridChunker vs HierarchicalChunker, metadata extraction
docling-advanced: Work with Granite model, scanned PDFs, complex documents, or performance optimization

Commands (User-Invoked)

/docling-scaffold-processor - Generate production-ready document processing script
/docling-init-project - Initialize Docling extraction project structure
/docling-validate-extracts - Validate extract quality and metadata completeness

Agents (Specialized Assistance)

docling-advisor: Recommends Docling configuration and workflow design for your use case
script-advisor: Helps debug and customize generated Docling scripts

Installation

Prerequisites

Claude Code installed
Python 3.11+ with uv package manager

Docling library:

uv add docling
# or
pip install docling

Install Plugin

# From the Claude-Plugins directory
claude plugin install ./docling-toolkit --scope user

# Or use absolute path
claude plugin install /Users/orlandobruno/Documents/Dev/Claude-Plugins/docling-toolkit --scope user

Verify Installation

claude plugin list
# Should show "docling-toolkit" in the list

Quick Start

1. Initialize a Project

# In your project directory
/docling-init-project my-document-extraction
cd my-document-extraction

This creates:

my-document-extraction/
├── README.md
├── config/
│   └── docling-config.yaml
├── data/
│   ├── raw/              # Place your PDFs/HTML here
│   └── processed/
├── extracts/             # Docling output (JSONL)
├── scripts/
│   ├── process_documents.py
│   └── validate_extracts.py
├── logs/
└── .env.example

2. Generate Processing Script

/docling-scaffold-processor process_documents --input-types pdf,html

This generates a production-ready Python script with:

Docling HybridChunker integration
CLI arguments (--input-dir, --output-file, --granite)
Progress tracking and error handling
Metadata extraction
JSONL output format

3. Process Documents

# Place PDFs in data/raw/ then run:
uv run python scripts/process_documents.py \
  --input-dir data/raw \
  --output-file extracts/output.jsonl

4. Validate Extracts

/docling-validate-extracts extracts/output.jsonl

Gets a quality report with:

Metadata completeness check
Structure preservation validation
Statistics (avg chunk size, source distribution)
Quality metrics and recommendations

Usage Examples

Example 1: Extract from Research Papers

# Initialize project
/docling-init-project research-extraction

# Generate processor
/docling-scaffold-processor extract_papers

# Process PDFs
uv run python scripts/extract_papers.py \
  --input-dir data/papers/ \
  --output-file extracts/papers.jsonl

Example 2: Process Scanned Documents (with Granite)

# Generate processor with Granite support
/docling-scaffold-processor process_scans --granite

# Process with Granite model for better OCR
uv run python scripts/process_scans.py \
  --input-dir data/scanned/ \
  --output-file extracts/scanned.jsonl \
  --granite

Example 3: Extract from HTML Documents

# Generate processor for HTML
/docling-scaffold-processor extract_html --input-types html

# Process HTML files
uv run python scripts/extract_html.py \
  --input-dir data/web_content/ \
  --output-file extracts/web.jsonl

Integration with Other Tools

Docling extracts (JSONL format) work seamlessly with:

Docling Toolkit for Claude Code

Expert guidance and tooling for document extraction using IBM's Docling library.

Overview

What is Docling?

Structure-aware chunking: Preserves document hierarchy (sections, paragraphs, tables, figures)
Rich metadata extraction: Automatically captures page numbers, section titles, layout information
Granite model support: Enhanced processing for scanned documents and complex layouts
Enterprise-grade quality: Battle-tested at IBM, 42K+ GitHub stars, 1.5M monthly downloads

Features

Skills (AI-Invoked Autonomously)

Claude will automatically help with Docling when you:

docling-fundamentals: Ask about Docling installation, basic usage, or when to use Docling
docling-chunking: Discuss chunking strategies, HybridChunker vs HierarchicalChunker, metadata extraction
docling-advanced: Work with Granite model, scanned PDFs, complex documents, or performance optimization

Commands (User-Invoked)

/docling-scaffold-processor - Generate production-ready document processing script
/docling-init-project - Initialize Docling extraction project structure
/docling-validate-extracts - Validate extract quality and metadata completeness

Agents (Specialized Assistance)

docling-advisor: Recommends Docling configuration and workflow design for your use case
script-advisor: Helps debug and customize generated Docling scripts

Installation

Prerequisites

Claude Code installed
Python 3.11+ with uv package manager

Docling library:

uv add docling
# or
pip install docling

Install Plugin

# From the Claude-Plugins directory
claude plugin install ./docling-toolkit --scope user

# Or use absolute path
claude plugin install /Users/orlandobruno/Documents/Dev/Claude-Plugins/docling-toolkit --scope user

Verify Installation

claude plugin list
# Should show "docling-toolkit" in the list

Quick Start

1. Initialize a Project

# In your project directory
/docling-init-project my-document-extraction
cd my-document-extraction

This creates:

my-document-extraction/
├── README.md
├── config/
│   └── docling-config.yaml
├── data/
│   ├── raw/              # Place your PDFs/HTML here
│   └── processed/
├── extracts/             # Docling output (JSONL)
├── scripts/
│   ├── process_documents.py
│   └── validate_extracts.py
├── logs/
└── .env.example

2. Generate Processing Script

/docling-scaffold-processor process_documents --input-types pdf,html

This generates a production-ready Python script with:

Docling HybridChunker integration
CLI arguments (--input-dir, --output-file, --granite)
Progress tracking and error handling
Metadata extraction
JSONL output format

3. Process Documents

# Place PDFs in data/raw/ then run:
uv run python scripts/process_documents.py \
  --input-dir data/raw \
  --output-file extracts/output.jsonl

4. Validate Extracts

/docling-validate-extracts extracts/output.jsonl

Gets a quality report with:

Metadata completeness check
Structure preservation validation
Statistics (avg chunk size, source distribution)
Quality metrics and recommendations

Usage Examples

Example 1: Extract from Research Papers

# Initialize project
/docling-init-project research-extraction

# Generate processor
/docling-scaffold-processor extract_papers

# Process PDFs
uv run python scripts/extract_papers.py \
  --input-dir data/papers/ \
  --output-file extracts/papers.jsonl

Example 2: Process Scanned Documents (with Granite)

# Generate processor with Granite support
/docling-scaffold-processor process_scans --granite

# Process with Granite model for better OCR
uv run python scripts/process_scans.py \
  --input-dir data/scanned/ \
  --output-file extracts/scanned.jsonl \
  --granite

Example 3: Extract from HTML Documents

# Generate processor for HTML
/docling-scaffold-processor extract_html --input-types html

# Process HTML files
uv run python scripts/extract_html.py \
  --input-dir data/web_content/ \
  --output-file extracts/web.jsonl

Integration with Other Tools

Docling extracts (JSONL format) work seamlessly with:

Help us improve

Find plugins for your project

Help us improve

docling-toolkit

Popularity

Health & Quality

Confidence

What's Inside

Help us improve

README

Docling Toolkit for Claude Code

Overview

What is Docling?

Features

Skills (AI-Invoked Autonomously)

Commands (User-Invoked)

Agents (Specialized Assistance)

Installation

Prerequisites

Install Plugin

Verify Installation

Quick Start

1. Initialize a Project

2. Generate Processing Script

3. Process Documents

4. Validate Extracts

Usage Examples

Example 1: Extract from Research Papers

Example 2: Process Scanned Documents (with Granite)

Example 3: Extract from HTML Documents

Integration with Other Tools

Similar Plugins

anthropic-office-skills

pdf-extractor

research-papers

docpull

fullstack-dev-skills

context7-plugin

More by orbruno

knowledge-management

baml-toolkit

claude-to-gemini

woocommerce-wordpress

gemini-workflows

Docling Toolkit for Claude Code

Overview

What is Docling?

Features

Skills (AI-Invoked Autonomously)

Commands (User-Invoked)

Agents (Specialized Assistance)

Installation

Prerequisites

Install Plugin

Verify Installation

Quick Start

1. Initialize a Project

2. Generate Processing Script

3. Process Documents

4. Validate Extracts

Usage Examples

Example 1: Extract from Research Papers

Example 2: Process Scanned Documents (with Granite)

Example 3: Extract from HTML Documents

Integration with Other Tools