Stats

Actions

Tags

Help us improve

Share bugs, ideas, or general feedback.

chunking-strategy | developer-kit-ai | ClaudePluginHub

Skill

chunking-strategy

From developer-kit-ai

Generates chunking strategies for RAG systems: 256-1024 token sizes, 10-20% overlaps, semantic boundaries; validates coherence and evaluates precision/recall metrics. For vector DBs and large documents.

$

npx claudepluginhub giuseppe-trisciuoglio/developer-kit --plugin developer-kit-ai

Popularity

Parent stars

247

Parent forks

27

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/developer-kit-ai:chunking-strategy

User invocable

Model invocable

Inline context

Default effort

Tool Access

This skill is limited to the following tools:

ReadWriteBash

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

Provides chunking strategies for RAG systems, vector databases, and document processing. Recommends chunk sizes, overlap percentages, and boundary detection methods; validates semantic coherence; evaluates retrieval metrics.

Supporting Files

references/advanced-strategies.mdreferences/evaluation.mdreferences/implementation.mdreferences/research.mdreferences/semantic-methods.mdreferences/strategies.mdreferences/tools.mdreferences/visualization-tools.md

SKILL.md

196 lines · ~1.6k tokens

Similar Skills

chunking-strategies

10

Document chunking implementations and benchmarking tools for RAG pipelines including fixed-size, semantic, recursive, and sentence-based strategies. Use when implementing document processing, optimizing chunk sizes, comparing chunking approaches, benchmarking retrieval performance, or when user mentions chunking, text splitting, document segmentation, RAG optimization, or chunk evaluation.

11 files6 tools

chunking-strategies

11

Provides chunking strategies for RAG document processing pipelines: fixed-size, semantic, recursive methods with Python examples, document-type recommendations, and best practices.

rag-architecture

67

Covers RAG architecture including design patterns, chunking strategies, embedding models, retrieval techniques, hybrid search, and context assembly for LLM pipelines.

3 tools

Stats

LanguagePython

Parent stars247

Parent forks27

MaintenanceExcellent

Last CommitMar 24, 2026

Actions

View Source View Plugin View on GitHub View README

Tags

semantic-chunking

chunking-strategies

retrieval-metrics

vector-database

document-processing

Help us improve

Share bugs, ideas, or general feedback.

Chunking Strategy for RAG Systems

Overview

Provides chunking strategies for RAG systems, vector databases, and document processing. Recommends chunk sizes, overlap percentages, and boundary detection methods; validates semantic coherence; evaluates retrieval metrics.

When to Use

Use when building or optimizing RAG systems, vector search pipelines, document chunking workflows, or performance-tuning existing systems with poor retrieval quality.

Instructions

Choose Chunking Strategy

Select based on document type and use case:

Fixed-Size Chunking (Level 1)
- Use for simple documents without clear structure
- Start with 512 tokens and 10-20% overlap
- Adjust: 256 for factoid queries, 1024 for analytical
Recursive Character Chunking (Level 2)
- Use for documents with structural boundaries
- Hierarchical separators: paragraphs → sentences → words
- Customize for document types (HTML, Markdown, JSON)
Structure-Aware Chunking (Level 3)
- Use for structured content (Markdown, code, tables, PDFs)
- Preserve semantic units: functions, sections, table blocks
- Validate structure preservation post-split
Semantic Chunking (Level 4)
- Use for complex documents with thematic shifts
- Embedding-based boundary detection with 0.8 similarity threshold
- Buffer size: 3-5 sentences
Advanced Methods (Level 5)
- Late Chunking for long-context models
- Contextual Retrieval for high-precision requirements
- Monitor computational cost vs. retrieval gain

Reference: references/strategies.md.

Implement Chunking Pipeline

Pre-process documents
- Analyze structure, content types, information density
- Identify multi-modal content (tables, images, code)
Select parameters
- Chunk size: embedding model context window / 4
- Overlap: 10-20% for most cases
- Strategy-specific settings
Process and validate
- Apply chunking strategy
- Validate coherence: run evaluate_chunks.py --coherence (see below)
- Test with representative documents
Evaluate and iterate
- Measure precision and recall
- If precision < 0.7: reduce chunk_size by 25% and re-evaluate
- If recall < 0.6: increase overlap by 10% and re-evaluate
- Monitor latency and memory usage

Reference: references/implementation.md.

Validate Chunk Quality

Run validation commands to assess chunk quality:

# Check semantic coherence (requires sentence-transformers)
python -c "
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
chunks = [...]  # your chunks
embeddings = model.encode(chunks)
similarity = (embeddings @ embeddings.T).mean()
print(f'Cohesion: {similarity:.3f}')  # target: 0.3-0.7
"

# Measure retrieval precision
python -c "
relevant = sum(1 for c in retrieved if c in relevant_chunks)
precision = relevant / len(retrieved)
print(f'Precision: {precision:.2f}')  # target: >= 0.7
"

# Check chunk size distribution
python -c "
import numpy as np
sizes = [len(c.split()) for c in chunks]
print(f'Mean: {np.mean(sizes):.0f}, Std: {np.std(sizes):.0f}')
print(f'Min: {min(sizes)}, Max: {max(sizes)}')
"

Reference: references/evaluation.md.

Examples

Fixed-Size Chunking

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=256,
    chunk_overlap=25,
    length_function=len
)
chunks = splitter.split_documents(documents)

Structure-Aware Code Chunking

import ast

def chunk_python_code(code):
    tree = ast.parse(code)
    chunks = []
    for node in ast.walk(tree):
        if isinstance(node, (ast.FunctionDef, ast.ClassDef)):
            chunks.append(ast.get_source_segment(code, node))
    return chunks

Semantic Chunking

def semantic_chunk(text, similarity_threshold=0.8):
    sentences = split_into_sentences(text)
    embeddings = generate_embeddings(sentences)
    chunks, current = [], [sentences[0]]
    for i in range(1, len(sentences)):
        sim = cosine_similarity(embeddings[i-1], embeddings[i])
        if sim < similarity_threshold:
            chunks.append(" ".join(current))
            current = [sentences[i]]
        else:
            current.append(sentences[i])
    chunks.append(" ".join(current))
    return chunks

Best Practices

Core Principles

Balance context preservation with retrieval precision
Maintain semantic coherence within chunks
Optimize for embedding model context window constraints

Implementation

Start with fixed-size (512 tokens, 15% overlap)
Iterate based on document characteristics
Test with domain-specific documents before deployment

Pitfalls to Avoid

Over-chunking: context-poor small chunks
Under-chunking: missing information in oversized chunks
Ignoring semantic boundaries and document structure
One-size-fits-all for diverse content types

Constraints and Warnings

Resource Considerations

Semantic methods require significant compute resources
Late chunking needs long-context embedding models
Complex strategies increase processing latency
Monitor memory for large document batches

Quality Requirements

Validate semantic coherence post-processing
Test with representative documents before deployment
Ensure chunks maintain standalone meaning
Implement error handling for malformed content

References

strategies.md - Detailed strategies
implementation.md - Implementation guidelines
evaluation.md - Performance metrics
tools.md - Libraries and frameworks
research.md - Research papers
advanced-strategies.md - 11 advanced methods
semantic-methods.md - Semantic approaches
visualization-tools.md - Visualization tools