From Design I/O & QA
Extracts structured content (headings, text, images, citations) from PDF, DOCX, PPTX, Sketch, and Markdown files. Useful for converting PRDs, briefs, and manifestos into pitch decks, landing pages, or slides.
How this skill is triggered — by the user, by Claude, or both
Slash command
/design-io:document-importWhen to use
Юзер прислал документ как источник контента. Перед slides если контент лежит в Word/PDF. Перед content-engine если нужно вытащить ключевые сообщения.
The summary Claude sees in its skill listing — used to decide when to auto-load this skill
Источник: PDF / DOCX / PPTX / RTF / Markdown. Цель: вытащить контент в структурированном виде — иерархия (h1/h2/h3) + текст + изображения + cite.
Источник: PDF / DOCX / PPTX / RTF / Markdown. Цель: вытащить контент в структурированном виде — иерархия (h1/h2/h3) + текст + изображения + cite.
npm i pdf-parse
const pdf = require('pdf-parse');
const fs = require('fs');
const data = await pdf(fs.readFileSync('source.pdf'));
console.log(data.text); // весь текст
console.log(data.numpages);
console.log(data.info); // metadata
brew install poppler # mac
sudo apt-get install poppler-utils # linux
pdftotext -layout source.pdf source.txt
pdfimages -all source.pdf images/img # извлекает картинки
pdfinfo source.pdf # metadata
Claude Code умеет читать PDF напрямую через Read (если PDF до 10 страниц, или pages: "1-5" для длинных).
pip install python-docx
from docx import Document
doc = Document('source.docx')
for p in doc.paragraphs:
style = p.style.name # "Heading 1", "Heading 2", "Normal"
print(f"[{style}] {p.text}")
for table in doc.tables:
for row in table.rows:
print([cell.text for cell in row.cells])
Достоинство python-docx: знает styles (h1/h2/h3) которые юзер реально выставил, не парсит «больший шрифт = заголовок».
pip install python-pptx
from pptx import Presentation
prs = Presentation('source.pptx')
for i, slide in enumerate(prs.slides, 1):
for shape in slide.shapes:
if shape.has_text_frame:
for para in shape.text_frame.paragraphs:
print(f"slide {i}: {para.text}")
elif shape.shape_type == 13: # Picture
print(f"slide {i}: image, {shape.image.size}")
.sketch — это zip с JSON внутри:
unzip source.sketch -d sketch-extracted/
ls sketch-extracted/pages/ # JSON каждой страницы
ls sketch-extracted/images/ # PNG ассеты
JSON структура complex — лучше поискать sketchtool (Sketch CLI):
sketchtool list pages source.sketch # список страниц
sketchtool export artboards source.sketch --output=exports/ # все артборды как PNG
После парсинга → выдаёшь юзеру content-tree:
title: "AI in Banking — Trends 2026"
sections:
- h1: "Executive Summary"
text: "Three trends will reshape banking..."
citations: ["McKinsey 2026", "Gartner Q1"]
- h1: "Trend 1: Agentic AI"
h2: "What it is"
text: "..."
images:
- path: "images/img-001.png"
caption: "AI agent architecture"
h2: "Why now"
text: "..."
Дальше — этот content-tree feed'ишь в slides или interactive-prototype как рабочий контент.
Если PDF — скан (изображения), pdftotext вернёт мусор. Признаки:
В этом случае → OCR (см. отдельный скилл ocr-restore если есть, или внешний tesseract).
uploads/source-<doc-name>/img-NNN.pnguploads/originals/ → теряется provenanceProvides behavioral guidelines to reduce common LLM coding mistakes, focusing on simplicity, surgical changes, assumption surfacing, and verifiable success criteria.
Searches, retrieves, and installs Agent Skills from prompts.chat registry using MCP tools like search_skills and get_skill. Activates for finding skills, browsing catalogs, or extending Claude.
Creates, edits, and optimizes skills for Claude Code, including drafting, evaluating with test prompts, iterating on performance, and improving skill descriptions for better triggering accuracy.
npx claudepluginhub jhamidun/claude-code-config-pack --plugin design-io