Skill

pdf

Processes PDFs in Python: extracts text/tables (pdfplumber), merges/splits/rotates (pypdf), generates new PDFs (reportlab). Triggers on PDF tasks or .pdf files.

Python

developer-tools

automation

Install

npx claudepluginhub joshuarweaver/cascade-code-general-misc-3 --plugin marcelleon-skills-zh

Tool Access

This skill uses the workspace's default tool permissions.

Preview

本技能覆盖常见 PDF 工作流（Python + 命令行）。

Supporting Assets

LICENSE.txtforms.mdreference.mdscripts/check_bounding_boxes.pyscripts/check_fillable_fields.pyscripts/convert_pdf_to_images.pyscripts/create_validation_image.pyscripts/extract_form_field_info.pyscripts/extract_form_structure.pyscripts/fill_fillable_fields.pyscripts/fill_pdf_form_with_annotations.py

SKILL.md

Similar Skills

applying-brand-guidelines

3 files

Applies Acme Corporation brand guidelines including colors, fonts, layouts, and messaging to generated PowerPoint, Excel, and PDF documents.

anthropics-claude-cookbooks

41.6k

creating-financial-models

2 files

Builds DCF models with sensitivity analysis, Monte Carlo simulations, and scenario planning for investment valuation and risk assessment.

anthropics-claude-cookbooks

41.6k

analyzing-financial-statements

2 files

Calculates profitability (ROE, margins), liquidity (current ratio), leverage, efficiency, and valuation (P/E, EV/EBITDA) ratios from financial statements in CSV, JSON, text, or Excel for investment analysis.

anthropics-claude-cookbooks

41.6k

Stats

Stars28

Forks3

Last CommitMar 12, 2026

Actions

View Source View Plugin View on GitHub View README

PDF 处理指南

概览

本技能覆盖常见 PDF 工作流（Python + 命令行）。
若要填写 PDF 表单，请额外阅读 forms.md；更深入的扩展能力可看 reference.md。

快速开始

from pypdf import PdfReader, PdfWriter

reader = PdfReader("document.pdf")
print(f"Pages: {len(reader.pages)}")

text = ""
for page in reader.pages:
    text += page.extract_text()

Python 库

pypdf（基础结构处理）

合并

from pypdf import PdfWriter, PdfReader

writer = PdfWriter()
for pdf_file in ["doc1.pdf", "doc2.pdf", "doc3.pdf"]:
    reader = PdfReader(pdf_file)
    for page in reader.pages:
        writer.add_page(page)

with open("merged.pdf", "wb") as output:
    writer.write(output)

拆分

reader = PdfReader("input.pdf")
for i, page in enumerate(reader.pages):
    writer = PdfWriter()
    writer.add_page(page)
    with open(f"page_{i+1}.pdf", "wb") as output:
        writer.write(output)

元数据

reader = PdfReader("document.pdf")
meta = reader.metadata
print(meta.title, meta.author, meta.subject, meta.creator)

旋转页面

reader = PdfReader("input.pdf")
writer = PdfWriter()

page = reader.pages[0]
page.rotate(90)
writer.add_page(page)

with open("rotated.pdf", "wb") as output:
    writer.write(output)

pdfplumber（文本/表格抽取）

文本抽取

import pdfplumber

with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        print(page.extract_text())

表格抽取

with pdfplumber.open("document.pdf") as pdf:
    for i, page in enumerate(pdf.pages):
        tables = page.extract_tables()
        for j, table in enumerate(tables):
            print(f"Table {j+1} on page {i+1}:")
            for row in table:
                print(row)

进阶：多表拼接

import pandas as pd
import pdfplumber

all_tables = []
with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        for table in page.extract_tables():
            if table:
                all_tables.append(pd.DataFrame(table[1:], columns=table[0]))

if all_tables:
    pd.concat(all_tables, ignore_index=True).to_excel("extracted_tables.xlsx", index=False)

reportlab（新建 PDF）

基础单页

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

c = canvas.Canvas("hello.pdf", pagesize=letter)
width, height = letter

c.drawString(100, height - 100, "Hello World!")
c.drawString(100, height - 120, "This is a PDF created with reportlab")
c.line(100, height - 140, 400, height - 140)
c.save()

多页文档

from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, PageBreak
from reportlab.lib.styles import getSampleStyleSheet

doc = SimpleDocTemplate("report.pdf", pagesize=letter)
styles = getSampleStyleSheet()
story = []

story.append(Paragraph("Report Title", styles["Title"]))
story.append(Spacer(1, 12))
story.append(Paragraph("This is the body of the report. " * 20, styles["Normal"]))
story.append(PageBreak())
story.append(Paragraph("Page 2", styles["Heading1"]))
story.append(Paragraph("Content for page 2", styles["Normal"]))

doc.build(story)

下标/上标（关键）

不要直接用 Unicode 下标/上标字符（在默认字体里容易显示为黑方块）。
用 Paragraph 的标记语法：

from reportlab.platypus import Paragraph
from reportlab.lib.styles import getSampleStyleSheet

styles = getSampleStyleSheet()
chemical = Paragraph("H<sub>2</sub>O", styles["Normal"])
squared = Paragraph("x<super>2</super> + y<super>2</super>", styles["Normal"])

命令行工具

`pdftotext`

pdftotext input.pdf output.txt
pdftotext -layout input.pdf output.txt
pdftotext -f 1 -l 5 input.pdf output.txt

`qpdf`

qpdf --empty --pages file1.pdf file2.pdf -- merged.pdf
qpdf input.pdf --pages . 1-5 -- pages1-5.pdf
qpdf input.pdf output.pdf --rotate=+90:1
qpdf --password=mypassword --decrypt encrypted.pdf decrypted.pdf

`pdftk`（若环境可用）

pdftk file1.pdf file2.pdf cat output merged.pdf
pdftk input.pdf burst
pdftk input.pdf rotate 1east output rotated.pdf

常见任务模板

扫描版 OCR

import pytesseract
from pdf2image import convert_from_path

images = convert_from_path("scanned.pdf")
text = ""
for i, image in enumerate(images):
    text += f"Page {i+1}:\n"
    text += pytesseract.image_to_string(image)
    text += "\n\n"

print(text)

加水印

from pypdf import PdfReader, PdfWriter

watermark = PdfReader("watermark.pdf").pages[0]
reader = PdfReader("document.pdf")
writer = PdfWriter()

for page in reader.pages:
    page.merge_page(watermark)
    writer.add_page(page)

with open("watermarked.pdf", "wb") as output:
    writer.write(output)

抽取图片

pdfimages -j input.pdf output_prefix

加密

from pypdf import PdfReader, PdfWriter

reader = PdfReader("input.pdf")
writer = PdfWriter()
for page in reader.pages:
    writer.add_page(page)

writer.encrypt("userpassword", "ownerpassword")
with open("encrypted.pdf", "wb") as output:
    writer.write(output)

快速索引

任务	推荐
合并/拆分/旋转	`pypdf`
文本/表格提取	`pdfplumber`
新建 PDF	`reportlab`
命令行流水线	`qpdf`/`pdftotext`
OCR	`pytesseract` + `pdf2image`
表单填写	先读 forms.md

下一步

进阶技巧看 reference.md
表单填写严格按 forms.md

pdf

Install

Tool Access

Preview

Supporting Assets

SKILL.md

Similar Skills

pdf

Install

Tool Access

Preview

Supporting Assets

SKILL.md

PDF 处理指南

概览

快速开始

Python 库

pypdf（基础结构处理）

合并

拆分

元数据

旋转页面

pdfplumber（文本/表格抽取）

文本抽取

表格抽取

进阶：多表拼接

reportlab（新建 PDF）

基础单页

多页文档

下标/上标（关键）

命令行工具

pdftotext

qpdf

pdftk（若环境可用）

常见任务模板

扫描版 OCR

加水印

抽取图片

加密

快速索引

下一步

Similar Skills

PDF 处理指南

概览

快速开始

Python 库

pypdf（基础结构处理）

合并

拆分

元数据

旋转页面

pdfplumber（文本/表格抽取）

文本抽取

表格抽取

进阶：多表拼接

reportlab（新建 PDF）

基础单页

多页文档

下标/上标（关键）

命令行工具

pdftotext

qpdf

pdftk（若环境可用）

常见任务模板

扫描版 OCR

加水印

抽取图片

加密

快速索引

下一步

`pdftotext`

`qpdf`

`pdftk`（若环境可用）

`pdftotext`

`qpdf`

`pdftk`（若环境可用）