From tecjustica
Extracts text and metadata from PJe judicial PDFs on Windows using LiteParse 'lit' CLI. Handles scanned pages with OCR; for local files with CNJ numbers like NNNNNNN-DD.AAAA.J.TR.OOOO.
npx claudepluginhub marcosmarf27/tecjustica --plugin tecjusticaThis skill uses the workspace's default tool permissions.
Skill para extrair conteúdo de PDFs de autos do **PJe (Processo Judicial Eletrônico)** em Windows. O LiteParse lida bem com o padrão típico do PJe: capa padronizada + documentos anexados, frequentemente escaneados (OCR), podendo chegar a centenas de páginas.
Provides UI/UX resources: 50+ styles, color palettes, font pairings, guidelines, charts for web/mobile across React, Next.js, Vue, Svelte, Tailwind, React Native, Flutter. Aids planning, building, reviewing interfaces.
Fetches up-to-date documentation from Context7 for libraries and frameworks like React, Next.js, Prisma. Use for setup questions, API references, and code examples.
Explores codebases via GitNexus: discover repos, query execution flows, trace processes, inspect symbol callers/callees, and review architecture.
Share bugs, ideas, or general feedback.
Skill para extrair conteúdo de PDFs de autos do PJe (Processo Judicial Eletrônico) em Windows. O LiteParse lida bem com o padrão típico do PJe: capa padronizada + documentos anexados, frequentemente escaneados (OCR), podendo chegar a centenas de páginas.
Acione esta skill quando o usuário:
/liteparse-windowsC:\...\0000001-23.2025.8.06.0203.pdf")NNNNNNN-DD.AAAA.J.TR.OOOO) junto com um pedido de extraçãoSe o usuário pedir para baixar os autos, esta skill não cobre isso — redirecione para uma das skills de download (baixar-autos-pje via Claude in Chrome, ou pje-download via browser-use).
Antes de qualquer parse, valide rapidamente:
lit --version
Se o comando falhar, pare e informe o usuário que precisa instalar @llamaindex/liteparse globalmente (npm i -g @llamaindex/liteparse). Não entre em tutoriais longos de instalação — essa skill pressupõe ambiente pronto.
Dependências opcionais (já esperadas no Windows do usuário):
ls -la "<caminho-do-pdf>"
Anote o tamanho — PDFs do PJe acima de ~5 MB quase sempre têm páginas escaneadas (OCR vai rodar). Abaixo disso costumam ser texto nativo.
Comando padrão, saída em texto, salvando ao lado do PDF:
lit parse "<caminho-do-pdf>" --format text -o "<caminho-do-pdf-sem-.pdf>.txt"
Por padrão o LiteParse:
Para processos grandes (>50 páginas com OCR), rode em background para não travar a conversa:
lit parse "<caminho>" --format text -o "<saida.txt>"
# com run_in_background=true no Bash tool
Enquanto roda, avise o usuário: "Processando em background (pode levar vários minutos se houver OCR em muitas páginas)."
Assim que o parse terminar, sempre leia as primeiras ~120 linhas do .txt e extraia os campos da capa padronizada do PJe. Monte uma tabela e apresente ao usuário:
| Campo | Onde encontrar na capa |
|---|---|
| Número | linha "Número: NNNNNNN-DD.AAAA.J.TR.OOOO" |
| Classe | linha "Classe: ..." |
| Órgão julgador | linha "Órgão julgador: ..." |
| Distribuição | linha "Última distribuição:" |
| Valor da causa | linha "Valor da causa: R$ ..." |
| Assuntos | linha "Assuntos: ..." |
| Sigilo | linha "Nível de Sigilo:" |
| Justiça gratuita | "Justiça gratuita? SIM/NÃO" |
| Liminar/tutela | "Pedido de liminar ou antecipação de tutela? SIM/NÃO" |
Depois identifique:
Dica: o número CNJ revela o tribunal pelo código TR (posições 15-16):
| TR | Tribunal |
|---|---|
| 06 | TJCE |
| 26 | TJSP |
| 19 | TJRS |
| 02 | TJRJ |
| 05 | TJBA |
| 04 | TRFs (01-06 conforme região) |
Mencione o tribunal detectado no relatório.
Depois do relatório, pergunte ao usuário se quer algum destes:
--target-pages quando souber o rangelit parse ... --format json — útil quando a saída vai alimentar um agente/LLM ou extração estruturadalit screenshot <pdf> --pages "1,3,5" -o ./screenshots.txt gerado (valores, datas, nomes) — use Grep diretocode "<caminho.txt>"| Situação | Flag |
|---|---|
| PDF só com texto nativo (sem scans) — parse mais rápido | --no-ocr |
| Scan de baixa qualidade (letras borradas) | --dpi 300 |
| Só algumas páginas | --target-pages "1-10,45,80-90" |
| Texto em rodapé/carimbo muito pequeno sumindo | --preserve-small-text |
| Documentos com texto em ângulo (assinaturas digitalizadas) | remover --skip-diagonal-text se estiver setado |
| OCR errando em português | --ocr-language por (exige modelo Tesseract por) |
| Lote de vários PDFs de um mesmo processo | lit batch-parse <dir> <out-dir> --extension .pdf --recursive |
lit parse "C:/Users/marco/processos/0000001-23.2025.8.06.0203.pdf" ...
\ funcionam dentro de aspas duplas, mas misture com cuidadoSe o usuário pedir PowerShell explicitamente:
lit parse "C:\Users\marco\processos\0000001-23.2025.8.06.0203.pdf" --format text -o "C:\Users\marco\processos\0000001-23.2025.8.06.0203.txt"
A sintaxe das flags do lit é idêntica; só muda o shell ao redor.
code "<caminho.txt>" # VS Code
notepad "<caminho.txt>" # Bloco de Notas (fallback)
| Sintoma | Causa provável | Ação |
|---|---|---|
lit: command not found | CLI não instalado ou fora do PATH | npm i -g @llamaindex/liteparse, reabrir shell |
| OCR travando em uma página específica | Página com imagem gigante ou corrompida | Pular com --target-pages excluindo a página |
| Texto em português saindo embaralhado | Tesseract sem modelo por | Instalar modelo ou usar --ocr-server-url externo |
| Anexo DOCX não sendo processado | LibreOffice ausente ou fora do PATH | Verificar soffice --version |
| Parse muito lento (>30min em 200 páginas) | DPI alto + OCR pesado | Reduzir para --dpi 150 ou desativar OCR com --no-ocr se o PDF for nativo |
| Saída em branco | PDF criptografado/protegido | Avisar o usuário — LiteParse não quebra senha |
PDFs gerados pelo PJe tipicamente contêm:
O LiteParse trata essa mistura automaticamente. Páginas escaneadas aparecem nos logs como OCR on page N → Found X text items. Poucos text items (< 20) costumam indicar páginas de carimbo/assinatura com pouco conteúdo útil — normal.
Esta skill é uma casca fina sobre o CLI lit. A inteligência vem de:
Se em algum momento o usuário quiser um comportamento que diverge — ex.: parsear um PDF que não é do PJe, ou um XLSX qualquer — use a skill genérica liteparse no lugar desta.