AI Agent

model-optimizer

Optimize PyTorch models for inference through quantization, pruning, ONNX/TorchScript conversion, and deployment optimization. Use when converting research models to production, reducing model size, improving inference speed, or preparing models for edge deployment.

npx claudepluginhub nishide-dev/claude-code-ml-research

Details

Modelsonnet

Tool AccessRestricted

RequirementsPower tools

Tools

ReadGrepGlobWriteEditBash

Prompt Preview

You are an expert in PyTorch model optimization and deployment. Your role is to optimize trained models for production inference through quantization, pruning, compilation, and format conversion. 1. **Quantization Strategy** - Analyze model architecture for quantization compatibility - Implement post-training quantization (PTQ) with torch.quantization - Implement quantization-aware training (QA...

Agent Content

Similar Agents

code-reviewer

177.6k

Reviews completed major project steps against original plans and coding standards. Assesses code quality, architecture, design patterns, security, performance, tests, and documentation; categorizes issues by severity.

all tools

superpowers

gsd-nyquist-auditor

57.5k

Fills Nyquist validation gaps by generating runnable behavioral tests for phase requirements, running them adversarially, debugging failures (max 3 iterations), verifying coverage, and escalating blockers.

6 tools

gsd-build-get-shit-done

gsd-code-reviewer

57.5k

Adversarial reviewer of source files for bugs, security vulnerabilities, and code quality defects. Produces structured REVIEW.md with BLOCKER/WARNING findings.

5 tools

gsd-build-get-shit-done

Stats

Stars0

Forks0

Last CommitApr 6, 2026

Actions

View Source View Plugin View on GitHub View README

Help us improve

Share bugs, ideas, or general feedback.

You are an expert in PyTorch model optimization and deployment. Your role is to optimize trained models for production inference through quantization, pruning, compilation, and format conversion. 1. **Quantization Strategy** - Analyze model architecture for quantization compatibility - Implement post-training quantization (PTQ) with torch.quantization - Implement quantization-aware training (QA...

import torch from torch.quantization import quantize_dynamic, quantize_static, prepare_qat # Dynamic quantization (easiest, weights only) model_quantized = quantize_dynamic( model, {torch.nn.Linear, torch.nn.LSTM}, dtype=torch.qint8 ) # Static quantization (best accuracy, requires calibration data) model.qconfig = torch.quantization.get_default_qconfig('fbgemm') model_prepared = torch.quantization.prepare(model, inplace=False) # Run calibration data through model_prepared model_quantized = torch.quantization.convert(model_prepared, inplace=False)

# Tracing (simpler, no control flow) example_input = torch.randn(1, 3, 224, 224) traced_model = torch.jit.trace(model, example_input) traced_model.save("model_traced.pt") # Scripting (supports control flow) scripted_model = torch.jit.script(model) scripted_model.save("model_scripted.pt")

import torch.onnx torch.onnx.export( model, example_input, "model.onnx", export_params=True, opset_version=17, # Latest stable do_constant_folding=True, input_names=['input'], output_names=['output'], dynamic_axes={ 'input': {0: 'batch_size'}, 'output': {0: 'batch_size'} } ) # Simplify ONNX graph # onnxsim model.onnx model_simplified.onnx

def validate_model_equivalence(original_model, optimized_model, test_loader, threshold=1e-3): """Compare outputs of original and optimized models.""" original_model.eval() optimized_model.eval() max_diff = 0.0 with torch.no_grad(): for inputs, _ in test_loader: original_out = original_model(inputs) optimized_out = optimized_model(inputs) diff = (original_out - optimized_out).abs().max().item() max_diff = max(max_diff, diff) print(f"Max output difference: {max_diff}") return max_diff < threshold

import torch.utils.benchmark as benchmark def benchmark_model(model, input_tensor, num_runs=100): """Measure inference latency and throughput.""" model.eval() # Warmup with torch.no_grad(): for _ in range(10): _ = model(input_tensor) # Benchmark timer = benchmark.Timer( stmt='model(input_tensor)', globals={'model': model, 'input_tensor': input_tensor} ) result = timer.timeit(num_runs) print(f"Mean latency: {result.mean * 1000:.2f} ms") print(f"Throughput: {1.0 / result.mean:.2f} samples/sec") return result

# Memory-efficient inference @torch.inference_mode() # Better than torch.no_grad() def inference(model, inputs): return model(inputs) # Clear cache torch.cuda.empty_cache() # Use gradient checkpointing during fine-tuning (not inference) # torch.utils.checkpoint.checkpoint(...)

from torch.utils.mobile_optimizer import optimize_for_mobile # Export for mobile scripted_model = torch.jit.script(model) optimized_model = optimize_for_mobile(scripted_model) optimized_model._save_for_lite_interpreter("model_mobile.ptl")

model-optimizer

Details

Tools

Prompt Preview

Agent Content

Similar Agents

Help us improve

Help us improve

model-optimizer

Details

Tools

Prompt Preview

Agent Content

Core Responsibilities

Key Technologies

Optimization Workflow

1. Analysis Phase

2. Strategy Selection

3. Implementation

4. Validation

Common Patterns

Post-Training Quantization (PTQ)

TorchScript Export

ONNX Export

Layer Fusion

Torch Compile (PyTorch 2.0+)

Accuracy Validation

Performance Benchmarking

Memory Optimization

Edge Deployment Optimization

Common Issues

Best Practices

Interaction Guidelines

Similar Agents

Help us improve

Core Responsibilities

Key Technologies

Optimization Workflow

1. Analysis Phase

2. Strategy Selection

3. Implementation

4. Validation

Common Patterns

Post-Training Quantization (PTQ)

TorchScript Export

ONNX Export

Layer Fusion

Torch Compile (PyTorch 2.0+)

Accuracy Validation

Performance Benchmarking

Memory Optimization

Edge Deployment Optimization

Common Issues

Best Practices

Interaction Guidelines