Skill

ml

Guides ML experiments: defines hypotheses, manages hyperparameters, validates datasets, detects bias, tracks training, evaluates models, compares results for PyTorch/TensorFlow/scikit-learn.

Python

Git

ai-ml

npx claudepluginhub arbazkhan971/godmode

Popularity

Stars

Forks

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/godmode:ml

User invocable

Model invocable

Inline context

Default effort

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

- `/godmode:ml`, "train a model", "compare experiments"

Supporting Files

references/ml-evaluation.md

SKILL.md

140 lines · ~968 tokens

Similar Skills

Harness ML Ops

Audits ML pipeline reproducibility, experiment tracking hygiene, and model versioning. Advises on serving patterns and prompt evaluation across MLflow, W&B, SageMaker, Vertex AI.

1 file

harness-claude

gradient

Assesses ML pipeline stage and applies patterns for data pipelines, model training, serving, MLOps, evaluation, and debugging with validations like schema checks, drift detection, and skew guards.

4 files

claude-code-superpowers

mle-workflow

Turns model work into production ML systems with data contracts, repeatable training, quality gates, deployable artifacts, and monitoring. Useful for ranking, search, recommendations, classifiers, forecasting, embeddings, LLMs, anomaly detection, and batch analytics.

everything-claude-code

Stats

LanguageShell

Stars18

Forks8

MaintenanceExcellent

Last CommitApr 25, 2026

Actions

View Source View Plugin View on GitHub View README

Help us improve

Share bugs, ideas, or general feedback.

Stats

Actions

Help us improve

Share bugs, ideas, or general feedback.

search: strategy: grid|random|bayesian|hyperband space: learning_rate: [1e-5, 1e-4, 1e-3, 1e-2] batch_size: [16, 32, 64, 128] dropout: uniform(0.1, 0.5) hidden_size: [128, 256, 512, 1024] trials: <total>

Total samples: <N> Split: train=<N>(<pct>%) / val=<N>(<pct>%) / test=<N> Quality checks: Missing values: <count per feature> Duplicates: <count exact duplicates> Outliers: <count, method used> Class balance: <ratio of majority/minority>

Test set: <N samples> (used ONCE for final eval) Accuracy: <val> Precision: <val> Recall: <val> F1: <val> AUC-ROC: <val> AUC-PR: <val> Statistical significance vs baseline: p=<val> (paired bootstrap, 10K iterations)

Failure	Action
Worse than baseline	Check leakage, preprocessing, balance
Training diverges	Reduce LR 10x, check NaN, normalize
Fails in production	Compare data distributions, check drift

Failure

Action

Worse than baseline

Check leakage, preprocessing, balance

Training diverges

Reduce LR 10x, check NaN, normalize

Fails in production

Compare data distributions, check drift

Failure	Action
Worse than baseline	Check leakage, preprocessing, balance
Training diverges	Reduce LR 10x, check NaN, normalize
Fails in production	Compare data distributions, check drift

Failure

Action

Worse than baseline

Check leakage, preprocessing, balance

Training diverges

Reduce LR 10x, check NaN, normalize

Fails in production

Compare data distributions, check drift

ml

Popularity

Invocation

Context Preview

Supporting Files

SKILL.md

Similar Skills

Help us improve

Help us improve

Find plugins for your project

ml

Popularity

Invocation

Context Preview

Supporting Files

SKILL.md

Activate When

Workflow

1. Experiment Definition

2. Hyperparameter Management

3. Dataset Validation

4. Bias Detection

5. Training and Tracking

6. Model Evaluation

7. Experiment Comparison

8. Commit and Transition

Hard Rules

TSV Logging

Keep/Discard

Stop Conditions

Autonomous Operation

Error Recovery

Similar Skills

Help us improve

Activate When

Workflow

1. Experiment Definition

2. Hyperparameter Management

3. Dataset Validation

4. Bias Detection

5. Training and Tracking

6. Model Evaluation

7. Experiment Comparison

8. Commit and Transition

Hard Rules

TSV Logging

Keep/Discard

Stop Conditions

Autonomous Operation

Error Recovery