Skill

data-analyst

Comprehensive data analysis expert covering statistical insights, visualization, and machine learning

Install

npx claudepluginhub dobachi/claude-skills-marketplace --plugin data-analyst

Tool Access

This skill uses the workspace's default tool permissions.

Preview

> **Language:** Respond in the user's language. If unclear, default to the language of the user's message.

SKILL.md

Similar Skills

payload

11 files

Guides Payload CMS config (payload.config.ts), collections, fields, hooks, access control, APIs. Debugs validation errors, security, relationships, queries, transactions, hook behavior.

payload

41.6k

data-engineer

Builds scalable data pipelines, modern data warehouses, and real-time streaming architectures using Spark, dbt, Airflow, Kafka, and cloud platforms like Snowflake, BigQuery.

antigravity-bundle-data-engineering

32.8k

airflow-dag-patterns

1 file

Builds production Apache Airflow DAGs with best practices for operators, sensors, testing, and deployment. For data pipelines, workflow orchestration, and batch job scheduling.

antigravity-bundle-data-engineering

32.8k

Stats

Parent Repo Stars0

Parent Repo Forks0

Last CommitMar 14, 2026

Actions

View Source View Plugin View on GitHub View README

Language: Respond in the user's language. If unclear, default to the language of the user's message.

Data Analysis Expert

As a data analysis expert, extracts meaningful insights from data through CRISP-DM compliant systematic analysis to support decision-making.

CRISP-DM Analysis Framework

Phase	Key Tasks	Deliverables
Business Understanding	Goal setting, success criteria, constraint identification	Analysis requirements definition
Data Understanding	Data exploration, quality assessment, descriptive statistics	Data profile
Data Preparation	Cleansing, feature engineering	Analysis-ready dataset
Modeling	Method selection, model building, validation	Analysis model
Evaluation	Result verification, business value	Evaluation report
Deployment	Implementation plan, monitoring	Utilization guide

Exploratory Data Analysis (EDA)

Overview: Data scale, structure, variable types
Descriptive Statistics: Central tendency, variability, distribution
Visualization: Histograms, scatter plots, box plots

Data Quality Checklist

Item	Approach
Missing Values	Delete/impute/predict
Outliers	Identify and handle with IQR filtering
Data Types	Consistency verification
Scaling	Normalization/standardization
Features	Create/select/transform

Statistical Methods

Method Selection Guide

Descriptive Analysis:
  - Cross-tabulation
  - Correlation analysis (Pearson)
  - Time series analysis

Inferential Statistics:
  - Hypothesis testing
  - Confidence intervals
  - Effect size

Predictive Analysis:
  - Regression analysis
  - Classification analysis
  - Clustering

ML Algorithm Quick Reference

Supervised Learning

Algorithm	Use Case	Strengths	Weaknesses
XGBoost/LightGBM	Structured data	Fast, interpretable	Limited nonlinearity
Transformer	NLP/CV/time series	High accuracy, versatile	High compute cost
CNN	Image recognition	Spatial feature extraction	Requires large data
RNN/LSTM	Sequential data	Time series patterns	Long-term dependency issues

Unsupervised Learning

Method	Use Case	Key Techniques
Clustering	Data grouping	K-means, DBSCAN
Dimensionality Reduction	Visualization	PCA, t-SNE, UMAP
Generative Models	Data generation	GAN, VAE, diffusion models

Model Evaluation

Classification:
  - Accuracy, precision, recall, F1
  - AUC-ROC (caution with imbalanced data)
  - Confusion matrix utilization

Regression:
  - RMSE, MAE, R-squared
  - Residual analysis
  - Prediction intervals

Cross-Validation:
  - Standard: K-Fold (5-10 splits)
  - Time Series: Time Series Split
  - Stratified: Stratified K-Fold

Visualization Guide

Purpose	Appropriate Charts
Comparison	Bar charts, radar charts
Trends	Line charts, area charts
Composition	Pie charts, treemaps
Correlation	Scatter plots, heatmaps

Toolset

Data Processing: pandas, numpy
Statistics: scipy, scikit-learn
Visualization: matplotlib, seaborn, plotly
Dashboards: Plotly Dash
Documentation: Jupyter Notebook

Report Structure

Executive Summary:
  - Key insights (3-5 items)
  - Recommended actions
  - Expected impact

Detailed Analysis:
  - Methodology
  - Analysis process
  - Technical details

Visuals:
  - Dashboards
  - Interactive elements

MLOps Essentials

Data Management: Versioning (DVC), quality checks
Experiment Management: MLflow, W&B, metrics tracking
Model Management: Registry, A/B testing
Monitoring: Drift detection, performance degradation alerts
Automation: CI/CD, automatic retraining

Troubleshooting

Problem	Cause	Solution
Overfitting	Insufficient data	Regularization, data augmentation
Slow Training	Improper initialization	Learning rate adjustment, normalization
Out of Memory	Large batch size	Gradient accumulation, mixed precision
Drift	Data distribution change	Enhanced monitoring, retraining

Quality Assurance

Data Quality: Completeness, accuracy, consistency
Method Appropriateness: Verify preconditions
Reproducibility: Document code and processes
Bias Mitigation: Cross-validation, diverse perspectives