Skill

domino-datasets

Creates and manages Domino Datasets with versioned filesystem storage, snapshots, and cross-project sharing. Use for reproducible data management and large dataset access.

data-engineering

Popularity

Stars

Forks

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/dominodatalab:datasets

User invocable

Model invocable

Inline context

Default effort

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

This skill helps users work with Domino Datasets - high-performance, versioned filesystem storage for data science projects.

SKILL.md

393 lines · ~2.7k tokens

Stats

LanguagePython

Stars6

Forks3

MaintenanceExcellent

Last CommitJul 9, 2026

Actions

View Source View Plugin View on GitHub View README

Domino Datasets Skill

Description

This skill helps users work with Domino Datasets - high-performance, versioned filesystem storage for data science projects.

Activation

Activate this skill when users want to:

Create or manage Domino Datasets
Work with dataset snapshots and versioning
Share data between projects
Access large datasets efficiently
Understand dataset paths and mounting

What is a Domino Dataset?

A Domino Dataset is:

High-performance storage: Network filesystem optimized for data science
Versioned: Create snapshots for reproducibility
Shareable: Access across projects
Scalable: No file size or count limits
Persistent: Data persists across executions

Creating a Dataset

Via Domino UI

Navigate to your project
Go to Data > Domino Datasets
Click Create New Dataset
Enter:
- Name: Dataset name (e.g., training-data)
- Description: What the dataset contains
Click Create

Via Python SDK

from domino import Domino

domino = Domino("project-owner/project-name")

# Create a new dataset
dataset = domino.datasets_create(
    name="training-data",
    description="Training data for classification model"
)

Dataset Paths

Dataset paths differ based on your project type. Domino has two project types with different mount structures.

DFS (Domino File System) Projects

DFS projects use /domino as the root:

/domino
   |--/datasets
      |--/local               <== Local datasets and snapshots
         |--/clapton          <== Read-write dataset for owner and editor, read-only for reader
         |--/mingus           <== Read-write dataset for owner and editor, read-only for reader
         |--/snapshots        <== Snapshot folder organized by dataset
            |--/clapton       <== Read-write for owner and editor, read-only for reader
               |--/tag1          <== Mounted under latest tag
               |--/1             <== Always mounted under the snapshot number
               |--/2
            |--/mingus
               |--/tag2
               |--/1
               |--/2
      |--/ella                <== Read-write shared dataset for owner and editor, Read-only for reader
      |--/davis               <== Read-write shared dataset for owner and editor, Read-only for reader
      |--/snapshots           <== Shared datasets snapshots organized by dataset
         |--/ella             <== Read-write for owner and editor, read-only for reader
            |--/tag3          <== Mounted under latest tag
            |--/1             <== Always mounted under the snapshot number
            |--/2
         |--/davis
            |--/tag4
            |--/1
            |--/2

Dataset Type	Path
Local datasets	`/domino/datasets/local/{dataset-name}/`
Local snapshots	`/domino/datasets/local/snapshots/{dataset-name}/{tag-or-number}/`
Shared datasets	`/domino/datasets/{dataset-name}/`
Shared snapshots	`/domino/datasets/snapshots/{dataset-name}/{tag-or-number}/`

Git-Based Projects

Git-based projects use /mnt as the root:

/mnt
   |--/data                  <== Local datasets and snapshots
     |--/clapton             <== Read-write dataset for owner and editor, read-only for reader
     |--/mingus              <== Read-write dataset for owner and editor, read-only for reader
     |--/snapshots           <== Snapshot folder organized by dataset
        |--/clapton          <== Read-write for owner and editor, read-only for reader
           |--/tag1          <== Mounted under latest tag
           |--/1             <== Always mounted under the snapshot number
           |--/2
        |--/mingus
           |--/tag2
           |--/1
           |--/2
   |--/imported
     |--/data
        |--/ella             <== Read-write shared dataset for owner and editor, read-only for reader
        |--/davis            <== Read-write shared dataset for owner and editor, read-only for reader
        |--/snapshots        <== Shared dataset snapshots organized by dataset
           |--/ella          <== Read-write for owner and editor, read-only for reader
              |--/tag3       <== Mounted under latest tag
              |--/1          <== Always mounted under the snapshot number
              |--/2
           |--/davis
              |--/tag4
              |--/1
              |--/2

Dataset Type	Path
Local datasets	`/mnt/data/{dataset-name}/`
Local snapshots	`/mnt/data/snapshots/{dataset-name}/{tag-or-number}/`
Shared datasets	`/mnt/imported/data/{dataset-name}/`
Shared snapshots	`/mnt/imported/data/snapshots/{dataset-name}/{tag-or-number}/`

How to Identify Your Project Type

Check which paths exist in your execution:

import os

if os.path.exists("/domino/datasets"):
    print("DFS Project")
    dataset_root = "/domino/datasets/local"
elif os.path.exists("/mnt/data"):
    print("Git-Based Project")
    dataset_root = "/mnt/data"

Permissions

Both project types follow the same permission model:

Owners/Editors: Read-write access to datasets
Readers: Read-only access

Example: Reading Data

import pandas as pd

# Git-Based Project
df = pd.read_csv("/mnt/data/training-data/customers.csv")

# DFS Project
df = pd.read_csv("/domino/datasets/local/training-data/customers.csv")

# List files
import os
files = os.listdir("/mnt/data/training-data/")  # Git-Based
files = os.listdir("/domino/datasets/local/training-data/")  # DFS

Uploading Data

Via Domino UI

Go to dataset page
Click Upload
Select files (up to 50GB or 50,000 files via UI)
Click Upload

Via Domino CLI (Large Uploads)

# For large uploads, use CLI
domino upload /local/path/to/data /mnt/data/training-data/

Via Code in Workspace

import shutil

# Copy from local to dataset
shutil.copy("local_file.csv", "/mnt/data/training-data/")

# Write directly
df.to_csv("/mnt/data/training-data/processed.csv", index=False)

Snapshots

What is a Snapshot?

A snapshot is a read-only, immutable version of your dataset at a point in time. Use snapshots for:

Reproducibility
Versioning training data
Rolling back to previous states

Create a Snapshot

# Via Python SDK
snapshot = domino.datasets_snapshot(
    dataset_name="training-data",
    tag="v1.0"
)

Or via UI:

Go to dataset page
Click Create Snapshot
Add optional tag (e.g., v1.0, production)

Access Snapshots

# Latest snapshot
df = pd.read_csv("/mnt/data/training-data/data.csv")

# Specific tagged snapshot
df = pd.read_csv("/mnt/data/[email protected]/data.csv")

Snapshot Limits

Default limit: 20 snapshots per dataset
Configurable by admins
Oldest snapshots auto-deleted when limit reached

Sharing Datasets

Within Organization

Go to dataset settings
Set visibility to Organization
Other projects can mount the dataset

Cross-Project Access

# Import dataset from another project
# Configured in project settings
df = pd.read_csv("/mnt/data/shared-dataset/data.csv")

Best Practices

1. Use Appropriate Storage

Data Type	Storage
Large training data	Domino Dataset
Model artifacts	`/mnt/artifacts/`
Code	Git/Project files
Temporary files	`/tmp/`

2. Organize Data

/mnt/data/my-dataset/
├── raw/
│   ├── customers.csv
│   └── transactions.csv
├── processed/
│   ├── features.parquet
│   └── labels.parquet
└── metadata/
    └── schema.json

3. Use Efficient Formats

# Parquet for tabular data (faster, smaller)
df.to_parquet("/mnt/data/dataset/data.parquet")

# Feather for pandas DataFrames
df.to_feather("/mnt/data/dataset/data.feather")

# HDF5 for numerical arrays
import h5py
with h5py.File("/mnt/data/dataset/data.h5", "w") as f:
    f.create_dataset("features", data=features)

4. Document Data

Include README and schema:

# Write metadata
metadata = {
    "created": "2024-01-15",
    "source": "Customer database",
    "columns": {"id": "int", "name": "string", "value": "float"}
}

with open("/mnt/data/dataset/metadata.json", "w") as f:
    json.dump(metadata, f)

5. Snapshot Before Changes

# Create snapshot before processing
domino.datasets_snapshot(
    dataset_name="training-data",
    tag="pre-processing"
)

# Then modify data
process_data()

Reading Large Datasets

Chunked Reading

# Read in chunks
chunks = pd.read_csv(
    "/mnt/data/dataset/large_file.csv",
    chunksize=100000
)

for chunk in chunks:
    process(chunk)

Lazy Loading with Dask

import dask.dataframe as dd

# Read without loading into memory
df = dd.read_parquet("/mnt/data/dataset/large_data.parquet")

# Process lazily
result = df.groupby("category").mean().compute()

Memory Mapping

import numpy as np

# Memory-map large arrays
data = np.memmap(
    "/mnt/data/dataset/features.dat",
    dtype='float32',
    mode='r',
    shape=(1000000, 100)
)

domino-datasets

Popularity

Invocation

Context Preview

SKILL.md

domino-datasets

Popularity

Invocation

Context Preview

SKILL.md

Domino Datasets Skill

Description

Activation

What is a Domino Dataset?

Creating a Dataset

Via Domino UI

Via Python SDK

Dataset Paths

DFS (Domino File System) Projects

Git-Based Projects

How to Identify Your Project Type

Permissions

Example: Reading Data

Uploading Data

Via Domino UI

Via Domino CLI (Large Uploads)

Via Code in Workspace

Snapshots

What is a Snapshot?

Create a Snapshot

Access Snapshots

Snapshot Limits

Tags

What are Tags?

Move Tags

Sharing Datasets

Within Organization

Cross-Project Access

Best Practices

1. Use Appropriate Storage

2. Organize Data

3. Use Efficient Formats

4. Document Data

5. Snapshot Before Changes

Reading Large Datasets

Chunked Reading

Lazy Loading with Dask

Memory Mapping

Troubleshooting

Dataset Not Found

Permission Denied

Slow Performance

Snapshot Failed

Documentation Reference

Similar Skills

Domino Datasets Skill

Description

Activation

What is a Domino Dataset?

Creating a Dataset

Via Domino UI

Via Python SDK

Dataset Paths

DFS (Domino File System) Projects

Git-Based Projects

How to Identify Your Project Type

Permissions

Example: Reading Data

Uploading Data

Via Domino UI

Via Domino CLI (Large Uploads)

Via Code in Workspace

Snapshots

What is a Snapshot?

Create a Snapshot

Access Snapshots

Snapshot Limits

Tags

What are Tags?

Move Tags