Skill

podcast-generation

Generates audio narratives from text via Azure OpenAI Realtime API. Python backend streams WebSocket audio; JS frontend handles WAV playback.

Python

Javascript

OpenAI

ai-ml

From antigravity-awesome-skills

Install

Run in your terminal

npx claudepluginhub sickn33/antigravity-awesome-skills --plugin antigravity-awesome-skills

Tool Access

This skill uses the workspace's default tool permissions.

Skill Content

Similar Skills

agent-harness-construction

Designs and optimizes AI agent action spaces, tool definitions, observation formats, error recovery, and context for higher task completion rates.

everything-claude-code

139.9k

agent-payment-x402

Enables AI agents to execute x402 payments with per-task budgets, spending controls, and non-custodial wallets via MCP tools. Use when agents pay for APIs, services, or other agents.

everything-claude-code

139.9k

agent-eval

Compares coding agents like Claude Code and Aider on custom YAML-defined codebase tasks using git worktrees, measuring pass rate, cost, time, and consistency.

everything-claude-code

139.9k

Stats

Parent Repo Stars30787

Parent Repo Forks5140

Last CommitMar 27, 2026

Actions

View Source View Plugin View on GitHub View README

Tags

Core Workflow

Backend Audio Generation

from openai import AsyncOpenAI import base64 # Convert HTTPS endpoint to WebSocket URL ws_url = endpoint.replace("https://", "wss://") + "/openai/v1" client = AsyncOpenAI( websocket_base_url=ws_url, api_key=api_key ) audio_chunks = [] transcript_parts = [] async with client.realtime.connect(model="gpt-realtime-mini") as conn: # Configure for audio-only output await conn.session.update(session={ "output_modalities": ["audio"], "instructions": "You are a narrator. Speak naturally." }) # Send text to narrate await conn.conversation.item.create(item={ "type": "message", "role": "user", "content": [{"type": "input_text", "text": prompt}] }) await conn.response.create() # Collect streaming events async for event in conn: if event.type == "response.output_audio.delta": audio_chunks.append(base64.b64decode(event.delta)) elif event.type == "response.output_audio_transcript.delta": transcript_parts.append(event.delta) elif event.type == "response.done": break # Convert PCM to WAV (see scripts/pcm_to_wav.py) pcm_audio = b''.join(audio_chunks) wav_audio = pcm_to_wav(pcm_audio, sample_rate=24000)

Frontend Audio Playback

// Convert base64 WAV to playable blob const base64ToBlob = (base64, mimeType) => { const bytes = atob(base64); const arr = new Uint8Array(bytes.length); for (let i = 0; i < bytes.length; i++) arr[i] = bytes.charCodeAt(i); return new Blob([arr], { type: mimeType }); }; const audioBlob = base64ToBlob(response.audio_data, 'audio/wav'); const audioUrl = URL.createObjectURL(audioBlob); new Audio(audioUrl).play();

Voice	Character
alloy	Neutral
echo	Warm
fable	Expressive
onyx	Deep
nova	Friendly
shimmer	Clear

Voice

Character

alloy

Neutral

echo

Warm

fable

Expressive

onyx

Deep

nova

Friendly

shimmer

Clear

Core Workflow

Backend Audio Generation

Frontend Audio Playback

Voice	Character
alloy	Neutral
echo	Warm
fable	Expressive
onyx	Deep
nova	Friendly
shimmer	Clear

Voice

Character

alloy

Neutral

echo

Warm

fable

Expressive

onyx

Deep

nova

Friendly

shimmer

Clear

podcast-generation

podcast-generation

Podcast Generation with GPT Realtime Mini

Quick Start

Environment Configuration

Core Workflow

Backend Audio Generation

Frontend Audio Playback

Voice Options

Realtime API Events

Audio Format

References

When to Use

Podcast Generation with GPT Realtime Mini

Quick Start

Environment Configuration

Core Workflow

Backend Audio Generation

Frontend Audio Playback

Voice Options

Realtime API Events

Audio Format

References

When to Use