Skill

insane-search

Automatically bypasses WAF/bot blocks on sites like Twitter, Reddit, YouTube, GitHub via yt-dlp for media, public APIs, Jina Reader, curl_cffi TLS impersonation, and Playwright Chrome fallback. Use when WebFetch fails with 402/403.

Python

Playwright

developer-tools

automation

npx claudepluginhub fivetaku/insane-search

Tool Access

This skill uses the workspace's default tool permissions.

Preview

> URL 접근이 차단될 때, **사이트 무관한** 우회 전략을 자동 선택한다.

Supporting Assets

SKILL.md

Similar Skills

Agent Reach

Gives AI coding agents internet access to Twitter, Reddit, YouTube, GitHub, Bilibili, XiaoHongShu, and more via free CLI tools—no paid APIs. Installs with pip and configures channels for scraping and search.

aradotso-trending-skills-37

agent-reach

528

Searches and reads from web pages, GitHub, YouTube, Reddit, Twitter/X, Bilibili using curl, gh, yt-dlp. Probes tools, degrades gracefully without external deps.

2 files2 tools

ppt-agent

tooyoung:ink-reader

Reads public URLs into clean Markdown using platform-aware fallbacks for Chinese sites (WeChat, Zhihu, Bilibili), X/Twitter, and generic web pages via Jina Reader, Camoufox, WebFetch, and Playwright.

oh-my-daily-skills

Stats

Stars602

Forks90

Last CommitMay 3, 2026

Actions

View Source View Plugin View on GitHub View README

Help us improve

Share bugs, ideas, or general feedback.

Insane Search

URL 접근이 차단될 때, 사이트 무관한 우회 전략을 자동 선택한다.

하네스 규칙 (Claude에게 강제되는 지침)

이 규칙은 Claude가 즉흥 판단으로 엇나가지 못하게 하기 위한 고삐다. 위반 시 이전 test.md 세션처럼 "chrome 200에서 break → safari 미시도 → Playwright 미설치라 포기" 식의 오판이 재현된다.

R1 — 일반 웹 URL 차단/403/402 감지 시:

WebFetch, 즉흥 curl, 수동 헤더 조합 시도 금지

즉시 다음을 실행:

python3 -m engine "<URL>" [--selector "<CSS>"] [--device auto|desktop|mobile] [--trace]

종료코드 0(ok) 또는 1(fail) 받은 뒤 판단. trace를 먼저 읽고 재시도 결정.
실패 시에만 --trace --json으로 재호출해서 원인 진단 후 --device 또는 user_hint 조정.

R2 — 첫 200에서 탈출 금지: HTTP 200은 검사 시작 조건이지 성공이 아니다. validate()의 4-계층 검증을 통과해야 성공 선언. CLI는 이미 강제한다.

R3 — 편향 금지: engine/**, waf_profiles.yaml에 특정 사이트 도메인·셀렉터·브랜드명 하드코딩 금지. python3 engine/bias_check.py가 CI 게이트. 자세한 규칙은 No-Site-Name Rule 섹션.

R4 — 힌트는 런타임에만: 사이트 고유 정보(성공 셀렉터, 우선 Referer)는 CLI 인자 또는 user_hint로만 전달, 저장소에 고정 금지.

R5 — Phase 0 공식 API 우선: X/Reddit/YouTube/HN/arXiv 등 공식 공개 엔드포인트가 있는 플랫폼은 Phase 0 테이블을 먼저 확인하고 해당 API를 쓴다. 이건 편향이 아니라 합의된 접근 경로.

R6 — 실패 선언은 전수 시도 후에만: 격자(URL 변환 × TLS impersonate × Referer × Playwright fallback)를 모두 돌린 뒤에만 "뚫을 수 없음" 결론. CLI의 max_attempts 기본 12가 이를 보장. 단, R7 조건(WAF 조기 감지)이 성립하면 engine 격자는 계속 돌되, Claude가 병렬로 MCP 정찰 루트를 시도할 수 있다. 빠른 쪽이 이긴다.

R7 — WAF 조기 감지 시 API-first 병행 분기 (분기 결정은 자동이지만 사용자가 결과에서 확인 가능 — 어떤 우회 경로로 성공/실패했는지 결과 metadata에 명시): 발동 조건 (AND):

engine 실행 초기에 첫 2~3회 attempt가 모두 verdict=challenge
profile_used가 akamai_bot_manager, cloudflare_turnstile, datadome_probable, perimeterx_human, f5_big_ip, aws_waf 중 하나로 확정
사용자 요청이 리스트/수집/반복 의도 (여러 페이지, N개 이상, "전부", "크롤링", 페이지네이션 등). 단건 본문 조회는 해당 없음.

세 조건 모두 참일 때 Claude는 병렬 경로를 시작한다:

"병렬"의 실행 의미 (Claude 도구 호출이 순차이므로 명확화):

engine은 run_in_background=true로 Bash 툴에서 띄워둔다 — 격자는 그대로 돌되 블로킹하지 않음
Claude는 그 사이 foreground에서 MCP Playwright 정찰 루트를 진행
engine이 먼저 성공해도 좋고, MCP 정찰로 얻은 API가 먼저 성공해도 좋음. 빠른 쪽 결과 채택

MCP 정찰 루트:

mcp__playwright__browser_navigate → 대상 페이지 로드 (브라우저 렌더링)
mcp__playwright__browser_network_requests → XHR/fetch 호출 목록 수집, /api/·/graphql·\.json 필터로 내부 엔드포인트 식별
식별된 JSON API URL을 python3 -m engine <API_URL>로 재호출 (백그라운드 engine과는 별개 호출). 대부분 API 레이어는 페이지 HTML보다 WAF 보호가 얕아 curl_cffi로 바로 수집됨
응답 스키마 파악 후 pagination / query parameter 조합해 반복 수집

왜: SPA + WAF 사이트(쇼핑몰·커머스 다수)는 마케팅 페이지(HTML)만 WAF로 중투자하고 내부 API는 gateway 레벨 기본 방어만 쓰는 경우가 많다. HTML 격자 전수 낭비(50회 × 0.5s + Playwright fallback 40s ≈ 65초)보다 **MCP 정찰 1회(5~10초) + API 재호출(0.5초)**가 훨씬 경제적이고 성공률 높음.

R7을 쓰지 말아야 할 때: 단일 페이지 본문 읽기만 필요한 단건 조회(문서 하나, 블로그 포스트 하나)는 engine만으로 충분하다 — 발동 조건 #3이 이를 배제한다.

R7 편향 방지: 내부 API URL·파라미터는 engine/**에 하드코딩 금지. 탐지된 URL은 런타임 호출에만 쓰고 저장소에 고정하지 않는다.

이 스킬의 핵심 불변식:

단일 진입점: 일반 웹 페이지는 항상 python3 -m engine <URL> 또는 from engine import fetch; fetch(...).
편향 금지: engine/**, waf_profiles.yaml에 특정 사이트 하드코딩 금지.
힌트는 런타임에만: 사이트 고유 정보는 CLI/user_hint 경유.

의도 분류 (Phase 0 진입 전)

사용자 입력	경로
URL 제공 (`https://...`)	→ Phase 0 검사 후 없으면 Phase 1 (generic fetch chain)
핸들 제공 (`@username`)	→ Phase 0 syndication/API
키워드만 ("X에서 AI 검색")	→ WebSearch(`site:{domain} {keyword}`) 먼저 → URL 확보 후 재진입

한국어 신규 콘텐츠 한계: 네이버/다음/한국 커뮤니티의 키워드 검색은 WebSearch 경유가 유일하며, 신규 콘텐츠 인덱싱이 지연될 수 있다.

Phase 0 — 플랫폼 공식 API 인덱스

플랫폼이 공식 공개한 전용 API/CLI만 여기에 둔다. 이건 편향이 아니라 합의된 엔드포인트 사용이다.

소셜/커뮤니티 전용 API

플랫폼	방법	상세
X/Twitter	syndication (타임라인) + oEmbed (개별 트윗) + 키워드 검색: WebSearch → oEmbed	twitter.md
Reddit	URL + `.json` + Mobile UA	json-api.md
Bluesky	AT Protocol (`public.api.bsky.app/xrpc/...`)	public-api.md
Mastodon	인스턴스별 공개 API	public-api.md
Hacker News	Firebase API + Algolia Search	json-api.md
Stack Overflow	SE API v2.3	public-api.md
Lobste.rs / V2EX / dev.to	공개 JSON API	json-api.md

미디어 (CLI 도구 필수)

플랫폼	방법	상세
YouTube/Vimeo/Twitch/TikTok/SoundCloud 등 1,858개	`yt-dlp --dump-json`	media.md

학술/레지스트리

플랫폼	방법	상세
arXiv	Atom API	public-api.md
CrossRef	REST API	public-api.md
Wikipedia	REST API	json-api.md
OpenLibrary	JSON API	public-api.md
GitHub	gh CLI / REST API	public-api.md
npm / PyPI	Registry API	json-api.md
Wayback Machine	CDX API	public-api.md

한국 전용 공식 API

플랫폼	방법	상세
네이버 검색	`search.naver.com` (통합/블로그/뉴스탭)	naver.md
네이버 금융 시세	`api.finance.naver.com/siseJson.naver` (비공식 JSON)	naver.md

그 외 모든 사이트는 Phase 1(generic fetch chain)이 자동 처리한다.

Phase 1 — Generic Fetch Chain

단일 진입점

from insane_search.engine import fetch

result = fetch(
    "https://example.com/path",
    success_selectors=["article", "[class*='product-card']"],  # 포지티브 프루프 (선택)
    device_class="auto",      # "auto" | "desktop" | "mobile"
    user_hint=None,           # {"referer_strategy": "self_root", "impersonate_first": "safari"}
    timeout=25,
)

if result.ok:
    print(result.verdict)     # strong_ok | weak_ok
    html = result.content
else:
    # Phase 3 수동 개입 (Playwright MCP) 필요 — result.trace로 원인 진단
    pass

내부 단계 (디버깅용 노출)

fetch()는 단일 API이지만 내부는 phase로 나뉘어 있다. result.trace에서 각 시도를 확인할 수 있다.

probe      — curl_cffi + safari + self-referer로 첫 시도
validate   — 4-계층 검증 (marker / size / cookie / success_selectors)
detect     — WAF 제품 감지 ([(profile_id, confidence)] 랭킹)
plan       — 프로파일의 tls_candidates × url_transforms × referer 격자 구성
execute    — 격자 전수 시도 (첫 200에서 탈출하지 않음)
fallback   — capability 태그 기반 Playwright 라우팅 (MCP or local+chrome)
report     — FetchResult(ok, verdict, profile_used, trace, summary)

검증 원칙

HTTP 200은 검사 시작 조건이지 성공이 아니다.
성공 판정은 4-계층 AND:
1. 챌린지 마커 없음 (sec-if-cpt-container, Access Denied, Just a moment..., DataDome)
2. 비정상 크기 아님 (< 3KB 또는 WAF fingerprint 크기)
3. 쿠키 센서 상태 정상 (_abck=~-1~ 아님)
4. success_selectors 중 하나 이상 매칭 (caller 제공 시 → strong_ok, 미제공 시 → weak_ok)

격자 축 (profile이 우선순위 추천, 격자는 전수 시도)

축	값	비고
`url_transforms`	`original`, `mobile_subdomain` (`www.→m.`), `am_prefix`, `drop_www`	사이트명 없음, 규칙만
`tls_impersonate`	`safari`, `safari_ios`, `chrome99`, `chrome119`, `chrome131`, `chrome_android`, `firefox`...	프로파일별 avoid 리스트 존재
`referer_strategy`	`self_root`, `google_search`, `none`

device_class:

"auto" (기본) — 프로파일 전략 따름
"desktop" — TLS 데스크톱만 + mobile_subdomain 비활성
"mobile" — TLS 모바일만 + mobile_subdomain 활성

Playwright 폴백 (capability-matched)

engine/executor.py가 프로파일의 capabilities_needed를 읽고 실행기를 자동 선택:

태그	실행기	언제
`needs_real_tls_stack` + `needs_js_exec`	`playwright_real_chrome.js` (로컬 Node)	Akamai Bot Manager 등 — Chromium 번들 TLS는 탐지됨
`needs_js_exec` only	Playwright MCP (`mcp__playwright__*`)	Cloudflare 기본 방어 등
`needs_mobile_context` (+ real_tls)	`playwright_mobile_chrome.js`	모바일 디바이스 에뮬레이션 필요

자세한 선택 기준: playwright.md.

Playwright MCP 호출 규칙

fetch_chain의 needs_js_exec only 케이스는 Claude 세션에서 MCP 도구를 직접 호출해야 한다. subprocess 경로 없음. 즉:

result.summary에 "Playwright MCP must be invoked from the Claude session"이 포함되면
mcp__playwright__browser_navigate → browser_wait_for → browser_snapshot 흐름으로 Claude가 직접 처리

Phase 2 — 수동 개입 (옵션)

Phase 1이 ok=False를 반환하면 사용자 힌트를 받아 재시도:

result = fetch(
    url,
    success_selectors=[...],
    user_hint={"impersonate_first": "safari_ios", "referer_strategy": "none"},
)

힌트는 현재 호출 1회에만 적용되며 저장되지 않는다.

의존성 자동 설치

최초 호출 시 필요 패키지를 자동 설치한다:

python3 -c "import curl_cffi, bs4, yaml" 2>/dev/null || pip install curl_cffi beautifulsoup4 pyyaml -q

Playwright 로컬 경로 사용 시 Node가 필요:

npm i -g playwright playwright-extra puppeteer-extra-plugin-stealth
npx playwright install chrome

빠른 참조 — Phase 0 명령어

# 범용 웹 (Jina Reader — 일반 HTML만, WAF 사이트엔 무효)
curl -s "https://r.jina.ai/{URL}"

# yt-dlp — 1,858 사이트 미디어 메타데이터
yt-dlp --dump-json "URL"

# Reddit
curl -sL -H "User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_0 like Mac OS X) AppleWebKit/605.1.15" \
  "https://www.reddit.com/r/{sub}/hot.json?limit=10"

# X/Twitter 타임라인
curl -sL "https://syndication.twitter.com/srv/timeline-profile/screen-name/{handle}"

# Hacker News
curl -sL "https://hacker-news.firebaseio.com/v0/topstories.json?limitToFirst=10&orderBy=%22%24key%22"

# YouTube 자막
yt-dlp --write-sub --write-auto-sub --sub-lang "en,ko" --skip-download -o "/tmp/%(id)s" "URL"

No-Site-Name Rule

engine/**, waf_profiles.yaml, engine/templates/** 파일에는 특정 사이트의 도메인/URL/셀렉터/브랜드명을 하드코딩하지 않는다.

금지

"coupang.com": {...} 같은 사이트별 레지스트리 엔트리
if "coupang" in url: ... 같은 도메인 분기
WAF 프로파일 notes에 특정 사이트 이름이나 경험적 byte 크기 박제

허용

SKILL.md / references/*.md의 설명 텍스트에 사이트 이름 예시 (독자 이해용)
Phase 0 공식 API 인덱스 (플랫폼이 공식 공개한 엔드포인트)
observations/*.jsonl 로그 (append-only 관측 데이터 — 코드 경로에 영향 없음)
호출자가 제공하는 success_selectors, user_hint (현재 호출에만 유효)

경계 사례 판단 기준

"이 엔트리가 다른 사이트에서도 같은 WAF를 쓰면 일반적으로 유효한가?" → YES면 waf_profiles.yaml, NO면 runtime hint.

새 사이트가 안 뚫릴 때

먼저 result.trace에서 어느 phase가 실패했는지 확인
사용자의 user_hint로 1회 재시도
반복 성공 패턴이 관측되면 observations/에 로그 (아직 자동 기록 없음 — 수동)
3회+ 반복 확인되고 동일 WAF를 쓰는 다른 사이트에도 유효하면 waf_profiles.yaml 해당 프로파일의 tls_impersonate_candidates / url_transform_order를 튜닝 (사이트명 절대 넣지 않음)
여전히 안 되면 새 WAF 프로파일 후보 검토 (예: DataDome 세부화, Kasada 등)

관련 문서 (references/) — 언제 무엇을 읽을지

이 섹션은 참조 파일 선택 가이드다. 문제가 생겼을 때 어떤 references/*.md를 열어야 할지 결정하는 기준으로 쓴다. Claude는 필요할 때만 해당 파일을 Read하고, 선제적으로 전부 읽지 않는다.

A. Engine 확장·진단 (하네스 내부)

파일	언제 읽는가	무엇을 다루는가
`tls-impersonate.md`	curl_cffi 격자가 전부 `challenge`/`blocked`로 끝날 때, 새 impersonate 타겟을 `waf_profiles.yaml`에 추가할 때	curl_cffi로 Safari/Chrome/Firefox TLS(JA3/JA4) 지문 복제하는 방법, WAF(Akamai/Cloudflare/F5 등)별 최적 타겟 조합, 임퍼소네이션 타겟 버전 목록, `tls_impersonate_avoid`의 실증 근거
`playwright.md`	engine이 Playwright fallback으로 넘어가는데 MCP/Local Chrome 중 어디로 갈지 확인 필요할 때	Approach 1 (`mcp__playwright__*` — Cloudflare급 챌린지), Approach 2 (Local Node + `channel:'chrome'` + stealth — Akamai Bot Manager급), 템플릿 파라미터 규격
`fallback.md`	`verdict`가 애매하거나 Phase 전환 타이밍 결정 필요할 때	engine의 Phase 0→1→2→3 에스컬레이션 원칙, 응답 성공/실패 판정 기준 세부, 각 Phase 종료 조건
`metadata.md`	본문 전체를 못 가져왔지만 제목·요약·가격·저자 같은 핵심만이라도 필요할 때	OGP 메타 태그, JSON-LD (Schema.org), Twitter Card 파싱, 구조화 데이터 추출 패턴

B. 경량 대안 (engine 말고 다른 도구가 나은 상황)

파일	언제 읽는가	무엇을 다루는가
`jina.md`	WAF 없는 일반 웹(블로그·뉴스·Wiki)의 깨끗한 마크다운 추출 필요할 때	`r.jina.ai/URL` 한 줄로 Puppeteer 기반 JS SPA 렌더링, 마크다운 변환, 무료 500 RPM, API 키 불필요
`cache-archive.md`	원본 사이트가 차단됐지만 과거 스냅샷으로라도 접근 필요할 때	Wayback Machine CDX API, archive.today, AMP Cache (Google Cache는 2024-07 종료됨)
`rss.md`	뉴스·블로그·커뮤니티의 시계열 업데이트를 구조화해 받고 싶을 때	RSS/Atom 자동 발견, 피드 파싱, 인증 불필요 — 가장 깔끔한 시계열 데이터 소스

C. 플랫폼별 공식/공개 API (Phase 0 인덱스와 연결)

파일	언제 읽는가	무엇을 다루는가
`json-api.md`	Reddit/Wikipedia/HN/npm/PyPI 등 URL 변형만으로 JSON을 주는 사이트	Reddit `/json` suffix + Mobile UA, HN Firebase, Algolia Search, Wikipedia REST, npm/PyPI Registry API
`public-api.md`	Bluesky/Mastodon/arXiv/Stack Overflow/CrossRef/GitHub/OpenLibrary/Wayback 공식 API 사용 시	인증 없이 쓰는 공식 공개 REST/AT/Atom API 엔드포인트, 요청 형식, 공통 파라미터
`twitter.md`	X/Twitter 접근 — 프로필 타임라인, 특정 트윗, 키워드 검색	`syndication.twitter.com` 타임라인, oEmbed 개별 트윗, 검색은 WebSearch로 URL 확보 후 oEmbed
`naver.md`	네이버 블로그·뉴스·증권·검색 접근	서비스별 우회(블로그는 `m.blog.naver.com` 변환, 증권은 비공식 JSON, 검색은 `search.naver.com`), 한글 검색 쿼리 패턴
`media.md`	YouTube/Vimeo/Twitch/TikTok/SoundCloud 등 미디어 메타·자막·오디오 필요 시	`yt-dlp --dump-json` 기반 1,858개 사이트 커버, 자막 다운로드(`--write-sub`), 포맷 선택, 라이브/팟캐스트

D. Engine 코드 직접 읽을 때

파일	언제 읽는가
`engine/fetch_chain.py`	체인 단계 로직·`Attempt`/`FetchResult` schema 확인
`engine/validators.py`	4-계층 검증 세부 (Verdict 분류, 챌린지 마커 목록)
`engine/waf_detector.py`	WAF 랭킹 감지 알고리즘, `_LAST_LOAD_ERROR` 처리
`engine/waf_profiles.yaml`	프로파일별 detectors·tls_candidates·capabilities_needed
`engine/url_transforms.py`	URL 변환 규칙 추가할 때
`engine/executor.py`	Playwright MCP vs local capability 매칭 로직
`engine/templates/*.js`	Playwright 템플릿 튜닝 (warmup, reload, devices)
`engine/bias_check.py`	편향 린터 규칙 — brand denylist, URL_PATTERN, excluded dirs