ab-test-stats

Name: ab-test-stats
Author: guia-matthieu/clawfu-skills

$npx mdskill add guia-matthieu/clawfu-skills/ab-test-stats

Calculates statistical significance for A/B tests to support data-driven decisions on results and planning.

Helps determine if test outcomes are significant and plan sample sizes or durations for experiments.
Integrates with Python libraries like scipy and numpy for statistical computations.
Uses structured analysis frameworks to identify patterns and calculate statistical measures from input data.
Presents results through command-line outputs and visualization templates for clear interpretation.

SKILL.md

.github/skills/ab-test-statsView on GitHub ↗

---
name: ab-test-stats
description: "Calculate A/B test statistical significance. Use when: determining if test results are significant; calculating required sample size; estimating test duration; analyzing conversion experiments; making data-driven decisions"
license: MIT
metadata:
  author: ClawFu
  version: 1.0.0
  mcp-server: "@clawfu/mcp-skills"
---

# A/B Test Statistics Calculator

> Calculate statistical significance for A/B tests - know when your results are real, not random chance.

## When to Use This Skill

- **Test analysis** - Determine if results are statistically significant
- **Sample planning** - Calculate required sample size before testing
- **Duration estimation** - Know how long to run experiments
- **Power analysis** - Ensure tests can detect meaningful differences


## What Claude Does vs What You Decide

| Claude Does | You Decide |
|-------------|------------|
| Structures analysis frameworks | Metric definitions |
| Identifies patterns in data | Business interpretation |
| Creates visualization templates | Dashboard design |
| Suggests optimization areas | Action priorities |
| Calculates statistical measures | Decision thresholds |

## Dependencies

```bash
pip install scipy numpy click
```

## Commands

### Check Significance
```bash
python scripts/main.py significance --control 1000,50 --variant 1000,65
python scripts/main.py significance --control 5000,250 --variant 5000,300 --confidence 0.99
```

### Calculate Sample Size
```bash
python scripts/main.py sample-size --baseline 0.05 --mde 0.02
python scripts/main.py sample-size --baseline 0.10 --mde 0.01 --power 0.90
```

### Estimate Duration
```bash
python scripts/main.py duration --traffic 1000 --baseline 0.05 --mde 0.02
```

## Examples

### Example 1: Analyze Test Results
```bash
# Control: 1000 visitors, 50 conversions (5%)
# Variant: 1000 visitors, 65 conversions (6.5%)
python scripts/main.py significance --control 1000,50 --variant 1000,65

# Output:
# A/B Test Results
# ─────────────────────────
# Control:  5.00% (50/1000)
# Variant:  6.50% (65/1000)
# Lift:     +30.0%
#
# Statistical Analysis
# ─────────────────────────
# p-value:      0.089
# Confidence:   91.1%
# Result:       NOT SIGNIFICANT (need 95%)
#
# Recommendation: Continue test for more data
```

### Example 2: Plan Sample Size
```bash
# Baseline 5% conversion, want to detect 20% relative lift (1% absolute)
python scripts/main.py sample-size --baseline 0.05 --mde 0.01

# Output:
# Sample Size Calculator
# ──────────────────────────────
# Baseline conversion: 5.0%
# Minimum detectable effect: 1.0% (20% relative)
# Target conversion: 6.0%
#
# Required per variant: 3,842 visitors
# Total required: 7,684 visitors
#
# At 1000 daily visitors: ~8 days
```

## Key Concepts

| Term | Definition |
|------|------------|
| **p-value** | Probability result is due to chance |
| **Confidence** | 1 - p-value (usually want 95%+) |
| **Power** | Probability of detecting real effect (usually 80%) |
| **MDE** | Minimum Detectable Effect - smallest lift worth detecting |
| **Lift** | Relative improvement (variant - control) / control |

## When Results Are Significant

| p-value | Confidence | Verdict |
|---------|------------|---------|
| < 0.01 | > 99% | Highly Significant ✓ |
| < 0.05 | > 95% | Significant ✓ |
| < 0.10 | > 90% | Marginally Significant |
| ≥ 0.10 | < 90% | Not Significant ✗ |

## Skill Boundaries

### What This Skill Does Well
- Structuring data analysis
- Identifying patterns and trends
- Creating visualization frameworks
- Calculating statistical measures

### What This Skill Cannot Do
- Access your actual data
- Replace statistical expertise
- Make business decisions
- Guarantee prediction accuracy

## Related Skills

- [cohort-analysis](../cohort-analysis/) - Analyze user cohorts
- [funnel-analyzer](../funnel-analyzer/) - Analyze conversion funnels

## Skill Metadata


- **Mode**: centaur
```yaml
category: analytics
subcategory: statistics
dependencies: [scipy, numpy]
difficulty: intermediate
time_saved: 3+ hours/week
```