Procházet zdrojové kódy

新添数据分析师角色,增强数据分析能力

kyle před 1 týdnem
rodič
revize
e149b4c408

+ 256 - 0
generate-data-report-ppt/README.md

@@ -0,0 +1,256 @@
+# 通用数据报告 PPT 生成器
+
+输入任意 Excel/CSV 数据文件,自动生成包含原生可编辑图表的高质量数据报告 PPT。
+
+## 核心特性
+
+- **通用数据兼容**:不依赖固定 Schema,自动探查任意 Excel/CSV 文件的数据结构、字段语义和统计特征
+- **原生可编辑图表**:使用 `python-pptx` 生成原生 Chart 对象,非静态图片,生成后可在 PowerPoint 中直接编辑数据和样式
+- **智能分析推荐**:自动识别可量化指标,推荐可视化方案、页面结构和洞察文案
+- **六项用户确认**:生成前强制确认报告周期、核心指标、受众场景、视觉风格、页面结构、字段映射,避免生成偏离需求的报告
+- **质量自检引擎**:四类 25 项质量检查(布局/视觉/内容/数据),自动检测并迭代修复至达标
+- **多主题支持**:5 套预设主题(商务经典、清新简约、科技蓝调、暖橙活力、暗夜深邃),支持自定义配色
+- **专业分析标准**:内置《专业数据分析师手册》,确保每页分析包含业务判断、数据证据、对比关系和行动建议
+
+## 安装要求
+
+```bash
+pip install python-pptx pandas numpy openpyxl
+```
+
+## 快速开始
+
+### 1. 使用预设报告类型(日报/周报/月报)
+
+```python
+from scripts.ppt_builder import build_daily_report, build_weekly_report, build_monthly_report
+from datetime import datetime
+
+# 日报
+build_daily_report('data.xlsx', datetime(2026, 4, 10), 'daily_report.pptx')
+
+# 周报
+build_weekly_report('data.xlsx', datetime(2026, 4, 10), 'weekly_report.pptx')
+
+# 月报
+build_monthly_report('data.xlsx', datetime(2026, 4, 10), 'monthly_report.pptx')
+```
+
+### 2. 使用通用构建器(推荐)
+
+```python
+from scripts.ppt_builder import build_report, quality_assured_build
+from scripts.report_config import ReportConfig, MetricDef, PageDef
+
+# 创建配置
+config = ReportConfig(
+    title='销售数据月度报告',
+    period_type='monthly',
+    source_label='销售部',
+    theme='business_classic',
+    quality_threshold=85,
+    max_fix_iterations=5,
+)
+
+# 添加指标(根据数据探查结果配置)
+config.metrics = [
+    MetricDef(name='总需求台数', column='总需求台数', agg='sum', unit='台'),
+    MetricDef(name='已下单台数', column='已下单', agg='sum', unit='台'),
+    MetricDef(name='转化率', column='转化率', agg='mean', unit='%', fmt='.1f'),
+]
+
+# 添加页面
+config.pages = [
+    PageDef(page_type='kpi_overview', title='月度总览'),
+    PageDef(page_type='trend', title='30日追踪趋势'),
+    PageDef(page_type='distribution', title='区域分布'),
+    PageDef(page_type='ranking', title='TOP10目的国'),
+    PageDef(page_type='summary', title='总结与建议'),
+]
+
+# 基础构建
+build_report('data.xlsx', config, 'output.pptx')
+
+# 带质量自检的构建(推荐)
+prs, issues = quality_assured_build('data.xlsx', config, 'output_qa.pptx')
+```
+
+### 3. 完整工作流
+
+```python
+from scripts.data_loader import load_generic_excel
+from scripts.data_profiler import profile_dataframe
+from scripts.agent_analyzer import analyze_and_recommend
+
+# 1. 加载数据
+df = load_generic_excel('data.xlsx')
+
+# 2. 数据探查
+profile = profile_dataframe(df)
+print(f"检测到 {profile['num_rows']} 行数据,{profile['num_cols']} 个字段")
+
+# 3. 智能推荐
+recs = analyze_and_recommend(profile, period_type='monthly')
+print(f"推荐指标: {[m['name'] for m in recs['suggested_metrics']]}")
+print(f"推荐页面: {[p['page_type'] for p in recs['suggested_pages']]}")
+
+# 4. 用户确认后构建配置并生成
+# ...(见上方配置示例)
+```
+
+## 工作流程
+
+```
+用户数据 (.xlsx/.csv)
+    ↓
+数据加载与清洗 (data_loader.py)
+    ↓
+自动数据探查 (data_profiler.py)
+    - Schema 检测、统计特征、数据质量评分
+    ↓
+智能分析与推荐 (agent_analyzer.py)
+    - 指标推荐、页面结构、可视化方案
+    ↓
+【六项用户确认】
+    1. 报告周期与页数范围
+    2. 核心指标集
+    3. 受众与决策场景
+    4. 视觉风格与配色方向
+    5. 页面结构与模板方案
+    6. 数据范围与字段映射
+    ↓
+指标计算 (metrics_calculator.py)
+    ↓
+PPT 构建 (ppt_builder.py)
+    - 动态布局、主题配色、原生图表、深度洞察
+    ↓
+质量自检与修复 (quality_inspector.py)
+    - 布局/视觉/内容/数据 四类检查
+    - 自动迭代修复至评分 ≥ 阈值
+    ↓
+输出 .pptx(全部可编辑)
+```
+
+## 目录结构
+
+```
+generate-data-report-ppt/
+├── assets/                           # PPT 模板文件
+│   ├── report-master.pptx            # 日报模板
+│   ├── weekly-master.pptx            # 周报模板
+│   └── monthly-master.pptx           # 月报模板
+├── references/                       # 参考规范文档
+│   ├── data-schema.md                # 数据格式与字段映射规范
+│   ├── report-structures.md          # 日报/周报/月报标准页面结构
+│   ├── chart-specs.md                # 图表类型、配色、数据绑定规范
+│   ├── visual-style-guide.md         # 布局、字体、配色视觉规范
+│   ├── quality-standards.md          # PPT 生成质量强制规范
+│   └── professional-data-analyst-playbook.md  # 专业数据分析洞察标准
+├── scripts/                          # 核心代码
+│   ├── data_loader.py                # 数据加载与智能清洗
+│   ├── data_profiler.py              # 通用数据探查引擎
+│   ├── report_config.py              # 报告配置数据模型
+│   ├── theme_manager.py              # 多主题配色与模板管理
+│   ├── agent_analyzer.py             # 智能分析与推荐
+│   ├── metrics_calculator.py         # KPI 计算引擎
+│   ├── chart_factory.py              # 原生可编辑图表创建
+│   ├── page_layouts.py               # 动态页面布局引擎
+│   ├── deep_insights.py              # 结构化深度洞察生成
+│   ├── ppt_builder.py                # PPT 组装编排器
+│   ├── quality_rules.py              # 质量检查规则定义
+│   └── quality_inspector.py          # 质量自检与自动修复引擎
+├── SKILL.md                          # 技能定义与 V2 生成契约
+└── README.md                         # 本文件
+```
+
+## 报告类型
+
+| 类型 | 页数 | 标准结构 | 分析维度 |
+|------|------|---------|---------|
+| **日报** | 8 页 | 封面 → 核心指标 → 近10天趋势 → 状态分布 → 负责人分布 → TOP8国家 → 异常告警 → 今日要点 | 与昨日对比、与上周同日对比 |
+| **周报** | 9 页 | 封面 → 周汇总 → 7日趋势 → 环比分析 → 区域分布 → 国家排行 → 团队追踪 → 问题与建议 → 下周计划 | 周环比(WoW)、周同比(YoY)、7日移动平均 |
+| **月报** | 11 页 | 封面 → 目录 → 月度总览 → 订单漏斗 → 区域分布 → TOP10国家 → 30日趋势 → 团队绩效 → 支持需求 → 下月规划 → 尾页 | 环比(MoM)、同比(YoY)、日均值、结构占比 |
+
+> 通用构建器支持自定义页面结构和指标,不限于上述三种预设类型。
+
+## 核心模块说明
+
+### 数据探查(data_profiler.py)
+
+自动分析任意数据结构:
+- **Schema 检测**:列名、类型推断、缺失率、唯一值统计
+- **统计特征**:数值列的 min/max/mean/std/分位数/偏度/峰度,分类列的分布与 HHI 集中度
+- **语义推断**:自动识别时间列、分类列、数值列、ID 列(支持中英文列名关键词匹配)
+- **数据质量评分**:完整性、数值健康度、唯一性、时间一致性、分类完整性五维度加权评分
+- **衍生关系检测**:自动发现数值列间的加减关系(如 `总需求 - 已下单 = 未下单`)
+
+### 质量自检(quality_inspector.py + quality_rules.py)
+
+| 类别 | 检查项示例 | 严重等级 |
+|------|-----------|---------|
+| **布局** | 元素飞出边界、图文重叠、占位符未替换、元素紧贴边缘 | Critical/Major |
+| **视觉** | 字体不一致、字号异常、颜色对比度不足、图片拉伸 | Major/Minor |
+| **内容** | 页面留白过多、KPI 数值为空、图表无数据、分析文本过短 | Critical/Major |
+| **数据** | 图表与文本矛盾、页码错乱、数据来源缺失、刻度异常 | Major/Minor |
+
+**评分规则**:严重问题 -20 分/页,主要问题 -10 分/页,次要问题 -3 分/页。默认阈值 85 分,最大迭代修复 5 次。
+
+### 主题管理(theme_manager.py)
+
+内置 5 套主题,每套包含主色、辅色、强调色、背景色、文字色和系列色盘:
+
+- `business_classic` — 商务经典(默认)
+- `fresh_minimal` — 清新简约
+- `tech_blue` — 科技蓝调
+- `warm_orange` — 暖橙活力
+- `dark_night` — 暗夜深邃
+
+支持通过 `theme_to_rgb_colors()` 一键转换为 `pptx` 可用的 `RGBColor` 对象。
+
+## 分析质量标准
+
+生成分析文本时严格遵循 `references/professional-data-analyst-playbook.md`:
+
+- 每页分析必须回答五个问题中的至少三个:发生了什么?变化多大?为什么?风险/机会是什么?下一步做什么?
+- 每个洞察块必须包含:结论、证据、解释、影响、动作
+- 禁止空洞表述(如"表现较好"、"需持续关注"),必须引用具体数字和可执行动作
+- 从第 4 页起禁止只做数据总结,必须写出结构、趋势、集中度、转化、缺口、异常和风险
+
+## 配置参考
+
+### ReportConfig 主要字段
+
+| 字段 | 类型 | 说明 |
+|------|------|------|
+| `title` | str | 报告标题 |
+| `period_type` | PeriodType | DAILY / WEEKLY / MONTHLY / CUSTOM |
+| `source_label` | str | 数据来源/部门 |
+| `theme` | str | 主题名称 |
+| `quality_threshold` | int | 质量评分阈值(默认 85) |
+| `max_fix_iterations` | int | 最大修复迭代次数(默认 5) |
+| `metrics` | List[MetricDef] | 指标定义列表 |
+| `pages` | List[PageDef] | 页面定义列表 |
+
+### 支持的页面类型
+
+| page_type | 说明 | 布局 |
+|-----------|------|------|
+| `cover` | 封面页 | 固定封面布局 |
+| `toc` | 目录页 | 章节目录网格 |
+| `kpi_overview` | 核心指标概览 | KPI 卡片网格 |
+| `trend` | 趋势分析 | 左侧图表 + 右侧洞察 |
+| `distribution` | 分布分析 | 左侧图表 + 右侧洞察 |
+| `ranking` | 排行分析 | 左侧条形图 + 右侧说明 |
+| `summary` | 总结与建议 | 全宽洞察文本 |
+| `end` | 结束页 | 固定尾页布局 |
+
+## 注意事项
+
+1. **用户确认是强制步骤**:通用构建器默认 `require_six_confirmations=True`,缺失确认或字段映射无效时必须停止生成
+2. **数据探查服务业务意图**:当用户已确认核心指标时,探查结果应映射到实际 Excel 列,不得擅自改变业务焦点
+3. **模板是风格资产而非刚性契约**:若模板占位符无法填充,应移除该占位符组件;若 KPI 网格占满空间,应改用其他布局或在后续分析页补充洞察
+4. **分析质量优先于布局质量**:即使布局检查通过,仅重述总数/排名/类别名称而无对比、诊断、启示或行动的页面仍不可接受
+
+## License
+
+MIT

+ 428 - 171
generate-data-report-ppt/references/professional-data-analyst-playbook.md

@@ -1,31 +1,83 @@
-# Professional Data Analyst Playbook
+# 专业数据分析师手册
 
-Use this reference whenever generating report recommendations, page narratives, chart interpretations, executive summaries, forecast pages, or quality review feedback. The agent must behave like a professional data analyst, not a template filler.
+在生成报告建议、页面叙述、图表解读、执行摘要、预测页面或质量审阅反馈时,请使用本参考。智能体必须像专业数据分析师一样行事,而不是模板填充工具。
 
-## Analyst Role
+## 分析师角色
 
-The agent is responsible for turning data into decision-ready analysis:
+智能体的职责是将数据转化为可供决策的分析:
 
-- Identify business questions behind the report, not only visible columns.
-- Translate metrics into management implications.
-- Compare current performance with targets, prior period, peers, structure, and expected ranges whenever data permits.
-- Explain why a number matters, what changed, what likely caused it, and what action should follow.
-- Make uncertainty explicit. If evidence is insufficient, state the missing evidence and the next data needed.
-- Avoid generic phrases such as "总体表现良好", "需进一步关注", "持续优化", "建议加强管理" unless backed by specific data and action.
+- 识别报告背后的业务问题,而不仅是可见的字段。
+- 将指标转化为管理启示。
+- 只要数据允许,将当前表现与目标、上期、同行、结构和预期范围进行比较。
+- 解释一个数字为何重要、什么发生了变化、可能的原因是什么,以及后续应采取什么行动。
+- 明确不确定性。如果证据不足,说明缺失的证据以及下一步需要的数据。
+- 除非有具体数据和行动支撑,否则避免使用"总体表现良好"、"需进一步关注"、"持续优化"、"建议加强管理"等泛泛之谈。
 
-Every analysis page must answer at least three of these five questions:
+每个分析页面必须至少回答以下五个问题中的三个:
 
-1. What happened?
-2. How large is the change or gap?
-3. Why might it have happened?
-4. What risk or opportunity does it imply?
-5. What should the audience do next?
+1. 发生了什么?
+2. 变化或缺口有多大?
+3. 为什么会发生?
+4. 它暗示了什么风险或机会?
+5. 受众下一步应该做什么?
 
-## Analyst Keywords
+## 分析思维框架
 
-Use these keywords to trigger deeper analytical thinking. Do not merely paste them into slides; use them to structure reasoning.
+分析不是罗列数字,而是用系统化的思维模型从数据中提取洞察。以下五种基础分析方法必须根据页面类型灵活组合使用。
 
-### Metric Diagnosis
+### 对比分析法
+
+对比不是简单比大小,而是构建有意义的参照系:
+
+- **与目标对比**:达成率多少?缺口在哪几个维度?缺口是持续存在还是首次出现?
+- **与历史对比**:环比/同比变化幅度是否突破历史波动区间?是否创近 N 期新高/新低?
+- **与结构对比**:该类别在整体中的占比是否异常?与其他类别的相对位置是否变化?
+- **与统计基准对比**:当前值处于历史分位数的什么位置(如前 10% / 中位数 / 后 10%)?
+
+对比时必须同时给出**绝对差**和**相对差**:"增加 50 台(+12%)"比"大幅增加"更有信息价值。
+
+### 细分分析法
+
+当总体指标异常时,按维度拆解定位问题来源。拆解顺序:
+
+1. **时间维度**:按日/周/旬看节奏分布,判断是单点爆发还是持续趋势。
+2. **结构维度**:按区域/品类/客户等级/渠道看子群体贡献,定位"谁拖累了整体"或"谁拉动了整体"。
+3. **过程维度**:按漏斗阶段/审批环节/交付节点看阻塞位置。
+
+细分分析的核心公式:**总体变化 = Σ(各细分项变化)**。必须量化每个细分项对总体的贡献度,而非仅说"某区域增长较快"。
+
+### 漏斗分析法
+
+漏斗不是简单的阶段柱状图,而是三维诊断:
+
+- **存量维度**:哪个阶段的在途量最大?是否存在老化风险?
+- **流量维度**:各阶段的新增量是否均衡?是否有阶段"只进不出"?
+- **转化维度**:阶段间转化率是多少?哪个转化点最弱?与历史同期相比是恶化还是改善?
+
+漏斗分析必须计算**端到端转化率**和**阶段衰减系数**:如果 A→B 转化率从 60% 降至 45%,要量化这 15 个百分点的下降对最终产出的影响。
+
+### 归因分析法
+
+区分"结构变化"和"因素变化"对总量指标的影响:
+
+- **结构效应**:各组成部分的占比发生变化(如高客单价品类占比提升拉动整体客单价)。
+- **因素效应**:各组成部分自身的指标值发生变化(如每个品类自身的客单价都提升了)。
+
+归因分析必须给出可量化的贡献拆分:"整体转化率提升 3.2 个百分点,其中 A 渠道占比提升贡献 1.8 个百分点,B 渠道自身转化率改善贡献 1.4 个百分点"。
+
+### 相关与驱动分析法
+
+识别指标之间的领先-滞后关系和驱动链条:
+
+- **领先指标**:过程指标(如询盘量、试用申请数)通常领先于结果指标(如签约量、销售额)。
+- **一致性检验**:结果指标增长时,领先指标是否同步增长?如果不同步,预判结果指标的可持续性。
+- **驱动链条**:建立"输入 → 过程 → 输出 → 结果"的指标链,分析瓶颈出现在哪一环。
+
+## 分析师关键词
+
+使用这些关键词来触发更深入的分析思维。不要仅仅将它们粘贴到幻灯片中;用它们来构建推理。
+
+### 指标诊断
 
 - 环比、同比、较上期、较同期、较目标
 - 达成率、缺口、超额、偏离度、贡献率
@@ -34,7 +86,7 @@ Use these keywords to trigger deeper analytical thinking. Do not merely paste th
 - 标准差、变异系数、离散度、集中度、长尾
 - 异常值、离群点、结构突变、拐点、趋势斜率
 
-### Business Interpretation
+### 业务解读
 
 - 增长驱动、拖累因素、核心贡献、边际贡献
 - 结构升级、结构失衡、结构迁移、结构性机会
@@ -43,7 +95,7 @@ Use these keywords to trigger deeper analytical thinking. Do not merely paste th
 - 资源利用、产能约束、履约压力、库存风险
 - 需求强度、交付节奏、回款节奏、供应约束
 
-### Risk And Opportunity
+### 风险与机会
 
 - 短期风险、中期压力、长期隐患
 - 集中度风险、单点依赖、尾部拖累、断层
@@ -51,7 +103,7 @@ Use these keywords to trigger deeper analytical thinking. Do not merely paste th
 - 预警阈值、触发条件、风险敞口、影响范围
 - 保底情景、基准情景、挑战情景、压力测试
 
-### Action Language
+### 行动语言
 
 - 优先级、责任人、时间节点、复盘频率
 - 分层运营、重点跟进、专项排查、闭环机制
@@ -59,9 +111,9 @@ Use these keywords to trigger deeper analytical thinking. Do not merely paste th
 - 建立看板、设置阈值、跟踪转化、校准预测
 - 立即处理、下周复盘、月末验收、滚动更新
 
-## Required Insight Pattern
+## 必备洞察结构
 
-Each insight block should follow this structure:
+每个洞察块应遵循以下结构:
 
 ```text
 结论: 用一句话讲清楚业务判断。
@@ -71,243 +123,448 @@ Each insight block should follow this structure:
 动作: 给出具体下一步,最好包含对象、优先级和时间。
 ```
 
-Short form for PPT:
+PPT 精简版:
 
 ```text
 【判断】...;【证据】...;【原因】...;【影响】...;【动作】...
 ```
 
-Use compact prose on slides, but make the logic complete.
+幻灯片上使用紧凑的文笔,但要保证逻辑完整。
 
-## Page-Level Standards
+## 页面级标准
 
-### KPI Overview
+### KPI 概览
 
-Do not simply list KPI values. Analyze:
+不要简单罗列 KPI 数值。分析:
 
-- Which KPI is the primary result metric?
-- Which metrics are leading indicators and which are lagging indicators?
-- Are result and process indicators moving consistently?
-- Which metric has the largest gap, fastest growth, or highest operational risk?
-- If values are high but process indicators are weak, call out sustainability risk.
+- 哪个 KPI 是主要结果指标?
+- 哪些指标是领先指标,哪些是滞后指标?
+- 结果指标和过程指标是否一致变动?
+- 哪个指标的缺口最大、增长最快或运营风险最高?
+- 如果数值高但过程指标弱,指出可持续性风险。
 
-Minimum output:
+最低输出要求:
 
-- 1 paragraph for overall performance judgment.
-- 1 paragraph for key driver or drag.
-- 1 paragraph for management action or monitoring rule.
+- 1 段整体表现判断。
+- 1 段关键驱动或拖累因素。
+- 1 段管理行动或监控规则。
 
-### Trend Page
+### 趋势页
 
-Analyze trend shape, not just direction:
+分析趋势形态,而不仅是方向:
 
-- Identify acceleration, deceleration, plateau, turning point, volatility, peak, trough.
-- Compare early/middle/late period if exact prior period is unavailable.
-- Explain whether the trend is structural, seasonal, event-driven, or data-quality-driven.
-- Translate trend into forecast implication.
+- 识别加速、减速、平台期、转折点、波动、峰值、谷值。
+- 如果无法获取精确的上期数据,比较早/中/后期。
+- 解释趋势是结构性的、季节性的、事件驱动的还是数据质量驱动的。
+- 将趋势转化为预测启示。
 
-Useful terms:
+常用术语:
 
 - 趋势斜率、拐点、峰谷差、连续增长、连续回落
 - 上旬/中旬/下旬对比、阶段性修复、波动放大
 - 趋势延续性、预测可信度、节奏错配
 
-### Distribution Page
+### 分布页
 
-Analyze structure:
+分析结构:
 
-- Head concentration: Top 1 / Top 3 / Top 5 contribution.
-- Tail distribution: number of low-contribution categories and their combined share.
-- Balance: whether the distribution is healthy, overly concentrated, or fragmented.
-- Operational implication: where to allocate resources.
+- 头部集中度:Top 1 / Top 3 / Top 5 贡献。
+- 尾部分布:低贡献类别的数量及其合计占比。
+- 均衡性:分布是健康、过度集中还是过于分散。
+- 运营启示:资源应如何分配。
 
-Useful terms:
+常用术语:
 
 - 头部集中、长尾分散、结构失衡、结构迁移
 - 贡献梯队、帕累托结构、尾部低效、资源错配
 
-### Ranking Page
+### 排名页
 
-Ranking is not a list. Analyze:
+排名不是列表。分析:
 
-- Gap between rank 1 and rank 2.
-- Gap between top tier and bottom tier.
-- Whether leaders are outliers or part of a stable first tier.
-- What action differs by tier: protect leaders, grow second tier, fix tail.
+- 第 1 名与第 2 名的差距。
+- 头部梯队与尾部梯队的差距。
+- 领先者是异常值还是稳定的第一梯队成员。
+- 不同梯队应采取何种不同行动:保护领先者、培育第二梯队、修复尾部。
 
-Useful terms:
+常用术语:
 
 - 第一梯队、第二梯队、尾部梯队、断层
 - 榜首优势、追赶空间、低位修复、标杆复制
 
-### Funnel Or Stage Page
+### 漏斗或阶段页
 
-Analyze conversion and blockage:
+分析转化与阻塞:
 
-- Largest stock stage.
-- Weakest conversion point.
-- Average cycle time or aging if available.
-- Impact of blockage on revenue, delivery, or customer experience.
-- Priority actions by stage.
+- 最大的存量阶段。
+- 最弱的转化点。
+- 平均周期时长或账龄(如有数据)。
+- 阻塞对收入、交付或客户体验的影响。
+- 按阶段划分的优先行动。
 
-Useful terms:
+常用术语:
 
 - 阶段阻塞、转化断点、漏斗泄漏、推进效率
 - 存量堆积、老化风险、闭环周期、交付压力
 
-### Team Or Owner Page
+### 团队或负责人页
 
-Analyze workload, effectiveness, and risk:
+分析工作量、效率和风险:
 
-- Workload distribution and concentration.
-- Output per person or per team if denominator exists.
-- Identify over-loaded owners and under-utilized owners.
-- Separate high volume from high efficiency.
+- 工作量分布和集中度。
+- 人均产出或团队产出(如有分母数据)。
+- 识别超负荷的负责人和低负荷的负责人。
+- 区分高工作量与高效率。
 
-Useful terms:
+常用术语:
 
 - 人均产出、负载均衡、单点依赖、能力梯队
 - 高负载风险、协同效率、资源重分配
 
-### Forecast Or Plan Page
+### 预测或计划页
 
-Forecast pages must include:
+预测页必须包含:
 
-- Forecast value or target value.
-- Baseline evidence from actual performance.
-- Key assumptions.
-- Gap between current run rate and forecast.
-- Scenario view: conservative / base / stretch if possible.
-- Risk response if forecast is not supported by current data.
+- 预测值或目标值。
+- 基于实际表现的基准证据。
+- 关键假设。
+- 当前运行速率与预测的差距。
+- 情景视角:如可能,提供保守/基准/乐观情景。
+- 如果预测不被当前数据支持,提供风险应对。
 
-Useful terms:
+常用术语:
 
 - 预测区间、目标缺口、运行速率、目标可行性
 - 关键假设、情景分析、压力测试、偏差校准
 
-### Summary Page
+### 总结页
+
+不要重复前面的页面。进行综合:
+
+- 按业务影响排序的前 3 大发现。
+- 主要风险及其触发条件。
+- 主要机会及预期上行空间。
+- 下一步运营节奏:每日/每周/每月应跟踪什么。
+
+## 交叉分析与多维拆解
+
+当单一维度的分析无法解释数据现象时,必须进行多维度交叉分析。
+
+### 二维交叉分析
+
+将两个维度交叉,寻找高价值或高风险的组合:
+
+- **时间 × 结构**:哪个区域在下半月出现了断崖式下跌?哪个品类在旺季反而表现平淡?
+- **结构 × 结构**:高价值客户集中在哪些区域?低效 SKU 集中在哪些渠道?
+- **过程 × 结构**:哪个审批环节在哪个区域阻塞最严重?
+
+交叉分析的输出必须包含具体的组合名称和数据,避免"部分区域部分时段表现不佳"这类模糊描述。
+
+### 象限分析
+
+选取两个关键指标构建四象限,对分类对象进行差异化策略制定:
+
+| 象限 | 指标组合示例 | 策略 |
+|------|-------------|------|
+| 高量高效 | 高订单量 + 高转化率 | 保护、复制、扩大投入 |
+| 高量低效 | 高订单量 + 低转化率 | 诊断流程瓶颈、优化转化 |
+| 低量高效 | 低订单量 + 高转化率 | 加大流量/资源投入、测试放量 |
+| 低量低效 | 低订单量 + 低转化率 | 评估存续价值、考虑淘汰或重组 |
+
+使用象限分析时必须标注划分阈值(如中位数、目标值、历史均值),并给出每个象限的具体对象名称和数量。
+
+### ABC/帕累托分析
+
+按贡献度将对象分为 A/B/C 三类,差异化配置管理资源:
+
+- **A 类(前 20%,贡献约 80%)**:重点监控、资源优先、风险零容忍。
+- **B 类(中间 30%,贡献约 15%)**:潜力培育、针对性提升。
+- **C 类(后 50%,贡献约 5%)**:标准化管理、考虑精简或合并。
+
+ABC 分析必须给出具体的分界阈值和各类别的数量/贡献值,避免仅凭感觉分类。
+
+### 同期群(Cohort)思维
+
+按同一批次或同一时期进入的对象进行分组追踪:
+
+- **时间 cohort**:本月新增客户与上月新增客户的同期转化率对比。
+- **来源 cohort**:不同渠道引入的客户在后续 N 期的留存/转化差异。
+- **行为 cohort**:首次购买不同品类的客户的复购周期差异。
+
+Cohort 分析的核心是**控制初始条件差异**,识别真实的时间效应或来源效应。
+
+## 分析深度检查清单
+
+撰写幻灯片前,检查:
+
+- 页面是否包含至少一个具体数字?
+- 是否包含至少一次比较?
+- 是否解释了原因或合理机制?
+- 是否提及对业务决策的影响?
+- 是否推荐了具体行动?
+
+如果有任何答案为否,请修改分析。
+
+## 比较层次
+
+使用最强的可用比较:
+
+1. 目标或预算。
+2. 上期。
+3. 去年同期。
+4. 细分基准、团队基准、区域基准、品类基准。
+5. 内部结构:头部 vs 尾部、高 vs 低、早期 vs 晚期。
+6. 统计基准:均值、中位数、百分位数、标准差。
+7. 如果以上皆无,明确说明该页面为基线视图,并建议添加下一个比较维度。
+
+## 指标拆解与归因框架
+
+面对总量指标变化时,必须使用系统化的拆解方法量化各因素的贡献。
+
+### 乘法公式拆解
+
+适用于公式为 Y = A × B × C 的指标,如:
+
+- 销售额 = 客户数 × 转化率 × 客单价
+- 履约量 = 在途订单 × 及时交付率
+
+**因素贡献度计算(链式替代法)**:
+
+设基期 Y₀ = A₀ × B₀ × C₀,报告期 Y₁ = A₁ × B₁ × C₁。
+
+- A 因素贡献 = (A₁ - A₀) × B₀ × C₀
+- B 因素贡献 = A₁ × (B₁ - B₀) × C₀
+- C 因素贡献 = A₁ × B₁ × (C₁ - C₀)
+
+分析时必须给出每个因素对总变化量的具体贡献额和贡献占比,而非仅说"多因素影响"。
+
+### 加法公式拆解
+
+适用于公式为 Y = ΣXi 的指标,如:
+
+- 总需求 = 亚太需求 + 欧洲需求 + 美洲需求
+- 总订单 = 线上订单 + 线下订单
+
+**贡献度计算**:
+
+- 各组成部分的**绝对贡献** = Xi₁ - Xi₀
+- 各组成部分的**相对贡献率** = (Xi₁ - Xi₀) / (Y₁ - Y₀) × 100%
+
+分析要点:
+- 识别"拉动型"子项(自身增长且贡献正向)。
+- 识别"拖累型"子项(自身下滑或增速低于整体)。
+- 识别"结构迁移"(子项占比变化对整体增速的影响)。
+
+### 结构-因素双分解
+
+当整体指标受"结构占比"和"因素水平"双重影响时使用:
+
+**整体变化 = 结构效应 + 因素效应**
+
+以整体客单价为例:
+- **结构效应**:各品类销售占比变化带来的影响(即使各品类自身客单价不变)。
+- **因素效应**:各品类自身客单价变化带来的影响(即使销售占比不变)。
+
+公式:
+- 结构效应 = Σ[(Pi₁ - Pi₀) × Ai₀]
+- 因素效应 = Σ[Pi₁ × (Ai₁ - Ai₀)]
+
+其中 Pi 为第 i 个品类的占比,Ai 为第 i 个品类的客单价。
+
+### 贡献度陈述规范
+
+正确的贡献度陈述必须包含三个要素:
+
+1. **变化方向**:该因素是拉动整体上升还是拖累整体下降。
+2. **贡献量级**:该因素对整体变化的具体数值贡献。
+3. **贡献占比**:该因素在总变化中的占比(当总变化不为零时)。
+
+示例:"整体销售额增长 120 万元,其中客户数增加贡献 80 万元(占 67%),客单价提升贡献 50 万元(占 42%),转化率下降抵消 10 万元(占 -8%)。"
+
+## 原因假设库
+
+谨慎使用假设。除非有直接数据支持,否则将其标记为假设。
+
+### 增长
+
+- 需求扩张。
+- 新客户/订单流入。
+- 高绩效区域或产品结构变化。
+- 转化率提升或处理速度加快。
+- 交付产能释放。
+- 活动、季节性或政策效应。
+
+### 下降
+
+- 需求减弱。
+- 数据截止或报告滞后。
+- 阶段阻塞或审批延迟。
+- 客户付款延迟。
+- 供应、物流、生产、库存或人员约束。
+- 上期高基数效应。
+
+### 集中
+
+- 大客户依赖。
+- 区域市场偏斜。
+- 产品结构集中。
+- 资源配置偏向。
+- 销售负责人或渠道依赖。
+
+### 波动
+
+- 样本量小。
+- 一次性大订单/事件。
+- 日历效应。
+- 批量数据录入。
+- 不规律履约计划。
+
+## 根因验证方法
+
+提出假设后,必须通过数据验证而非主观确认。遵循"提出假设 → 寻找证据 → 排除不成立 → 确认最可能"的流程。
+
+### 假设验证流程
+
+1. **提出可检验假设**:将模糊猜测转化为可验证的预测。例如,将"可能是大客户的影响"转化为"如果大客户是主因,那么 Top5 客户贡献度应显著高于历史同期"。
+2. **设计验证数据**:明确需要查看哪些维度的数据来验证或证伪假设。
+3. **执行检验**:计算预测值与实际数据的吻合度。
+4. **排除与确认**:若数据不支持,则排除该假设;若支持,则记录为"数据支持的解释"。
+
+### 交叉验证原则
+
+如果一个假设成立,它在多个维度上都应该表现出一致性:
+
+- **时间一致性**:该因素在相邻时间段内是否持续产生影响?还是仅单点异常?
+- **结构一致性**:该因素在多个子群体中是否都表现出影响?还是仅局限于个别对象?
+- **逻辑一致性**:该因素与前后环节指标的变化方向是否一致?
+
+若某假设仅在一个维度上"说得通"但在其他维度上出现矛盾,则该假设可信度低。
+
+### 反事实思维
+
+评估某因素的真实影响时,思考"如果没有该因素,结果会怎样?":
+
+- 如果剔除某一次性大单,剩余订单的趋势如何?
+- 如果某区域保持上期增速而非本期增速,整体增速会差多少?
+- 如果某政策未出台,指标变化方向是否依然成立?
+
+反事实分析的结果必须明确标注为"估算"或"敏感性测试",避免当作确定事实陈述。
+
+### 排除法与证伪
 
-Do not restate previous pages. Synthesize:
+优先尝试证伪而非证实:
 
-- Top 3 findings by business impact.
-- Main risk and its trigger condition.
-- Main opportunity and expected upside.
-- Next operating cadence: what to track daily/weekly/monthly.
+- 若怀疑"需求减弱",检查领先指标(如新询盘量、官网访问量)是否真的同步下降。
+- 若怀疑"供应链约束",检查交付周期、库存周转、缺货率等是否异常。
+- 若怀疑"数据问题",检查时间戳分布、录入批次、系统切换记录等。
 
-## Analysis Depth Checklist
+当多个假设中仅有一个无法被证伪时,将其标记为"最可能解释",但仍需注明不确定性。
 
-Before writing a slide, check:
+## 数据可信度与统计思维
 
-- Does the page contain at least one concrete number?
-- Does it contain at least one comparison?
-- Does it explain a cause or plausible mechanism?
-- Does it mention impact on business decisions?
-- Does it recommend a specific action?
+分析结论的可信度取决于数据质量和统计基础。必须在分析中主动评估并披露数据限制。
 
-If any answer is no, revise the analysis.
+### 样本量与统计代表性
 
-## Comparison Hierarchy
+- **大样本(N ≥ 30)**:统计规律相对稳定,可直接计算均值、占比、增长率。
+- **中等样本(10 ≤ N < 30)**:结论需谨慎,避免过度解读极端值。
+- **小样本(N < 10)**:个体波动对整体影响巨大,必须标注"样本量较小,结论仅供参考"。
 
-Use the strongest available comparison:
+当进行细分分析时,各子群体的样本量都需要单独评估。一个总体 N=1000 的维度下,某个子群体可能只有 N=5。
 
-1. Target or budget.
-2. Previous period.
-3. Same period last year.
-4. Segment benchmark, team benchmark, region benchmark, category benchmark.
-5. Internal structure: Top vs tail, high vs low, early vs late period.
-6. Statistical baseline: mean, median, percentile, standard deviation.
-7. If none exists, explicitly say the page is a baseline view and propose the next comparison field to add.
+### 异常检测与处理
 
-## Cause Hypothesis Library
+识别异常值时,结合统计方法和业务规则:
 
-Use hypotheses cautiously. Mark them as hypotheses unless directly supported by data.
+- **统计方法**:IQR 法则(超出 1.5×IQR 范围)或 Z-Score(绝对值 > 3)。
+- **业务规则**:超出合理业务范围的值(如转化率为负或大于 100%,交付周期为负)。
+- **时间连续性**:单点突变而前后平稳的数值更可能是异常值。
 
-### Growth
+处理原则:
+- **数据错误**:明确标注并建议修正,分析时可剔除并说明。
+- **业务异常**(如一次性大单):保留在分析中,但单独说明其对整体指标的影响。
+- **结构变化**:不是异常值,而是新的分布状态,需要重新建立基准。
 
-- Demand expansion.
-- New customer/order inflow.
-- High-performing region or product mix shift.
-- Improved conversion or faster processing.
-- Delivery capacity release.
-- Campaign, seasonality, or policy effect.
+### 统计显著性 vs 业务显著性
 
-### Decline
+- **统计显著性**:变化是否超出了随机波动的范围?小基数下 50% 的增长可能统计不显著。
+- **业务显著性**:变化是否对业务产生了实质影响?大基数下 2% 的下降可能意味着巨额损失。
 
-- Demand weakening.
-- Data cut-off or reporting lag.
-- Stage blockage or approval delay.
-- Customer payment delay.
-- Supply, logistics, production, inventory, or staffing constraint.
-- High base effect from prior period.
+分析时必须同时考虑两者:
+- 统计不显著但业务显著 → 标注"波动较大,需持续观察"。
+- 统计显著但业务不显著 → 标注"变化稳健但绝对影响有限"。
+- 两者皆显著 → 核心发现,优先呈现。
 
-### Concentration
+### 数据质量信号
 
-- Key account dependence.
-- Regional market skew.
-- Product mix concentration.
-- Resource allocation bias.
-- Sales owner or channel dependence.
+在分析前快速扫描以下信号,若存在则需在报告中披露:
 
-### Volatility
+- **缺失率**:关键字段缺失率 > 10% 时,分析结论可能偏斜。
+- **重复值**:ID 列重复率异常高时,检查是否存在重复录入。
+- **逻辑不一致**:如"下单日期"晚于"交付日期",或"转化率"的分母小于分子。
+- **时间断档**:数据是否存在未覆盖的日期区间?月末/年末是否容易缺失?
+- **基数突变**:分母突然大幅变化(如客户数从 1000 骤降至 50),导致比率指标失真。
 
-- Small sample size.
-- One-off large order/event.
-- Calendar effect.
-- Batch data entry.
-- Irregular fulfillment schedule.
+数据质量问题必须在报告的"数据说明"或"局限性"部分披露,不能隐瞒。
 
-## Writing Rules
+## 写作规则
 
-Use precise, executive-ready Chinese:
+使用精确、适合高管阅读的中文:
 
-- Prefer: "本月订单量较上期增加 18%,其中 Top3 国家贡献 62% 增量,说明增长主要由头部市场拉动。"
-- Avoid: "本月订单表现较好,后续需持续关注。"
+- 推荐写法:"本月订单量较上期增加 18%,其中 Top3 国家贡献 62% 增量,说明增长主要由头部市场拉动。"
+- 避免写法:"本月订单表现较好,后续需持续关注。"
 
-Use decision verbs:
+使用决策动词:
 
-- "优先处理", "拆解", "复核", "校准", "压降", "放大", "转化", "闭环", "预警", "复盘".
+- "优先处理"、"拆解"、"复核"、"校准"、"压降"、"放大"、"转化"、"闭环"、"预警"、"复盘"。
 
-Avoid empty verbs:
+避免空洞动词:
 
-- "加强", "优化", "提升", "关注", unless followed by object + metric + deadline.
+- "加强"、"优化"、"提升"、"关注",除非后面跟有对象 + 指标 + 截止时间。
 
-## Empty Analysis Anti-Patterns
+## 空洞分析反模式
 
-Reject and rewrite these:
+拒绝并重写以下内容:
 
-- Only describing chart appearance.
-- Only repeating the largest category.
-- Only listing all categories or countries.
-- Saying "数据较为均衡" without concentration metrics.
-- Saying "存在波动" without peak/trough/change range.
-- Saying "建议继续跟进" without owner, priority, metric, or timing.
-- Writing a long paragraph without any number.
+- 仅描述图表外观。
+- 仅重复最大的类别。
+- 仅列出所有类别或国家。
+- 没有集中度指标就说"数据较为均衡"。
+- 没有峰值/谷值/变化范围就说"存在波动"。
+- 没有负责人、优先级、指标或时间就说"建议继续跟进"。
+- 写一大段没有任何数字的文字。
+- 仅说"多因素影响"而不量化各因素的贡献度。
+- 仅说"结构优化"而不说明哪部分结构变化、贡献多少。
+- 归因时未排除其他竞争性假设。
 
-## Slide Density Guidance
+## 幻灯片密度指导
 
-Good analysis does not mean long text. A strong PPT page usually has:
+好的分析不意味着长篇大论。一张优秀的 PPT 页面通常包含:
 
-- 1 clear conclusion title.
-- 1 chart or KPI group.
-- 2-4 insight blocks.
-- 3-6 specific numbers across the page.
-- No raw category list longer than 5 items. Use Top N + "其余" summary.
+- 1 个清晰的结论标题。
+- 1 个图表或 KPI 组合。
+- 2-4 个洞察块。
+- 整个页面包含 3-6 个具体数字。
+- 不超过 5 项的原始类别列表。使用 Top N + "其余" 汇总。
 
-When a category list is too long:
+当类别列表过长时:
 
-- Show Top 5 only.
-- Add "其余 X 项合计 Y,占比 Z%".
-- Move full detail to appendix or table.
-- Never put a long category list inside a KPI value box.
+- 仅展示前 5 项。
+- 添加"其余 X 项合计 Y,占比 Z%"。
+- 将完整明细移至附录或表格。
+- 切勿将长类别列表放入 KPI 数值框内。
 
-## Quality Self-Review For Analysis
+## 分析质量自检
 
-Before final PPT output, inspect pages from page 4 onward especially carefully:
+在最终 PPT 输出前,仔细检查第 4 页及之后的页面:
 
-- Does each page contain a business judgment beyond summary?
-- Does each chart have a written interpretation?
-- Are risks and actions specific?
-- Are long category labels abbreviated or moved into a chart/table?
-- Are all claims traceable to visible numbers or source data?
+- 每个页面是否包含超越摘要的业务判断?
+- 每个图表是否有文字解读?
+- 风险和行动是否具体?
+- 长类别标签是否已缩写或移入图表/表格?
+- 所有论断是否可追溯至可见数字或源数据?
+- 每个归因结论是否排除了主要竞争性解释?
+- 涉及细分的结论是否检查了各子群体的样本量?
+- 是否存在数据质量问题未披露?
 
-If a page is mostly generic text, rebuild the page narrative before output.
+如果某个页面大多是泛泛而谈的文字,请在输出前重建页面叙述。