研究方法 · 预注册现场实验（Preregistered Field Experiment）

把一届世界杯，当成一次受控实验。

方法论 v0.2 预注册已冻结 · 2026-06-12 数据截至 — 样本 N=1 · 104 场

摘要

本研究不把 2026 世界杯当作一次冠军预测，而是当作一台一次性的实验装置：用一届赛事检验三个关于「预测」本身的、可证伪（falsifiable）命题。估计器（把两队实力换算成比分概率的统计内核）采用学界成熟的标准范式——Elo 评级 → 泊松广义线性模型（Poisson GLM）→ Dixon-Coles 双泊松 → 蒙特卡洛（Monte Carlo）模拟——刻意不发明新方法；创新集中在实验设计层：全流程预注册、赛前冻结判据、严防未来函数（look-ahead bias）、赛后照契约结算、全程留痕可回放。三个命题分别考察实时更新有无增量（H1）、概率是否校准（H2）、以及大语言模型软信息相对 1997 年统计模型有无增量（H3）。可信度来自边界清楚，而非视觉更响。本页是这套方法论面向公众的完整载体；工程规格与逐字预注册见文末参考。

§1 · 立场

这不是足球预测项目，是一次受控实验。

绝大多数「世界杯预测」做的是同一件事：搭一个模型、报一个冠军、赛后看猜没猜中。我们刻意不做这件事，因为单届世界杯冠军预测的样本量是 N=1，猜中与否几乎不携带方法论信息——2022 阿根廷夺冠不能证明任何模型对，2014 德国夺冠也不能。

我们的立场是：把这届世界杯当成一台一次性的实验装置，用它检验几个关于「预测」本身的、可证伪的命题。估计器（怎么把两队实力换成比分概率）我们用学界已成熟的标准件，不发明——因为预测领域反复证明，校准良好的老方法通常打败花哨的新方法。创新发生在实验设计层，不在估计器层。仪器应该是无聊的；有意思的是用无聊仪器做的受控对照。

这个立场带来一个副产品：因为整个流程是预注册 + 留痕 + 可回放的，它天然产出一个透明的在线研究网站——公众看预测，研究者看方法。

§2 · 来源澄清

我们不以任何一份报告为基础。

三层来源各司其职：估计器内核是公开标准范式（我们自己实现），事实与靶子来自两份背景报告，真正定调的方法论纪律来自我们自己以往的项目。两份 PDF 在纪律这一层都只是被检验对象，不是被信任的输入。

层	来源	在本项目中的性质
估计器内核 Elo + Dixon-Coles + 蒙特卡洛	公开标准范式（Dixon-Coles 1997、FiveThirtyEight SPI 等），自行实现	与 Kimi 报告的量化底层同源，但底不是 Kimi——拿其附录参数当对拍件校验量级
事实与靶子	Klement 研报（抽签 / 市场赔率 / 确定性 bracket）；Kimi 概率表	事实来源 + 赛后被结算的基线，不是被信任的输入
方法论纪律	我们自己的项目（ttp-test、a-share E2A）	真正定调的一层；预注册 / 零模型 / 可回放审计 / 未来函数控制

表 1 · 三层来源分工。一句话：模型用标准范式自建（恰好与 Kimi 内核同款），纪律用我们自己的，两份报告是事实来源 + 赛后陪绑被评分的基线。

明确不采用：

Klement 的 GDP / 人口 / 温度社会经济回归——作者自承 tongue-in-cheek，决定系数（R²）约 55%，且变量赛中不变，无法承载本项目核心（实时更新）。
Kimi 的多智能体辩论 / 舆情 / 机器学习增强层做主线——不可复现、不可审计。但其预测产出作为基线 B5 被我们评分（见 H3b）。

§3 · 估计器

标准范式，不发明新估计器。

单场预测走一条四段标准流水线：自建 Elo 评级（国际赛全史，1872 至今）把每支球队压成一个实力数；泊松广义线性模型把两队 Elo 差映射为各自的进球期望 λ；Dixon-Coles 双泊松在此基础上给出单场胜 / 平 / 负概率（含对低比分相关性的修正）；最后 蒙特卡洛把整届赛事模拟 10 万次——含小组排名细则、FIFA 第三名 495 组合对位表、淘汰赛树——汇总成出线 / 各阶段 / 冠军概率。

历史国际赛1872–2026
全史赛果

→

Elo 评级全史迭代
每队一个实力数

→

λ 泊松映射Elo 差 →
进球期望

→

Dixon-Coles双泊松
单场胜平负

→

蒙特卡洛10 万次
整届模拟

→

锦标赛概率出线 / 各阶段
/ 冠军

图 1 · 估计器流水线。四个学界标准件串联，本项目自建实现；仪器无聊是刻意的。

三个模型变体：只差「Elo 从哪来」一个变量

我们跑三个变体。它们共用完全相同的 λ 映射、Dixon-Coles 与蒙特卡洛内核，唯一区别是喂进内核的 Elo 怎么来——这样三者之间的任何差异都能干净归因到那一个变量。

M-frozen赛前冻结 Elo：揭幕战前快照，全程永不更新（H1 的对照锚点）。

M-live赛前 Elo + 每场赛果实时演化：纯统计，无任何人工 / 模型干预。

M-llmM-live + 大模型软信息修正：Claude 读赛前伤停 / 首发 / 轮换等新闻，给出有界 Elo 修正（硬性 clip 到 ±100）。

↓ 三者共用同一套 λ 映射 / Dixon-Coles / 蒙特卡洛内核 ↓

图 2 · 模型变体的干净隔离。M-llm 与 M-live 仅差「LLM 日修正」一个变量，故其差异可归因于 LLM 软信息本身。完整七层工程架构见参考中的 SPEC。

§4 · 三个可证伪命题（开赛前冻结）

我们到底要回答什么。

三个命题与各自的裁决判据在揭幕战前写入预注册文件并 git commit，之后只许追加附注、不许改判据。所有比较一律配对（同一批比赛），用 10000 次自助法（bootstrap）重抽求置信区间。

H1 · 实时更新有无增量

赛中每场结果都更新评级、重新模拟，听起来理所当然，但几乎没人预注册地回答过它到底有没有用。每队小组赛仅 3 场，短序列上的更新很可能只是噪声搬运。

判据（成立）：在「首次更新后开球」的约 90+ 场上，M-live 平均排序概率得分（RPS）严格小于 M-frozen，且配对 bootstrap 95% 置信区间不跨零。方向对但 CI 跨零 → 报「方向性证据，功效不足」，不宣称成立。证伪 → 「赛中信息在场级粒度无可检出增量」，作为有价值的负结果报告。

H2 · 校准是否合格

预测的价值在校准而非命中：说 70% 的事约 70% 发生，才是有用的概率。

判据（成立）：M-live 全量单场预测的期望校准误差（ECE，10 等宽桶）≤ 0.05。附加观察（不设判据）：48 队新赛制无历史校准数据，第三名出线机制可能催生「策略性平局」破坏泊松独立性；校准曲线是否系统性走样、是否高估南美预选赛刷分队，是无先例的观测点（N=1，只给观察不给结论）。

H3 · LLM vs 1997 统计模型

2026 是第一届「AI 预测报告满天飞」的世界杯，我们手里正好有一份 224 页大模型多智能体报告。这是本项目最值钱的一刀——不是足球研究，是「AI 推理 vs 经典统计」的评估研究。

H3a（动态，主）：M-llm vs M-live，同口径 RPS / 晋级 Brier 配对比较，判据同 H1；同时报 M-llm vs M-frozen。H3b（静态，辅）：Kimi 报告（B5）赛前冠军 / 四强 / 八强概率 vs M-frozen，按 Brier / 对数损失（log loss）结算。

非命题 · 跑赢市场

博彩 / Polymarket 含阵容、伤病、内幕，信息集严格大于我们。我们预期跑不赢，只对照不立判据——把「跑赢市场」设成目标会诱导过拟合。

§5 · 对照设计

八个评分对象，每个信号都要打得过零模型。

编号	模型 / 基线	起点	随赛程更新
M-frozen	自家 · 纯统计 Elo	揭幕战前冻结	否（H1 对照锚点）
M-live	自家 · 纯统计实时更新	= M-frozen	是，每日最新 Elo + 条件模拟
M-llm	自家 · Elo + LLM 软信息修正	已吸收赛前伤病种子	是，每日新闻 → 有界修正
B0	均匀零模型	单场 1⁄3-1⁄3-1⁄3；冠军 1⁄48	否
B1	FIFA 排名朴素模型	FIFA 积分差 → 逻辑映射	否
B2	市场（Polymarket）	2026-04 + 开赛前快照	仅冠军层，离散快照（只对照）
B4	Klement 确定性 bracket	2026-04（押荷兰夺冠）	否
B5	Kimi 概率表	2026-06-05	否

表 2 · 八个评分对象。B5（Kimi）表含 10 支未进决赛圈的幽灵球队，H3b 结算时在真实 48 队交集上比较，并把幽灵队概率质量单列为「名单错误成本」。

对照	证明的命题
M-live vs M-frozen	H1：更新有无增量
M-live 可靠性曲线	H2：校准
M-llm vs M-live	H3a：LLM 软信息增量
M-llm vs M-frozen	H3a 辅：LLM 修正是否优于不更新
B5(Kimi) vs M-frozen	H3b：LLM 报告 vs 统计
全部 vs B0 / B1	信号是否打得过零模型
全部 vs B2（市场）	对照汇报（非判据）
2026 vs 2018 / 2022 回测	H1 的三届方向一致性

表 3 · 对照矩阵：谁对谁，证什么。

§6 · 评分指标（赛前锁定）

用同一套真实赛果结算，比较一律配对。

RPS

排序概率得分（ranked probability score）。三向有序结果（胜 / 平 / 负）的累积概率误差，惩罚「错得离谱」重于「错得接近」。小组赛 72 场主指标。越小越好。

Brier

布里尔得分。二元事件（晋级与否、各阶段是否达到）的均方概率误差，赛后按 0 / 1 结算。淘汰赛 32 场 + 结构层。

log loss

对数损失。冠军 48 类多分类的概率得分，对「给真冠军分配低概率」惩罚极重。冠军层 + H3b。

ECE

期望校准误差。10 等宽桶可靠性曲线下，预测概率与实际频率的加权平均偏差。H2 判据 ≤ 0.05。

可靠性曲线（reliability curve）怎么读：横轴是模型给出的预测概率，纵轴是这些预测实际发生的频率。贴近对角线 = 校准良好。曲线整体落在对角线下方，意味着模型「过度自信」——它说 80% 的事其实只发生约 72%。ECE 就是这条曲线偏离对角线的平均距离。
（示意图，非真实数据；赛后用 M-live 全量预测绘制真实曲线。）

图 3 · H2 校准的判读方式。纯 Elo 对顶级队的已知倾向是过度自信，故 48 队赛制下的校准走样是重点观察对象。

§7 · 方法论纪律

诚实结算的七条铁律。

1 · 预注册冻结

评分指标、对照集、判据在揭幕战前写入 registry/preregistration.md 并 commit，之后只增不改，不事后改口径。

2 · 零模型优先

每个「信号」对照至少一个零模型（B0 均匀 / B1 FIFA 朴素）。打不过就如实写。

3 · 审计可回放

每日预测是当天数据的纯函数；快照 + 数据指纹留痕，任何数字可复算。

4 · 诚实结算

N=1、104 场样本量小，效应量优先于 p 值；统计功效局限写明，不靠 p<0.05 包装。

5 · 禁止赛中调参

开赛后模型代码、超参、M-llm 的提示词全部冻结，只允许数据流入。修 bug 须 CHANGELOG 标注并保留两版结果。

6 · 未来函数控制（第一纪律）

见下方图 4。预测系统最致命的作弊是消费了「当时拿不到的信息」。

7 · LLM 可复算硬约束

旗舰 Claude 已弃用温度参数，无法靠温度 0 保证位级一致。改用更强口径——M-llm 的种子与每日修正各只跑一次即冻结存库，快照永远消费库中存量、绝不实时重导。可复算性由冻结提示词 + 记录 model id 与输入指纹 + 输出冻结成不可变制品三点保证。

未来函数控制（look-ahead bias）：第一纪律

✓ 允许消费 当日北京时间 06:00 之前的信息

历史赛果与 Elo（带时间戳）、赛前软信息（伤停 / 首发 / 轮换，原文 + 抓取时刻存档）。模拟按快照日期做时间切片。

✕ 禁止 06:00 之后 / 任何赛果

当日 06:00 后发布的新闻、任何比赛比分。提示词强制「今天比赛未进行，绝不查 / 用任何赛果」。

图 4 · 未来函数闸。硬规则：快照只消费 ≤ 当日数据且写入即只读（禁回填）；回测滚动前推（walk-forward）逐日推进不回看；evaluate.py 内置 assert_no_lookahead() 在 CI 级校验每个快照引用的最大数据时间戳 ≤ 快照日期。因为预测逐日封存、赛后无法偷偷回填，研究结果才可信。

§8 · 已锁定的简化（赛后不翻案，只能在 v2 改进）

边界写清楚，比假装没有边界更诚实。

加时 / 点球：加时 = 进球率 × ⅓ 时长；点球 50/50。各模型同口径，对 H1/H3 的相对比较无偏。
小组排名平局细则：用积分 → 净胜球 → 进球 → 随机；略去相互战绩与公平竞赛分（影响极小）。
第三名 495 对位：二分图匹配 + 固定优先级，已对 495 组合穷举验证无同组对阵、半区守恒，是 FIFA Annex C 的结构近似；多个合法匹配并存时的精确选择对冠军概率为二阶影响。
主场优势：三东道主（墨西哥 / 美国 / 加拿大）小组赛享主场（+100 Elo 由 λ 模型主场项承接）；淘汰赛全部按中立场。
环境协变量 OFF：休息天数、旅行、海拔、高温在 v1 不入模；赛后做事后（post-hoc）消融，有信号留 v2。
M-llm 输入边界：仅伤病 / 缺席 / 首发类软信息，不含战术、舆情、天气。

§9 · 结算时点（冻结）

裁决只在两个时点做。

06-12

揭幕战

预注册冻结
墨西哥 vs 南非

06-12 → 06-28

小组赛

72 场
每日滚动评分

约 06-28

中期报告

H1 / H3a 方向
+ 校准初版

06-28 → 07-19

淘汰赛

32 场
晋级 Brier

07-19

决赛

—

07-20

终局裁决

H1/H2/H3 最终
+ 全基线 + 复盘

图 5 · 结算时间线。绿点=已过的时点、当前阶段高亮、空心=未到（按当日自动更新）；正式裁决只在中期报告与终局裁决两个时点做。

§10 · 研究结果

终局裁决：三个命题，全部未能证明增量。

赛事已于 2026-07-20 结束（西班牙加时 1–0 胜阿根廷夺冠；季军英格兰）。照 §9 契约，在终局时点结算——判据 §4 赛前已冻结，口径一字不改。主判据样本为小组赛 72 场逐场胜平负（H1/H2/H3）；淘汰赛 32 场晋级作次要指标。所有评分由 evaluate.py 以无未来函数口径计算（预测逐日封存、assert_no_lookahead() 全过），非事后回算。

先看技能基线（判据的前提）：三个自家模型的逐场 RPS 都在 0.167–0.169，盲猜零模型（每场 1/3）为 0.231——仪器比随机好约 28%，确有真技能。所以下面谈的是「在一个本就有技能的估计器上，实时更新 / LLM 软信息还能不能再挤出可测增量」。

命题	赛前冻结判据	全样本数据	裁决
技能基线	逐场 RPS 优于盲猜 B0	0.167–0.169 vs 0.231（优约 28%）	成立 ✓
H1 实时更新增量	M-live vs M-frozen 逐场 RPS 配对差，95% bootstrap CI 不跨零且方向为改善	配对差 +0.0016，95%CI[−0.0044, +0.0094]（跨零）	不成立
H2 校准	M-live 全量单场 ECE ≤ 0.05	ECE 0.064（M-frozen 0.077 / M-llm 0.062）	不成立
H3 LLM 软信息增量	M-llm vs M-live 逐场 RPS 配对差，CI 不跨零	配对差 +0.0006，95%CI[−0.0007, +0.0020]（跨零）	不成立

H1 · 实时更新，无可测增量

逐日用真实赛果演化 Elo 的 M-live（RPS 0.168）与全程冻结的 M-frozen（0.167）统计上不可区分：配对差 +0.0016 偏向 M-live 略差，但 95% bootstrap 置信区间 [−0.004, +0.009] 跨零。按冻结判据，H1 不成立——实时更新没有在逐场层带来可测的增量。一处诚实的紧张：在冠军层，实时更新确实把西班牙的夺冠概率从赛前 22% 磨到 52%（并命中）；但那是 N=1 的单点，不进逐场判据，只记录、不当结论。

H2 · 校准，险些达标

M-live 全量单场 ECE = 0.064，高于 0.05 阈值，H2 不成立——虽只差一点。三个模型（0.062–0.077）方向一致：在 48 队新赛制、单届小样本下，概率整体略偏自信（over-confident）。这是「险些合格」，不是「严重失准」。

H3 · LLM 软信息 ≈ 纯统计

加入伤病 / 缺阵 LLM 软信息的 M-llm（RPS 0.169）与纯 1997 统计的 M-live（0.168）几乎重合：配对差 +0.0006，95%CI[−0.001, +0.002]，区间极窄且跨零。H3 不成立——本届样本里，LLM 软信息相对成熟统计范式没有可测增量。

次要指标 · 淘汰赛与冠军

淘汰赛 32 场晋级预测：Brier 0.159（盲猜 0.25），命中 25/32 = 78%——淘汰赛层同样有技能。冠军：我们（M-live）以 西班牙 52% 列榜首，命中实际冠军；冻结版 M-frozen 也早以 22% 把西班牙放在榜首。与 Klement 确定性对阵树逐场同选 22/31。市场对照（B2，非判据）见方法论对比。

复盘 · 一个有信息量的零结果

三个主命题全部未能证明增量——这本身是有价值的结论，且正是 §1 立场的印证：校准良好的老方法通常打败花哨的新方法。冻结的 1997 范式，既没被实时更新、也没被 LLM 软信息可测地超越。

N=1 的根本局限，必须说清：单届世界杯、逐场 72 个样本，统计功效有限，置信区间宽到足以吞掉小效应。所以这些「不成立」应读作「未能证明有增量」，而非「证明了无增量」——缺乏证据 ≠ 反面证据。想真正分辨，需要跨多届赛事累积样本（v2 方向）。

可证伪性兑现：判据赛前冻结、赛后照数如实下裁决，没有事后改口径、没有挑有利子样本、没有把「冠军猜中」这类顺手的好结果偷渡成命题。这正是预注册的意义——好看的结果（冠军命中、有技能基线）与不好看的结果（三命题不成立）都照同一把尺子报出来。

赛中已赛比赛的「我们预测 vs 实际」原始记录见首页历史赛果；各模型实时概率与分歧见方法论对比。

§R · 参考与材料

数据源、范式出处与可核验的原文。

[1]Dixon, M. J. & Coles, S. G. (1997). Modelling Association Football Scores and Inefficiencies in the Football Betting Market. — 单场双泊松模型的范式出处。

[2]martj42 / international_results — 1872 至今国际赛全史，Elo 拟合的数据底座。

[3]openfootball / worldcup.json — 2026 赛制、分组与赛程。

[4]ESPN scoreboard / summary API（免 key）— 赛中比分与逐场事件；手填 CSV 为最高优先级兜底。

[5]Polymarket gamma API / Stake odds API — 市场盘口（基线 B2，只对照不评判）。

[6]M-llm 软信息 — Claude（claude-opus-4-8）以联网搜索自行调研赛前伤停 / 首发，结构化提交并冻结存库。

[7]Kimi《2026 世界杯报告》（224 页，多智能体 + 蒙特卡洛）— 基线 B5，H3b 的被评分对象。

[8]Panmure Liberum / Klement 研报 — 抽签、2026-04 市场快照、确定性 bracket（基线 B2 / B4）。

[9]本项目预注册与方法论原文 — METHODOLOGY.md / registry/preregistration.md / SPEC.md，全文见 GitHub 仓库。

—