研究方法 · 预注册现场实验(Preregistered Field Experiment)

把一届世界杯,当成一次受控实验。

方法论 v0.2 预注册已冻结 · 2026-06-12 数据截至 — 样本 N=1 · 104 场

摘要

本研究不把 2026 世界杯当作一次冠军预测,而是当作一台一次性的实验装置:用一届赛事检验三个关于「预测」本身的、可证伪(falsifiable)命题。估计器(把两队实力换算成比分概率的统计内核)采用学界成熟的标准范式——Elo 评级 → 泊松广义线性模型(Poisson GLM)→ Dixon-Coles 双泊松 → 蒙特卡洛(Monte Carlo)模拟——刻意不发明新方法;创新集中在实验设计层:全流程预注册、赛前冻结判据、严防未来函数(look-ahead bias)、赛后照契约结算、全程留痕可回放。三个命题分别考察实时更新有无增量(H1)、概率是否校准(H2)、以及大语言模型软信息相对 1997 年统计模型有无增量(H3)。可信度来自边界清楚,而非视觉更响。本页是这套方法论面向公众的完整载体;工程规格与逐字预注册见文末参考。

§1 · 立场

这不是足球预测项目,是一次受控实验。

绝大多数「世界杯预测」做的是同一件事:搭一个模型、报一个冠军、赛后看猜没猜中。我们刻意不做这件事,因为单届世界杯冠军预测的样本量是 N=1,猜中与否几乎不携带方法论信息——2022 阿根廷夺冠不能证明任何模型对,2014 德国夺冠也不能。

我们的立场是:把这届世界杯当成一台一次性的实验装置,用它检验几个关于「预测」本身的、可证伪的命题。估计器(怎么把两队实力换成比分概率)我们用学界已成熟的标准件,不发明——因为预测领域反复证明,校准良好的老方法通常打败花哨的新方法。创新发生在实验设计层,不在估计器层。仪器应该是无聊的;有意思的是用无聊仪器做的受控对照。

这个立场带来一个副产品:因为整个流程是预注册 + 留痕 + 可回放的,它天然产出一个透明的在线研究网站——公众看预测,研究者看方法。

§2 · 来源澄清

我们不以任何一份报告为基础。

三层来源各司其职:估计器内核是公开标准范式(我们自己实现),事实与靶子来自两份背景报告,真正定调的方法论纪律来自我们自己以往的项目。两份 PDF 在纪律这一层都只是被检验对象,不是被信任的输入。

来源在本项目中的性质
估计器内核
Elo + Dixon-Coles + 蒙特卡洛
公开标准范式(Dixon-Coles 1997、FiveThirtyEight SPI 等),自行实现与 Kimi 报告的量化底层同源,但底不是 Kimi——拿其附录参数当对拍件校验量级
事实与靶子Klement 研报(抽签 / 市场赔率 / 确定性 bracket);Kimi 概率表事实来源 + 赛后被结算的基线,不是被信任的输入
方法论纪律我们自己的项目(ttp-test、a-share E2A)真正定调的一层;预注册 / 零模型 / 可回放审计 / 未来函数控制

表 1 · 三层来源分工。一句话:模型用标准范式自建(恰好与 Kimi 内核同款),纪律用我们自己的,两份报告是事实来源 + 赛后陪绑被评分的基线。

明确不采用:

  • Klement 的 GDP / 人口 / 温度社会经济回归——作者自承 tongue-in-cheek,决定系数(R²)约 55%,且变量赛中不变,无法承载本项目核心(实时更新)。
  • Kimi 的多智能体辩论 / 舆情 / 机器学习增强层做主线——不可复现、不可审计。但其预测产出作为基线 B5 被我们评分(见 H3b)。

§3 · 估计器

标准范式,不发明新估计器。

单场预测走一条四段标准流水线:自建 Elo 评级(国际赛全史,1872 至今)把每支球队压成一个实力数;泊松广义线性模型把两队 Elo 差映射为各自的进球期望 λ;Dixon-Coles 双泊松在此基础上给出单场胜 / 平 / 负概率(含对低比分相关性的修正);最后 蒙特卡洛把整届赛事模拟 10 万次——含小组排名细则、FIFA 第三名 495 组合对位表、淘汰赛树——汇总成出线 / 各阶段 / 冠军概率。

历史国际赛1872–2026
全史赛果
Elo 评级全史迭代
每队一个实力数
λ 泊松映射Elo 差 →
进球期望
Dixon-Coles双泊松
单场胜平负
蒙特卡洛10 万次
整届模拟
锦标赛概率出线 / 各阶段
/ 冠军

图 1 · 估计器流水线。四个学界标准件串联,本项目自建实现;仪器无聊是刻意的。

三个模型变体:只差「Elo 从哪来」一个变量

我们跑三个变体。它们共用完全相同的 λ 映射、Dixon-Coles 与蒙特卡洛内核,唯一区别是喂进内核的 Elo 怎么来——这样三者之间的任何差异都能干净归因到那一个变量。

M-frozen赛前冻结 Elo:揭幕战前快照,全程永不更新(H1 的对照锚点)。
M-live赛前 Elo + 每场赛果实时演化:纯统计,无任何人工 / 模型干预。
M-llmM-live + 大模型软信息修正:Claude 读赛前伤停 / 首发 / 轮换等新闻,给出有界 Elo 修正(硬性 clip 到 ±100)。
↓ 三者共用同一套 λ 映射 / Dixon-Coles / 蒙特卡洛内核 ↓

图 2 · 模型变体的干净隔离。M-llm 与 M-live 仅差「LLM 日修正」一个变量,故其差异可归因于 LLM 软信息本身。完整七层工程架构见参考中的 SPEC。

§4 · 三个可证伪命题(开赛前冻结)

我们到底要回答什么。

三个命题与各自的裁决判据在揭幕战前写入预注册文件并 git commit,之后只许追加附注、不许改判据。所有比较一律配对(同一批比赛),用 10000 次自助法(bootstrap)重抽求置信区间。

H1 · 实时更新有无增量

赛中每场结果都更新评级、重新模拟,听起来理所当然,但几乎没人预注册地回答过它到底有没有用。每队小组赛仅 3 场,短序列上的更新很可能只是噪声搬运。

判据(成立):在「首次更新后开球」的约 90+ 场上,M-live 平均排序概率得分(RPS)严格小于 M-frozen,且配对 bootstrap 95% 置信区间不跨零。方向对但 CI 跨零 → 报「方向性证据,功效不足」,不宣称成立。证伪 → 「赛中信息在场级粒度无可检出增量」,作为有价值的负结果报告。

H2 · 校准是否合格

预测的价值在校准而非命中:说 70% 的事约 70% 发生,才是有用的概率。

判据(成立):M-live 全量单场预测的期望校准误差(ECE,10 等宽桶)≤ 0.05。附加观察(不设判据):48 队新赛制无历史校准数据,第三名出线机制可能催生「策略性平局」破坏泊松独立性;校准曲线是否系统性走样、是否高估南美预选赛刷分队,是无先例的观测点(N=1,只给观察不给结论)。

H3 · LLM vs 1997 统计模型

2026 是第一届「AI 预测报告满天飞」的世界杯,我们手里正好有一份 224 页大模型多智能体报告。这是本项目最值钱的一刀——不是足球研究,是「AI 推理 vs 经典统计」的评估研究。

H3a(动态,主):M-llm vs M-live,同口径 RPS / 晋级 Brier 配对比较,判据同 H1;同时报 M-llm vs M-frozen。H3b(静态,辅):Kimi 报告(B5)赛前冠军 / 四强 / 八强概率 vs M-frozen,按 Brier / 对数损失(log loss)结算。

非命题 · 跑赢市场

博彩 / Polymarket 含阵容、伤病、内幕,信息集严格大于我们。我们预期跑不赢,只对照不立判据——把「跑赢市场」设成目标会诱导过拟合。

§5 · 对照设计

八个评分对象,每个信号都要打得过零模型。

编号模型 / 基线起点随赛程更新
M-frozen自家 · 纯统计 Elo揭幕战前冻结否(H1 对照锚点)
M-live自家 · 纯统计实时更新= M-frozen是,每日最新 Elo + 条件模拟
M-llm自家 · Elo + LLM 软信息修正已吸收赛前伤病种子是,每日新闻 → 有界修正
B0均匀零模型单场 1⁄3-1⁄3-1⁄3;冠军 1⁄48
B1FIFA 排名朴素模型FIFA 积分差 → 逻辑映射
B2市场(Polymarket)2026-04 + 开赛前快照仅冠军层,离散快照(只对照)
B4Klement 确定性 bracket2026-04(押荷兰夺冠)
B5Kimi 概率表2026-06-05

表 2 · 八个评分对象。B5(Kimi)表含 10 支未进决赛圈的幽灵球队,H3b 结算时在真实 48 队交集上比较,并把幽灵队概率质量单列为「名单错误成本」。

对照证明的命题
M-live vs M-frozenH1:更新有无增量
M-live 可靠性曲线H2:校准
M-llm vs M-liveH3a:LLM 软信息增量
M-llm vs M-frozenH3a 辅:LLM 修正是否优于不更新
B5(Kimi) vs M-frozenH3b:LLM 报告 vs 统计
全部 vs B0 / B1信号是否打得过零模型
全部 vs B2(市场)对照汇报(非判据)
2026 vs 2018 / 2022 回测H1 的三届方向一致性

表 3 · 对照矩阵:谁对谁,证什么。

§6 · 评分指标(赛前锁定)

用同一套真实赛果结算,比较一律配对。

RPS

排序概率得分(ranked probability score)。三向有序结果(胜 / 平 / 负)的累积概率误差,惩罚「错得离谱」重于「错得接近」。小组赛 72 场主指标。越小越好。

Brier

布里尔得分。二元事件(晋级与否、各阶段是否达到)的均方概率误差,赛后按 0 / 1 结算。淘汰赛 32 场 + 结构层。

log loss

对数损失。冠军 48 类多分类的概率得分,对「给真冠军分配低概率」惩罚极重。冠军层 + H3b。

ECE

期望校准误差。10 等宽桶可靠性曲线下,预测概率与实际频率的加权平均偏差。H2 判据 ≤ 0.05。

0 0.5 1.0 预测概率 实际频率
可靠性曲线(reliability curve)怎么读:横轴是模型给出的预测概率,纵轴是这些预测实际发生的频率。贴近对角线 = 校准良好。曲线整体落在对角线下方,意味着模型「过度自信」——它说 80% 的事其实只发生约 72%。ECE 就是这条曲线偏离对角线的平均距离。
(示意图,非真实数据;赛后用 M-live 全量预测绘制真实曲线。)

图 3 · H2 校准的判读方式。纯 Elo 对顶级队的已知倾向是过度自信,故 48 队赛制下的校准走样是重点观察对象。

§7 · 方法论纪律

诚实结算的七条铁律。

1 · 预注册冻结

评分指标、对照集、判据在揭幕战前写入 registry/preregistration.md 并 commit,之后只增不改,不事后改口径。

2 · 零模型优先

每个「信号」对照至少一个零模型(B0 均匀 / B1 FIFA 朴素)。打不过就如实写。

3 · 审计可回放

每日预测是当天数据的纯函数;快照 + 数据指纹留痕,任何数字可复算。

4 · 诚实结算

N=1、104 场样本量小,效应量优先于 p 值;统计功效局限写明,不靠 p<0.05 包装。

5 · 禁止赛中调参

开赛后模型代码、超参、M-llm 的提示词全部冻结,只允许数据流入。修 bug 须 CHANGELOG 标注并保留两版结果。

6 · 未来函数控制(第一纪律)

见下方图 4。预测系统最致命的作弊是消费了「当时拿不到的信息」。

7 · LLM 可复算硬约束

旗舰 Claude 已弃用温度参数,无法靠温度 0 保证位级一致。改用更强口径——M-llm 的种子与每日修正各只跑一次即冻结存库,快照永远消费库中存量、绝不实时重导。可复算性由冻结提示词 + 记录 model id 与输入指纹 + 输出冻结成不可变制品三点保证。

未来函数控制(look-ahead bias):第一纪律

✓ 允许消费 当日北京时间 06:00 之前的信息

历史赛果与 Elo(带时间戳)、赛前软信息(伤停 / 首发 / 轮换,原文 + 抓取时刻存档)。模拟按快照日期做时间切片。

✕ 禁止 06:00 之后 / 任何赛果

当日 06:00 后发布的新闻、任何比赛比分。提示词强制「今天比赛未进行,绝不查 / 用任何赛果」。

图 4 · 未来函数闸。硬规则:快照只消费 ≤ 当日数据且写入即只读(禁回填);回测滚动前推(walk-forward)逐日推进不回看;evaluate.py 内置 assert_no_lookahead() 在 CI 级校验每个快照引用的最大数据时间戳 ≤ 快照日期。因为预测逐日封存、赛后无法偷偷回填,研究结果才可信。

§8 · 已锁定的简化(赛后不翻案,只能在 v2 改进)

边界写清楚,比假装没有边界更诚实。

  • 加时 / 点球:加时 = 进球率 × ⅓ 时长;点球 50/50。各模型同口径,对 H1/H3 的相对比较无偏。
  • 小组排名平局细则:用 积分 → 净胜球 → 进球 → 随机;略去相互战绩与公平竞赛分(影响极小)。
  • 第三名 495 对位:二分图匹配 + 固定优先级,已对 495 组合穷举验证无同组对阵、半区守恒,是 FIFA Annex C 的结构近似;多个合法匹配并存时的精确选择对冠军概率为二阶影响。
  • 主场优势:三东道主(墨西哥 / 美国 / 加拿大)小组赛享主场(+100 Elo 由 λ 模型主场项承接);淘汰赛全部按中立场。
  • 环境协变量 OFF:休息天数、旅行、海拔、高温在 v1 不入模;赛后做事后(post-hoc)消融,有信号留 v2。
  • M-llm 输入边界:仅伤病 / 缺席 / 首发类软信息,不含战术、舆情、天气。

§9 · 结算时点(冻结)

裁决只在两个时点做。

06-12
揭幕战
预注册冻结
墨西哥 vs 南非
06-12 → 06-28
小组赛
72 场
每日滚动评分
约 06-28
中期报告
H1 / H3a 方向
+ 校准初版
06-28 → 07-19
淘汰赛
32 场
晋级 Brier
07-19
决赛
07-20
终局裁决
H1/H2/H3 最终
+ 全基线 + 复盘

图 5 · 结算时间线。任意中途时点可由 evaluate.py 输出滚动评分,但正式裁决只在中期报告与终局裁决两个时点做。

§10 · 研究结果

赛后照契约填充,赛前留空。

本节在结算时点逐步填充,一旦填入即随快照冻结。当前留空是有意为之——任何赛前就「看起来有结论」的结果区,都是未来函数的温床。

待中期 / 终局填充

H1 · 实时更新

方向、效应量、配对 bootstrap CI、与 2018/2022 回测的一致性。

待终局填充

H2 · 校准

ECE、可靠性曲线、48 队赛制下的校准走样观察。

待中期 / 终局填充

H3 · LLM vs 统计

H3a M-llm 增量、H3b Kimi 报告 vs 统计、归因。

待终局填充

市场对照 + 复盘

B2 市场对照(非判据)、N=1 局限、过拟合诱惑记录、v2 方向。

赛中已赛比赛的「我们预测 vs 实际」原始记录见 首页历史赛果;各模型实时概率与分歧见 方法论对比

§R · 参考与材料

数据源、范式出处与可核验的原文。

[1]Dixon, M. J. & Coles, S. G. (1997). Modelling Association Football Scores and Inefficiencies in the Football Betting Market. — 单场双泊松模型的范式出处。
[2]martj42 / international_results — 1872 至今国际赛全史,Elo 拟合的数据底座。
[3]openfootball / worldcup.json — 2026 赛制、分组与赛程。
[4]ESPN scoreboard / summary API(免 key)— 赛中比分与逐场事件;手填 CSV 为最高优先级兜底。
[5]Polymarket gamma API / Stake odds API — 市场盘口(基线 B2,只对照不评判)。
[6]M-llm 软信息 — Claude(claude-opus-4-8)以联网搜索自行调研赛前伤停 / 首发,结构化提交并冻结存库。
[7]Kimi《2026 世界杯报告》(224 页,多智能体 + 蒙特卡洛)— 基线 B5,H3b 的被评分对象。
[8]Panmure Liberum / Klement 研报 — 抽签、2026-04 市场快照、确定性 bracket(基线 B2 / B4)。
[9]本项目预注册与方法论原文 — METHODOLOGY.md / registry/preregistration.md / SPEC.md,全文见 GitHub 仓库