H1 · 实时更新有无增量
赛中每场结果都更新评级、重新模拟,听起来理所当然,但几乎没人预注册地回答过它到底有没有用。每队小组赛仅 3 场,短序列上的更新很可能只是噪声搬运。
研究方法 · 预注册现场实验(Preregistered Field Experiment)
本研究不把 2026 世界杯当作一次冠军预测,而是当作一台一次性的实验装置:用一届赛事检验三个关于「预测」本身的、可证伪(falsifiable)命题。估计器(把两队实力换算成比分概率的统计内核)采用学界成熟的标准范式——Elo 评级 → 泊松广义线性模型(Poisson GLM)→ Dixon-Coles 双泊松 → 蒙特卡洛(Monte Carlo)模拟——刻意不发明新方法;创新集中在实验设计层:全流程预注册、赛前冻结判据、严防未来函数(look-ahead bias)、赛后照契约结算、全程留痕可回放。三个命题分别考察实时更新有无增量(H1)、概率是否校准(H2)、以及大语言模型软信息相对 1997 年统计模型有无增量(H3)。可信度来自边界清楚,而非视觉更响。本页是这套方法论面向公众的完整载体;工程规格与逐字预注册见文末参考。
§1 · 立场
绝大多数「世界杯预测」做的是同一件事:搭一个模型、报一个冠军、赛后看猜没猜中。我们刻意不做这件事,因为单届世界杯冠军预测的样本量是 N=1,猜中与否几乎不携带方法论信息——2022 阿根廷夺冠不能证明任何模型对,2014 德国夺冠也不能。
我们的立场是:把这届世界杯当成一台一次性的实验装置,用它检验几个关于「预测」本身的、可证伪的命题。估计器(怎么把两队实力换成比分概率)我们用学界已成熟的标准件,不发明——因为预测领域反复证明,校准良好的老方法通常打败花哨的新方法。创新发生在实验设计层,不在估计器层。仪器应该是无聊的;有意思的是用无聊仪器做的受控对照。
这个立场带来一个副产品:因为整个流程是预注册 + 留痕 + 可回放的,它天然产出一个透明的在线研究网站——公众看预测,研究者看方法。
§2 · 来源澄清
三层来源各司其职:估计器内核是公开标准范式(我们自己实现),事实与靶子来自两份背景报告,真正定调的方法论纪律来自我们自己以往的项目。两份 PDF 在纪律这一层都只是被检验对象,不是被信任的输入。
| 层 | 来源 | 在本项目中的性质 |
|---|---|---|
| 估计器内核 | 公开标准范式(Dixon-Coles 1997、FiveThirtyEight SPI 等),自行实现 | 与 Kimi 报告的量化底层同源,但底不是 Kimi——拿其附录参数当对拍件校验量级 |
| 事实与靶子 | Klement 研报(抽签 / 市场赔率 / 确定性 bracket);Kimi 概率表 | 事实来源 + 赛后被结算的基线,不是被信任的输入 |
| 方法论纪律 | 我们自己的项目(ttp-test、a-share E2A) | 真正定调的一层;预注册 / 零模型 / 可回放审计 / 未来函数控制 |
表 1 · 三层来源分工。一句话:模型用标准范式自建(恰好与 Kimi 内核同款),纪律用我们自己的,两份报告是事实来源 + 赛后陪绑被评分的基线。
明确不采用:
§3 · 估计器
单场预测走一条四段标准流水线:自建 Elo 评级(国际赛全史,1872 至今)把每支球队压成一个实力数;泊松广义线性模型把两队 Elo 差映射为各自的进球期望 λ;Dixon-Coles 双泊松在此基础上给出单场胜 / 平 / 负概率(含对低比分相关性的修正);最后 蒙特卡洛把整届赛事模拟 10 万次——含小组排名细则、FIFA 第三名 495 组合对位表、淘汰赛树——汇总成出线 / 各阶段 / 冠军概率。
图 1 · 估计器流水线。四个学界标准件串联,本项目自建实现;仪器无聊是刻意的。
我们跑三个变体。它们共用完全相同的 λ 映射、Dixon-Coles 与蒙特卡洛内核,唯一区别是喂进内核的 Elo 怎么来——这样三者之间的任何差异都能干净归因到那一个变量。
图 2 · 模型变体的干净隔离。M-llm 与 M-live 仅差「LLM 日修正」一个变量,故其差异可归因于 LLM 软信息本身。完整七层工程架构见参考中的 SPEC。
§4 · 三个可证伪命题(开赛前冻结)
三个命题与各自的裁决判据在揭幕战前写入预注册文件并 git commit,之后只许追加附注、不许改判据。所有比较一律配对(同一批比赛),用 10000 次自助法(bootstrap)重抽求置信区间。
赛中每场结果都更新评级、重新模拟,听起来理所当然,但几乎没人预注册地回答过它到底有没有用。每队小组赛仅 3 场,短序列上的更新很可能只是噪声搬运。
预测的价值在校准而非命中:说 70% 的事约 70% 发生,才是有用的概率。
2026 是第一届「AI 预测报告满天飞」的世界杯,我们手里正好有一份 224 页大模型多智能体报告。这是本项目最值钱的一刀——不是足球研究,是「AI 推理 vs 经典统计」的评估研究。
§5 · 对照设计
| 编号 | 模型 / 基线 | 起点 | 随赛程更新 |
|---|---|---|---|
| M-frozen | 自家 · 纯统计 Elo | 揭幕战前冻结 | 否(H1 对照锚点) |
| M-live | 自家 · 纯统计实时更新 | = M-frozen | 是,每日最新 Elo + 条件模拟 |
| M-llm | 自家 · Elo + LLM 软信息修正 | 已吸收赛前伤病种子 | 是,每日新闻 → 有界修正 |
| B0 | 均匀零模型 | 单场 1⁄3-1⁄3-1⁄3;冠军 1⁄48 | 否 |
| B1 | FIFA 排名朴素模型 | FIFA 积分差 → 逻辑映射 | 否 |
| B2 | 市场(Polymarket) | 2026-04 + 开赛前快照 | 仅冠军层,离散快照(只对照) |
| B4 | Klement 确定性 bracket | 2026-04(押荷兰夺冠) | 否 |
| B5 | Kimi 概率表 | 2026-06-05 | 否 |
表 2 · 八个评分对象。B5(Kimi)表含 10 支未进决赛圈的幽灵球队,H3b 结算时在真实 48 队交集上比较,并把幽灵队概率质量单列为「名单错误成本」。
| 对照 | 证明的命题 |
|---|---|
| M-live M-frozen | H1:更新有无增量 |
| M-live 可靠性曲线 | H2:校准 |
| M-llm M-live | H3a:LLM 软信息增量 |
| M-llm M-frozen | H3a 辅:LLM 修正是否优于不更新 |
| B5(Kimi) M-frozen | H3b:LLM 报告 vs 统计 |
| 全部 B0 / B1 | 信号是否打得过零模型 |
| 全部 B2(市场) | 对照汇报(非判据) |
| 2026 2018 / 2022 回测 | H1 的三届方向一致性 |
表 3 · 对照矩阵:谁对谁,证什么。
§6 · 评分指标(赛前锁定)
图 3 · H2 校准的判读方式。纯 Elo 对顶级队的已知倾向是过度自信,故 48 队赛制下的校准走样是重点观察对象。
§7 · 方法论纪律
评分指标、对照集、判据在揭幕战前写入 registry/preregistration.md 并 commit,之后只增不改,不事后改口径。
每个「信号」对照至少一个零模型(B0 均匀 / B1 FIFA 朴素)。打不过就如实写。
每日预测是当天数据的纯函数;快照 + 数据指纹留痕,任何数字可复算。
N=1、104 场样本量小,效应量优先于 p 值;统计功效局限写明,不靠 p<0.05 包装。
开赛后模型代码、超参、M-llm 的提示词全部冻结,只允许数据流入。修 bug 须 CHANGELOG 标注并保留两版结果。
见下方图 4。预测系统最致命的作弊是消费了「当时拿不到的信息」。
旗舰 Claude 已弃用温度参数,无法靠温度 0 保证位级一致。改用更强口径——M-llm 的种子与每日修正各只跑一次即冻结存库,快照永远消费库中存量、绝不实时重导。可复算性由冻结提示词 + 记录 model id 与输入指纹 + 输出冻结成不可变制品三点保证。
历史赛果与 Elo(带时间戳)、赛前软信息(伤停 / 首发 / 轮换,原文 + 抓取时刻存档)。模拟按快照日期做时间切片。
当日 06:00 后发布的新闻、任何比赛比分。提示词强制「今天比赛未进行,绝不查 / 用任何赛果」。
图 4 · 未来函数闸。硬规则:快照只消费 ≤ 当日数据且写入即只读(禁回填);回测滚动前推(walk-forward)逐日推进不回看;evaluate.py 内置 assert_no_lookahead() 在 CI 级校验每个快照引用的最大数据时间戳 ≤ 快照日期。因为预测逐日封存、赛后无法偷偷回填,研究结果才可信。
§8 · 已锁定的简化(赛后不翻案,只能在 v2 改进)
§9 · 结算时点(冻结)
图 5 · 结算时间线。任意中途时点可由 evaluate.py 输出滚动评分,但正式裁决只在中期报告与终局裁决两个时点做。
§10 · 研究结果
本节在结算时点逐步填充,一旦填入即随快照冻结。当前留空是有意为之——任何赛前就「看起来有结论」的结果区,都是未来函数的温床。
§R · 参考与材料