大脑使用说明书一台预测奖励机器的全图
L6 · 回到个体

怎么做这种研究:建库、找关联、建模、资料来源

这是全书的「工具箱」与「收尾纪律」——学会它,下次你不靠我们,也能自己拆穿任何关于大脑的说法。

一句话「发现一个关联」离「证明一件事导致另一件事」非常非常远——中间隔着一整座桥;本章就是教你认这座桥的每一块板,以及在每一块板上别人最容易做的手脚。

做研究(以及读别人的研究)的全部纪律,可以压缩成一句口诀:先把资料找全、再把它理顺、然后小心翼翼地找关系、再万分克制地谈原因、最后请人来拆台。找资料 → 建库 → 找关联 → 建模算 → 验证,五步缺一不可。而其中第三步到第四步那道坎——从「有关系」到「是原因」——正是全部谣言、伪科学和「标题党论文」翻车的地方。

这一章是 L5 谣言章的正面镜像:谣言章讲「假证据长什么样」,本章讲「真证据怎么做出来、怎么认」。

从『有关联』到『是因果』,隔着一座阶梯 越往上,研究设计越能排除混杂,越能支持因果判断 因果支持强度 ① 发现相关 只能说明同变 ② 准实验 尽量控制混杂 ③ RCT 随机对照最硬 弱证据 强证据 混杂示意 看到正相关,不等于其中一个导致另一个 气温 真正共同原因 冰淇淋销量 夏天更高 溺水人数 下水更多 推高 推高 表面正相关 不是“冰淇淋导致溺水”

第一步:去哪找资料——别喝二手汤

研究的第一步不是想,是。而找资料的第一原则是:优先去「原产地」,少喝「二手汤」。一条结论从论文出来,经过媒体、自媒体、群聊层层转述,每一层都会丢语境、加情绪。所以会找一手资料,本身就是最强的「防谣言疫苗」。

免费、不要账号的权威入口

下面这些都是免费、且不需要机构账号或付费订阅就能用的权威数据源,也是本项目建库时真实依赖的入口:

除了论文,还有一类是机构权威源:NIDA(美国国家药物滥用研究所)、EMCDDA/EUDA(欧洲毒品监测中心)、WHO、各国统计局。它们权威、可引用,但读「它怎么解读这些数据」时要保持和读任何来源一样的警觉——尤其在毒品议题上,机构源常带政策立场和震慑口吻。

为什么帖子不能当证据——但也别全扔

这是最容易被搞错的一点。社区帖子和自媒体不能用来「证明」任何因果或频率,原因有四:

但它们有不可替代的定性价值:第一人称自述是「现象长什么样」的金矿。比如使用者三语高度一致地自述「早就不爽了但停不下来」,精准印证了 多巴胺章「想要≠喜欢」的机制。

一句话区分社区帖子回答「是什么感受」,论文回答「有多普遍、是不是真因果」。把前者当后者用,就是制造谣言;把前者完全扔掉,又会丢掉宝贵的人类经验。正确做法是双轨并行、各归其位。

第二步:建库——把一堆乱麻理成档案柜

找来的资料是一堆乱七八糟的 PDF、网页、截图、不同语言的摘要。建库就是把这堆乱麻理成整齐、可检索、可比较、可机读的档案柜。不用懂代码,懂四个比喻就够:

370 → 319
本项目进库 370 条来源,跨主题/跨语言合并 19 条,去重后剩唯一来源 319 条——这 51 条的差,就是「虚假证据厚度」被挤掉的水分。
本项目 INDEX.md 建库统计
这是来源条数不是「证据强度」:319 条里同行评审、预印本、机构报告、民间自述的分量完全不同,不能简单加总。条数多 ≠ 结论更可信。

第三步:找关联——以及它离因果有多远

这是全章的心脏。相关就是「两件事倾向于一起变」,衡量它的数字叫相关系数 r(从 −1 到 +1)。但相关只描述「它们一起动」,完全不说「谁推动了谁」,也不说「是不是有第三只手在背后同时推它俩」。

招牌例子:冰淇淋与溺水

冰淇淋卖得越多,溺水死亡的人就越多——数据千真万确,相关性很强。那么,多吃冰淇淋会害人淹死吗?当然不是。真正的幕后黑手是「夏天 / 天气热」:天一热,大家既买更多冰淇淋,又更多去游泳。这个「气温」,就是混杂因素。记住这个例子,本书所有「相关被当因果」的翻车,都是它的变体。

关联离因果有多远——五个陷阱

找到一个 r 不等于零,可能是下面任何一种,绝大多数都不是「A 导致 B」:

找到关联之后,再问三个问题

RCT:唯一能「主动制造因果」的设计

随机对照试验把人随机分成两组,一组给干预、一组给安慰剂。随机这一步是魔法所在:它让两组在所有已知和未知的混杂上平均相等,于是事后的差异只能归因于那个干预。这是人类发明的、最强的「切断混杂、证明因果」的工具。

但很多问题没法、也不该做 RCT——你不可能「随机分配一组青少年去吸冰毒」看后果,这既不可行也违伦理。所以毒品神经科学的人体因果证据,常常只能停在队列相关。懂得「哪些因果天生做不了 RCT」,本身就是一种成熟——它解释了为什么这个领域那么多结论只能说「相关」而不能说「导致」。

仍有争议把「因果推断」压成「关联 → 控制混杂 → RCT」三级阶梯,是为可读性做的简化。真实的因果推断(反事实框架、工具变量、孟德尔随机化、有向无环图 DAG)远更精细。本章只给「够用的判断直觉」,想严肃做研究还需系统学习。

第四步:建模算——「显著」远不如「多大」重要

把证据强度想象成一道楼梯:① 描述/关联(「它们有关系」)→ ② 控制混杂/准实验(「扣掉干扰后关系还在/没了」)→ ③ RCT(「在可控范围内,是它导致的」)。一篇研究站在哪一级,它的话就只能说到哪儿。把第①级的相关,写成第③级的「导致」,就是谣言的诞生现场。

效应量:这一节最该记住的一点

它和大众直觉相反。「统计显著」只回答「这关系大概率不是零」,完全不回答「这关系大不大、重不重要」。样本量一大,再微不足道的差异也能「显著」。所以真正该问的是效应量(影响有多大)和置信区间(这个估计有多准)。

d ≈ −0.1 ~ −0.2
ADHD 与对照的脑结构差异,效应量极小——统计上高度显著(因为样本上万),但小到根本不能用来诊断任何一个具体的人,两组分布几乎完全重叠。
ENIGMA 大型多中心协作(脑影像汇总分析)
这是群体均值的极小偏移,不能读成「ADHD 大脑明显不同」,更不能用于个体诊断。只看「显著」会得出完全相反的印象——大麻「脑萎缩」、冰毒纹状体灰质之争,全是同一个故事。

预测 ≠ 解释;大数据能找模式,不自动给因果

预测是「能不能提前猜对结果」,解释是「懂不懂背后的原因」——公鸡每天打鸣后太阳就升起,它「预测」日出百发百中,但显然不是日出的原因。你按住公鸡的嘴,太阳照样升。很多「AI 预测某病」的新闻做的是预测,却被读成解释(找到了病因)。能预测不代表能干预。

机器学习本质是超级强大的「相关性发现机」,它会忠实地把「冰淇淋↔溺水」这种伪关联也找出来,而且找得又快又多。于是上面那五个陷阱在大数据时代不是消失了,而是被放大了:数据越大,纯靠运气出现的「伪关联」越多。算力解决「找到模式」,解决不了「模式意味着什么」——后者永远要回到因果阶梯上来,回到人这里。

第五步:验证——请所有人来推翻它,而它没被推翻

做完前四步你有了一个结论。但科学的精髓不是「我证明了」,而是「我请所有人来推翻它,而它没被推翻」。验证有五件套:

仍有争议「四语收敛=可信」是启发式而非定律。多语言也可能共享同一个上游错误(都引同一篇有缺陷的奠基综述),收敛不等于绝对正确。真正的独立重复,要指向独立的一手数据,而非互相转引。反过来,四语分歧的地方(如 ADHD 中 DAT 的因果地位,中文视为核心、英德更怀疑)恰恰最该深挖——分歧不是噪音,是路标。

常见误解 vs 事实

流行说法相关就是因果——它俩总一起出现,肯定是 A 导致 B。
科学事实相关只说「一起动」,不说谁导致谁。绝大多数强相关背后是混杂、反向因果或选择偏倚。冰淇淋↔溺水的真凶是气温;大麻↔低 IQ 很大一块是社会经济地位。从相关到因果,要爬完整道阶梯。
流行说法大数据 / AI 喂进去就自动吐出真相,数据越大越接近真理。
科学事实大数据让「找关联」极其廉价,但找到模式 ≠ 找到原因;数据越大,纯靠运气的伪关联反而越多。机器负责发现模式,判断因果永远要回到人。
流行说法上了同行评审、发在顶刊,就一定是对的、是定论。
科学事实同行评审是质量底线,不是真理保证。复制危机表明大量「显著」顶刊结果无法被重复;单篇论文是线索不是定论。一次发现是新闻,重复才是知识。
流行说法结果统计显著(p<0.05),所以这发现很重要。
科学事实「显著」只说「大概不是零」,不说「有多大」。样本一大,再微小的差异也能显著。要问效应量,不只问显不显著。
带回家做研究最该练成的肌肉,不是记住多少结论,而是面对任何一条「关于大脑的说法」时,能本能地问一串问题:这资料是一手的吗?样本有分母和对照吗?这是相关还是因果,爬到阶梯第几级了?效应量多大、还是只是「显著」?混杂排了吗?被独立重复过吗?谁能稳定地问出这串问题,谁就既做得出靠谱研究,也不会被任何漂亮的谣言带走。怀疑是为了更好地相信经得起捶打的东西——这才是把「预测奖励机器」真正交回你自己手里的最后一把钥匙。