L6 · 回到个体

怎么做这种研究：建库、找关联、建模、资料来源

这是全书的「工具箱」与「收尾纪律」——学会它，下次你不靠我们，也能自己拆穿任何关于大脑的说法。

一句话「发现一个关联」离「证明一件事导致另一件事」非常非常远——中间隔着一整座桥；本章就是教你认这座桥的每一块板，以及在每一块板上别人最容易做的手脚。

做研究（以及读别人的研究）的全部纪律，可以压缩成一句口诀：先把资料找全、再把它理顺、然后小心翼翼地找关系、再万分克制地谈原因、最后请人来拆台。找资料 → 建库 → 找关联 → 建模算 → 验证，五步缺一不可。而其中第三步到第四步那道坎——从「有关系」到「是原因」——正是全部谣言、伪科学和「标题党论文」翻车的地方。

这一章是 L5 谣言章的正面镜像：谣言章讲「假证据长什么样」，本章讲「真证据怎么做出来、怎么认」。

第一步：去哪找资料——别喝二手汤

研究的第一步不是想，是找。而找资料的第一原则是：优先去「原产地」，少喝「二手汤」。一条结论从论文出来，经过媒体、自媒体、群聊层层转述，每一层都会丢语境、加情绪。所以会找一手资料，本身就是最强的「防谣言疫苗」。

免费、不要账号的权威入口

下面这些都是免费、且不需要机构账号或付费订阅就能用的权威数据源，也是本项目建库时真实依赖的入口：

PubMed：美国国立医学图书馆的论文索引，医学/神经科学的黄金目录，摘要免费、可批量检索。
OpenAlex：完全开放的「全球学术地图」，带引用网络，适合「顺藤摸瓜」找一篇论文的上下游。
Europe PMC：欧洲版的 PubMed Central，很多论文能直接读全文而不只是摘要。
Crossref：全球 DOI（论文的「身份证号」）登记中心，用来反查「这文献是不是真的存在」。
Semantic Scholar：看一篇论文是被「支持引用」还是「反驳引用」，判断它的学界地位。
arXiv / bioRxiv / medRxiv：预印本平台，看最前沿的结果——但务必记住「未经评审」这个红字。

除了论文，还有一类是机构权威源：NIDA（美国国家药物滥用研究所）、EMCDDA/EUDA（欧洲毒品监测中心）、WHO、各国统计局。它们权威、可引用，但读「它怎么解读这些数据」时要保持和读任何来源一样的警觉——尤其在毒品议题上，机构源常带政策立场和震慑口吻。

为什么帖子不能当证据——但也别全扔

这是最容易被搞错的一点。社区帖子和自媒体不能用来「证明」任何因果或频率，原因有四：

没有分母。Reddit 上 100 条「我戒了三个月就全好了」看着很多，但你永远不知道有多少人没好、没发帖、或已经不在了——这就是幸存者偏差：能发帖的本身就是「还能发帖的人」，最坏的转归系统性地缺席。
没有对照。一个人「吸了之后疯了」，你无法知道他不吸会不会也出问题。
充满归因混杂。当事人会把睡眠、其他物质、本身的精神状况、贫困压力，一股脑算到一件事上。
可得性陷阱。一个有名有姓的生动故事，说服力远超一张冷冰冰的统计图——这是谣言的燃料，不是证据。

但它们有不可替代的定性价值：第一人称自述是「现象长什么样」的金矿。比如使用者三语高度一致地自述「早就不爽了但停不下来」，精准印证了多巴胺章「想要≠喜欢」的机制。

一句话区分社区帖子回答「是什么感受」，论文回答「有多普遍、是不是真因果」。把前者当后者用，就是制造谣言；把前者完全扔掉，又会丢掉宝贵的人类经验。正确做法是双轨并行、各归其位。

第二步：建库——把一堆乱麻理成档案柜

找来的资料是一堆乱七八糟的 PDF、网页、截图、不同语言的摘要。建库就是把这堆乱麻理成整齐、可检索、可比较、可机读的档案柜。不用懂代码，懂四个比喻就够：

统一身份证（schema）：每条资料进门都填一张一模一样的卡片——标题/期刊/年份/URL/DOI 或 PMID/类型/语言。只有都填同一张表，你才能横向比：「人类的、同行评审的研究怎么说」vs「动物研究怎么说」。字段不统一，资料再多也是一盘散沙。
去重（去重）：同一篇论文可能被你从多个库各抓一次。不去重，它就「占五个坑」，让你误以为「五份独立证据」——其实只有一份。证据看的是「独立来源数」，不是「出现次数」。
多语种粗筛：先用「粗筛子」（中/英/日/德的关键词）扔掉明显无关的，剩下的再人工细看。只查英文，你以为看到了「全部证据」，其实只看了一个语言泡泡。
人读 + 机读双轨：一份给人浏览、一份给程序统计。人擅长判断质量，机器擅长处理数量——各干各擅长的事。

370 → 319

本项目进库 370 条来源，跨主题/跨语言合并 19 条，去重后剩唯一来源 319 条——这 51 条的差，就是「虚假证据厚度」被挤掉的水分。

本项目 INDEX.md 建库统计

这是来源条数不是「证据强度」：319 条里同行评审、预印本、机构报告、民间自述的分量完全不同，不能简单加总。条数多 ≠ 结论更可信。

第三步：找关联——以及它离因果有多远

这是全章的心脏。相关就是「两件事倾向于一起变」，衡量它的数字叫相关系数 r（从 −1 到 +1）。但相关只描述「它们一起动」，完全不说「谁推动了谁」，也不说「是不是有第三只手在背后同时推它俩」。

招牌例子：冰淇淋与溺水

冰淇淋卖得越多，溺水死亡的人就越多——数据千真万确，相关性很强。那么，多吃冰淇淋会害人淹死吗？当然不是。真正的幕后黑手是「夏天 / 天气热」：天一热，大家既买更多冰淇淋，又更多去游泳。这个「气温」，就是混杂因素。记住这个例子，本书所有「相关被当因果」的翻车，都是它的变体。

关联离因果有多远——五个陷阱

找到一个 r 不等于零，可能是下面任何一种，绝大多数都不是「A 导致 B」：

① 混杂：背后有第三只手同时影响因和果。例：大麻「青少年抽 → 38 岁 IQ 降 8 分」，被指出没控制社会经济地位——穷困背景同时让孩子更可能早抽大麻、又更可能 IQ 偏低。双胞胎设计扣掉这层后，差距大幅缩小。
② 反向因果：果和因搞反了。「住院的人死亡率比不住院的高，所以医院害人？」——反了，是病重才住院。弓形虫那条多半也是：本就爱冒险的人更容易接触到虫子，而非虫子改变了他们。
③ 选择偏倚：样本挑歪了。只在健身房门口问「运动让人健康吗」——能站那儿被你问的本就相对健康。
④ p-hacking：同时测 100 个关系，纯靠运气也会有约 5 个「显著」；专挑这几个报、藏起其余，就把纯噪音包装成「重大发现」。
⑤ 幸存者偏差：二战工程师想给返航战机中弹最多的部位加装甲，统计学家说错了——该加固的恰恰是没中弹的部位，因为中那儿的飞机根本没飞回来。你只看到了幸存者。

找到关联之后，再问三个问题

中介 vs 调节：中介是「通过什么传过去的」（早抽大麻→学业中断→认知差，学业是中介）；调节是「对谁更管用」（大麻对精神病风险在易感人群中明显更强）。
控制变量：在分析里把已知的混杂扣掉，看关联还剩多少。双胞胎设计是终极版——同卵双胞胎自带「基因和家庭完全相同」，比较「用 vs 不用」，一次把两大混杂扣净。
横断面 vs 纵向：横断面是某个时间点「切一刀」，便宜快但分不清先后，最易被反向因果忽悠；纵向是跟踪同一批人很多年，能看「先有 A 再有 B」，因果证据强得多。

RCT：唯一能「主动制造因果」的设计

随机对照试验把人随机分成两组，一组给干预、一组给安慰剂。随机这一步是魔法所在：它让两组在所有已知和未知的混杂上平均相等，于是事后的差异只能归因于那个干预。这是人类发明的、最强的「切断混杂、证明因果」的工具。

但很多问题没法、也不该做 RCT——你不可能「随机分配一组青少年去吸冰毒」看后果，这既不可行也违伦理。所以毒品神经科学的人体因果证据，常常只能停在队列相关。懂得「哪些因果天生做不了 RCT」，本身就是一种成熟——它解释了为什么这个领域那么多结论只能说「相关」而不能说「导致」。

仍有争议把「因果推断」压成「关联 → 控制混杂 → RCT」三级阶梯，是为可读性做的简化。真实的因果推断（反事实框架、工具变量、孟德尔随机化、有向无环图 DAG）远更精细。本章只给「够用的判断直觉」，想严肃做研究还需系统学习。

第四步：建模算——「显著」远不如「多大」重要

把证据强度想象成一道楼梯：① 描述/关联（「它们有关系」）→ ② 控制混杂/准实验（「扣掉干扰后关系还在/没了」）→ ③ RCT（「在可控范围内，是它导致的」）。一篇研究站在哪一级，它的话就只能说到哪儿。把第①级的相关，写成第③级的「导致」，就是谣言的诞生现场。

效应量：这一节最该记住的一点

它和大众直觉相反。「统计显著」只回答「这关系大概率不是零」，完全不回答「这关系大不大、重不重要」。样本量一大，再微不足道的差异也能「显著」。所以真正该问的是效应量（影响有多大）和置信区间（这个估计有多准）。

d ≈ −0.1 ~ −0.2

ADHD 与对照的脑结构差异，效应量极小——统计上高度显著（因为样本上万），但小到根本不能用来诊断任何一个具体的人，两组分布几乎完全重叠。

ENIGMA 大型多中心协作（脑影像汇总分析）

这是群体均值的极小偏移，不能读成「ADHD 大脑明显不同」，更不能用于个体诊断。只看「显著」会得出完全相反的印象——大麻「脑萎缩」、冰毒纹状体灰质之争，全是同一个故事。

预测 ≠ 解释；大数据能找模式，不自动给因果

预测是「能不能提前猜对结果」，解释是「懂不懂背后的原因」——公鸡每天打鸣后太阳就升起，它「预测」日出百发百中，但显然不是日出的原因。你按住公鸡的嘴，太阳照样升。很多「AI 预测某病」的新闻做的是预测，却被读成解释（找到了病因）。能预测不代表能干预。

而机器学习本质是超级强大的「相关性发现机」，它会忠实地把「冰淇淋↔溺水」这种伪关联也找出来，而且找得又快又多。于是上面那五个陷阱在大数据时代不是消失了，而是被放大了：数据越大，纯靠运气出现的「伪关联」越多。算力解决「找到模式」，解决不了「模式意味着什么」——后者永远要回到因果阶梯上来，回到人这里。

第五步：验证——请所有人来推翻它，而它没被推翻

做完前四步你有了一个结论。但科学的精髓不是「我证明了」，而是「我请所有人来推翻它，而它没被推翻」。验证有五件套：

红队对抗：专门组一支队伍，任务不是支持你，而是想尽办法把你的结论打穿。人有确认偏误、会本能维护自己的结论，红队制度化地外包「找茬」。本书每章末尾的「存疑/争议点」清单，就是红队思维的产物。
复制危机：21 世纪 10 年代爆出——大量「经典」「显著」的研究，别人重做一遍却做不出来。根源正是 p-hacking、只发表阳性结果、样本太小、只看显著不看效应量。单独一篇论文，哪怕发在顶刊，都只是「一条线索」而非「定论」。
预注册：研究者在收集数据之前先公开锁死「我要检验什么、怎么分析」。它把「先开枪再画靶」变成「先画靶再开枪」，从根上堵死 p-hacking。
独立重复：别人（最好用不同样本、不同实验室）重做一遍得到同样结果，是科学最高级别的认证。本项目坚持四语并行，本质就是一种独立重复：四个语言、四套研究传统都收敛到同一答案，可信度就远高于只在一个语言里成立的说法。

仍有争议「四语收敛=可信」是启发式而非定律。多语言也可能共享同一个上游错误（都引同一篇有缺陷的奠基综述），收敛不等于绝对正确。真正的独立重复，要指向独立的一手数据，而非互相转引。反过来，四语分歧的地方（如 ADHD 中 DAT 的因果地位，中文视为核心、英德更怀疑）恰恰最该深挖——分歧不是噪音，是路标。

常见误解 vs 事实

流行说法相关就是因果——它俩总一起出现，肯定是 A 导致 B。

科学事实相关只说「一起动」，不说谁导致谁。绝大多数强相关背后是混杂、反向因果或选择偏倚。冰淇淋↔溺水的真凶是气温；大麻↔低 IQ 很大一块是社会经济地位。从相关到因果，要爬完整道阶梯。

流行说法大数据 / AI 喂进去就自动吐出真相，数据越大越接近真理。

科学事实大数据让「找关联」极其廉价，但找到模式 ≠ 找到原因；数据越大，纯靠运气的伪关联反而越多。机器负责发现模式，判断因果永远要回到人。

流行说法上了同行评审、发在顶刊，就一定是对的、是定论。

科学事实同行评审是质量底线，不是真理保证。复制危机表明大量「显著」顶刊结果无法被重复；单篇论文是线索不是定论。一次发现是新闻，重复才是知识。

流行说法结果统计显著（p<0.05），所以这发现很重要。

科学事实「显著」只说「大概不是零」，不说「有多大」。样本一大，再微小的差异也能显著。要问效应量，不只问显不显著。

带回家做研究最该练成的肌肉，不是记住多少结论，而是面对任何一条「关于大脑的说法」时，能本能地问一串问题：这资料是一手的吗？样本有分母和对照吗？这是相关还是因果，爬到阶梯第几级了？效应量多大、还是只是「显著」？混杂排了吗？被独立重复过吗？谁能稳定地问出这串问题，谁就既做得出靠谱研究，也不会被任何漂亮的谣言带走。怀疑是为了更好地相信经得起捶打的东西——这才是把「预测奖励机器」真正交回你自己手里的最后一把钥匙。