怎么做这种研究:建库、找关联、建模、资料来源
这是全书的「工具箱」与「收尾纪律」——学会它,下次你不靠我们,也能自己拆穿任何关于大脑的说法。
做研究(以及读别人的研究)的全部纪律,可以压缩成一句口诀:先把资料找全、再把它理顺、然后小心翼翼地找关系、再万分克制地谈原因、最后请人来拆台。找资料 → 建库 → 找关联 → 建模算 → 验证,五步缺一不可。而其中第三步到第四步那道坎——从「有关系」到「是原因」——正是全部谣言、伪科学和「标题党论文」翻车的地方。
这一章是 L5 谣言章的正面镜像:谣言章讲「假证据长什么样」,本章讲「真证据怎么做出来、怎么认」。
第一步:去哪找资料——别喝二手汤
研究的第一步不是想,是找。而找资料的第一原则是:优先去「原产地」,少喝「二手汤」。一条结论从论文出来,经过媒体、自媒体、群聊层层转述,每一层都会丢语境、加情绪。所以会找一手资料,本身就是最强的「防谣言疫苗」。
免费、不要账号的权威入口
下面这些都是免费、且不需要机构账号或付费订阅就能用的权威数据源,也是本项目建库时真实依赖的入口:
- PubMed:美国国立医学图书馆的论文索引,医学/神经科学的黄金目录,摘要免费、可批量检索。
- OpenAlex:完全开放的「全球学术地图」,带引用网络,适合「顺藤摸瓜」找一篇论文的上下游。
- Europe PMC:欧洲版的 PubMed Central,很多论文能直接读全文而不只是摘要。
- Crossref:全球 DOI(论文的「身份证号」)登记中心,用来反查「这文献是不是真的存在」。
- Semantic Scholar:看一篇论文是被「支持引用」还是「反驳引用」,判断它的学界地位。
- arXiv / bioRxiv / medRxiv:预印本平台,看最前沿的结果——但务必记住「未经评审」这个红字。
除了论文,还有一类是机构权威源:NIDA(美国国家药物滥用研究所)、EMCDDA/EUDA(欧洲毒品监测中心)、WHO、各国统计局。它们权威、可引用,但读「它怎么解读这些数据」时要保持和读任何来源一样的警觉——尤其在毒品议题上,机构源常带政策立场和震慑口吻。
为什么帖子不能当证据——但也别全扔
这是最容易被搞错的一点。社区帖子和自媒体不能用来「证明」任何因果或频率,原因有四:
- 没有分母。Reddit 上 100 条「我戒了三个月就全好了」看着很多,但你永远不知道有多少人没好、没发帖、或已经不在了——这就是幸存者偏差:能发帖的本身就是「还能发帖的人」,最坏的转归系统性地缺席。
- 没有对照。一个人「吸了之后疯了」,你无法知道他不吸会不会也出问题。
- 充满归因混杂。当事人会把睡眠、其他物质、本身的精神状况、贫困压力,一股脑算到一件事上。
- 可得性陷阱。一个有名有姓的生动故事,说服力远超一张冷冰冰的统计图——这是谣言的燃料,不是证据。
但它们有不可替代的定性价值:第一人称自述是「现象长什么样」的金矿。比如使用者三语高度一致地自述「早就不爽了但停不下来」,精准印证了 多巴胺章「想要≠喜欢」的机制。
第二步:建库——把一堆乱麻理成档案柜
找来的资料是一堆乱七八糟的 PDF、网页、截图、不同语言的摘要。建库就是把这堆乱麻理成整齐、可检索、可比较、可机读的档案柜。不用懂代码,懂四个比喻就够:
- 统一身份证(schema):每条资料进门都填一张一模一样的卡片——标题/期刊/年份/URL/DOI 或 PMID/类型/语言。只有都填同一张表,你才能横向比:「人类的、同行评审的研究怎么说」vs「动物研究怎么说」。字段不统一,资料再多也是一盘散沙。
- 去重(去重):同一篇论文可能被你从多个库各抓一次。不去重,它就「占五个坑」,让你误以为「五份独立证据」——其实只有一份。证据看的是「独立来源数」,不是「出现次数」。
- 多语种粗筛:先用「粗筛子」(中/英/日/德的关键词)扔掉明显无关的,剩下的再人工细看。只查英文,你以为看到了「全部证据」,其实只看了一个语言泡泡。
- 人读 + 机读双轨:一份给人浏览、一份给程序统计。人擅长判断质量,机器擅长处理数量——各干各擅长的事。
第三步:找关联——以及它离因果有多远
这是全章的心脏。相关就是「两件事倾向于一起变」,衡量它的数字叫相关系数 r(从 −1 到 +1)。但相关只描述「它们一起动」,完全不说「谁推动了谁」,也不说「是不是有第三只手在背后同时推它俩」。
招牌例子:冰淇淋与溺水
冰淇淋卖得越多,溺水死亡的人就越多——数据千真万确,相关性很强。那么,多吃冰淇淋会害人淹死吗?当然不是。真正的幕后黑手是「夏天 / 天气热」:天一热,大家既买更多冰淇淋,又更多去游泳。这个「气温」,就是混杂因素。记住这个例子,本书所有「相关被当因果」的翻车,都是它的变体。
关联离因果有多远——五个陷阱
找到一个 r 不等于零,可能是下面任何一种,绝大多数都不是「A 导致 B」:
- ① 混杂:背后有第三只手同时影响因和果。例:大麻「青少年抽 → 38 岁 IQ 降 8 分」,被指出没控制社会经济地位——穷困背景同时让孩子更可能早抽大麻、又更可能 IQ 偏低。双胞胎设计扣掉这层后,差距大幅缩小。
- ② 反向因果:果和因搞反了。「住院的人死亡率比不住院的高,所以医院害人?」——反了,是病重才住院。弓形虫那条多半也是:本就爱冒险的人更容易接触到虫子,而非虫子改变了他们。
- ③ 选择偏倚:样本挑歪了。只在健身房门口问「运动让人健康吗」——能站那儿被你问的本就相对健康。
- ④ p-hacking:同时测 100 个关系,纯靠运气也会有约 5 个「显著」;专挑这几个报、藏起其余,就把纯噪音包装成「重大发现」。
- ⑤ 幸存者偏差:二战工程师想给返航战机中弹最多的部位加装甲,统计学家说错了——该加固的恰恰是没中弹的部位,因为中那儿的飞机根本没飞回来。你只看到了幸存者。
找到关联之后,再问三个问题
- 中介 vs 调节:中介是「通过什么传过去的」(早抽大麻→学业中断→认知差,学业是中介);调节是「对谁更管用」(大麻对精神病风险在易感人群中明显更强)。
- 控制变量:在分析里把已知的混杂扣掉,看关联还剩多少。双胞胎设计是终极版——同卵双胞胎自带「基因和家庭完全相同」,比较「用 vs 不用」,一次把两大混杂扣净。
- 横断面 vs 纵向:横断面是某个时间点「切一刀」,便宜快但分不清先后,最易被反向因果忽悠;纵向是跟踪同一批人很多年,能看「先有 A 再有 B」,因果证据强得多。
RCT:唯一能「主动制造因果」的设计
随机对照试验把人随机分成两组,一组给干预、一组给安慰剂。随机这一步是魔法所在:它让两组在所有已知和未知的混杂上平均相等,于是事后的差异只能归因于那个干预。这是人类发明的、最强的「切断混杂、证明因果」的工具。
但很多问题没法、也不该做 RCT——你不可能「随机分配一组青少年去吸冰毒」看后果,这既不可行也违伦理。所以毒品神经科学的人体因果证据,常常只能停在队列相关。懂得「哪些因果天生做不了 RCT」,本身就是一种成熟——它解释了为什么这个领域那么多结论只能说「相关」而不能说「导致」。
第四步:建模算——「显著」远不如「多大」重要
把证据强度想象成一道楼梯:① 描述/关联(「它们有关系」)→ ② 控制混杂/准实验(「扣掉干扰后关系还在/没了」)→ ③ RCT(「在可控范围内,是它导致的」)。一篇研究站在哪一级,它的话就只能说到哪儿。把第①级的相关,写成第③级的「导致」,就是谣言的诞生现场。
效应量:这一节最该记住的一点
它和大众直觉相反。「统计显著」只回答「这关系大概率不是零」,完全不回答「这关系大不大、重不重要」。样本量一大,再微不足道的差异也能「显著」。所以真正该问的是效应量(影响有多大)和置信区间(这个估计有多准)。
预测 ≠ 解释;大数据能找模式,不自动给因果
预测是「能不能提前猜对结果」,解释是「懂不懂背后的原因」——公鸡每天打鸣后太阳就升起,它「预测」日出百发百中,但显然不是日出的原因。你按住公鸡的嘴,太阳照样升。很多「AI 预测某病」的新闻做的是预测,却被读成解释(找到了病因)。能预测不代表能干预。
而机器学习本质是超级强大的「相关性发现机」,它会忠实地把「冰淇淋↔溺水」这种伪关联也找出来,而且找得又快又多。于是上面那五个陷阱在大数据时代不是消失了,而是被放大了:数据越大,纯靠运气出现的「伪关联」越多。算力解决「找到模式」,解决不了「模式意味着什么」——后者永远要回到因果阶梯上来,回到人这里。
第五步:验证——请所有人来推翻它,而它没被推翻
做完前四步你有了一个结论。但科学的精髓不是「我证明了」,而是「我请所有人来推翻它,而它没被推翻」。验证有五件套:
- 红队对抗:专门组一支队伍,任务不是支持你,而是想尽办法把你的结论打穿。人有确认偏误、会本能维护自己的结论,红队制度化地外包「找茬」。本书每章末尾的「存疑/争议点」清单,就是红队思维的产物。
- 复制危机:21 世纪 10 年代爆出——大量「经典」「显著」的研究,别人重做一遍却做不出来。根源正是 p-hacking、只发表阳性结果、样本太小、只看显著不看效应量。单独一篇论文,哪怕发在顶刊,都只是「一条线索」而非「定论」。
- 预注册:研究者在收集数据之前先公开锁死「我要检验什么、怎么分析」。它把「先开枪再画靶」变成「先画靶再开枪」,从根上堵死 p-hacking。
- 独立重复:别人(最好用不同样本、不同实验室)重做一遍得到同样结果,是科学最高级别的认证。本项目坚持四语并行,本质就是一种独立重复:四个语言、四套研究传统都收敛到同一答案,可信度就远高于只在一个语言里成立的说法。