数据可视化练习:因果分析

研究介绍

背景

1985 年,田纳西州政府授权开展一项大规模随机实验,来应对“班级规模是否影响学生成绩”的教育政策争论,实验名为 “Student-Teacher Achievement Ratio (STAR) Project”,旨在通过真实随机分配,判断班级规模缩小或加助教是否对学生成绩有因果效应。

全田纳西州有幼儿园至三年级(K-3)班级的公立学校被邀请参加,参加学校须满足“校内三种班级类型都能设置”条件,即在同一学校中:小班、常规班、常规班+助教都存在,从而实现同校内随机分配(within-school design)。这样可将学校资源、地理、领导等学校层面因素控制住。

实验设计

在每一参与学校中,学生和教师都被随机分配至三种班级类型:

  • 小班:约 13-17 名学生/1位教师

  • 常规班:约 22-25 名学生/1位教师

  • 常规班+教师助教:学生数同常规班(22-25人),但配有一位助教

数据收集

  • 实验从幼儿园起始,持续至三年级(大约4学年)

  • 在此期间,对学生进行标准化成绩测试(例如 Stanford Achievement Test 及州内对应测试,覆盖阅读和数学)以衡量成绩

  • 同时记录学生背景(性别、种族、家庭贫困情况)、学校类型(城市/郊区/农村)、教师经验等控制变量

控制机制

  • 采用 “同校内设计”(within-school design):在同一学校内设置三种班级类型,从而控制学校级别差异

  • 学校类型(inner-city/urban/suburban/rural)在样本中均有体现,以增强外部效度

  • 确保随机分配过程是公平且无偏的:学生入学或幼儿园时即随机分配;教师也随机分配

后续跟踪研究

  • 在基本实验结束后,还开展了“Lasting Benefits Study”跟踪学生至以后年级,以评估小班效应是否持续

数据分析与可视化

数据集名称

文件大小

数据层级

内容简介

典型用途

Star High Schools Data

15 KB

学校级(High School)

每一行代表一所高中,包含学校规模、城乡类型、学生族群比例、贫困率(免费午餐比例)、课程设置(如法语、西语、拉丁语、线性代数等)等信息。

用于分析高中阶段教育资源分布差异,如城乡差异课程机会不平等等。

Star K–3 Schools Data

16 KB

学校级(K–3 Elementary)

每一行代表一所小学(K–3),记录学校基本信息、平均班级规模、教师人数、地区属性等。

用于描述参与实验的学校特征,或校级层面的随机化平衡性检验

Star Student Data

8770 KB

学生级(Individual Level)

每一行代表一名学生,含其班级类型(小班/常规/常规+助教)、年级、阅读和数学成绩、性别、种族、家庭贫困状态等。

核心实验数据集;用于估计“小班教学”对学生成绩的因果效应

Comparison Student Data

353 KB

学生级(对照组)

包含未参加 STAR 实验但可比较的学生群体信息(来自同州其他学校),便于检验外部效度。

用于与实验组学生比较,进行外部效度分析可推广性研究