数据可视化练习：因果分析¶

研究介绍¶

1985 年，田纳西州政府授权开展一项大规模随机实验，来应对“班级规模是否影响学生成绩”的教育政策争论，实验名为 “Student-Teacher Achievement Ratio (STAR) Project”，旨在通过真实随机分配，判断班级规模缩小或加助教是否对学生成绩有因果效应。

全田纳西州有幼儿园至三年级（K-3）班级的公立学校被邀请参加，参加学校须满足“校内三种班级类型都能设置”条件，即在同一学校中：小班、常规班、常规班+助教都存在，从而实现同校内随机分配（within-school design）。这样可将学校资源、地理、领导等学校层面因素控制住。

在每一参与学校中，学生和教师都被随机分配至三种班级类型：

数据集名称	文件大小	数据层级	内容简介	典型用途
Star High Schools Data	15 KB	学校级（High School）	每一行代表一所高中，包含学校规模、城乡类型、学生族群比例、贫困率（免费午餐比例）、课程设置（如法语、西语、拉丁语、线性代数等）等信息。	用于分析高中阶段教育资源分布差异，如城乡差异、课程机会不平等等。
Star K–3 Schools Data	16 KB	学校级（K–3 Elementary）	每一行代表一所小学（K–3），记录学校基本信息、平均班级规模、教师人数、地区属性等。	用于描述参与实验的学校特征，或校级层面的随机化平衡性检验。
Star Student Data	8770 KB	学生级（Individual Level）	每一行代表一名学生，含其班级类型（小班/常规/常规+助教）、年级、阅读和数学成绩、性别、种族、家庭贫困状态等。	核心实验数据集；用于估计“小班教学”对学生成绩的因果效应。
Comparison Student Data	353 KB	学生级（对照组）	包含未参加 STAR 实验但可比较的学生群体信息（来自同州其他学校），便于检验外部效度。	用于与实验组学生比较，进行外部效度分析与可推广性研究。