课程小组项目¶

请同学们 5 人（左右）一组，共同完成一项数据可视化项目。要求各小组首先构思一个需要数据支撑的探究话题，然后通过课程所学内容对其中的数据分析结果进行可视化。

选题不限，可来自大家的工作或个人的兴趣爱好，需要能做描述性分析和相关性分析等探索。

描述性分析：展示“发生了什么”；
相关性或因果分析：探索“为什么会这样”。

选题示例：探究大学生论文致谢对象的变化¶

收集数据。可以访问北大学位论文库，按照不同学位（本硕博）、不同学科（文科，社科、理工等）以及不同年代（1990-1999 ，2000-2009 ，2010 -2019 ，2020-2025）。
数据加工。将收集到的数据，整理为计算机可直接统计和分析的格式，如XML，JSON等
数据处理。使用GPT等模型，利用提示词从文本中提取出感谢对象，如：导师、家人、同学、机构、工具（ChatGPT）等；情感分析，每篇文章中积极情绪、负面情绪和中性情绪的比例；提取感谢的强度，对不同感谢对象的情感强弱等
描述性分析。
1. 全部样本中，各感谢对象的总量或比例分布。（条形图）
2. 不同年代的人对导师情感的分布（直方图）
3. 不同专业、不同学位以及不同年代学生，感谢对象的差异（分组柱状图），感谢对象的结构性差异（卡方检验，雷达图）
4. 致谢行文结构的差异，如导师->同学->家人或者 自我->ChatGPT->导师->朋友。（桑基图，Sankey）
5. 以及其他各类能想到的描述性分析，例如是否用文言文写致谢，是否用代码写致谢，致谢文本的长短等等。
相关性分析。
1. 对于导师的感谢程度，是否逐年变化？（折线图+回归线）
2. 致谢对象的多少与学科之间是否有关系（散点图+回归线）
3. AI 工具被提及次数与导师的感谢强度之间是否有关系（散点图+回归线）
4. 其他可能的分析
因果分析
1. 2023 年开始GenAI的大流行是否影响了师生关系？可采用准实验（Quasi-Experimental) 设计，如事件研究（Event Study）或双重差分（DiD），输出DAG图，说明变量之间可能的因果路径，例如，“AI 工具的出现 → 导师感谢减弱”。
2. AI 的出现对不同学科（文、社、理工）的影响是否一致？输出：不同学科组的因果效应对比条形图
3. 其他可能的分析
数据叙事：采用恰当的数据叙事方式展示本组的发现。

具体要求：¶

报告时间与顺序：待定
各类可视化图片，不少于 10 种；
小组报告时间，每组 15 分钟；

考核要点¶

选题是否新颖有趣；
分析过程是否深入和准确；
各类图表使用是否恰当和准确；
报告时能否采用恰当的叙事方式。

参考资料¶

可探索Kaggle Datasets 中可用于Data Visulization的数据集，看是否有合适的数据
数据可视化竞赛：Data Viz Finalists
Arizona University Data Science & Visualization Challenge
Flourish Examples