课程小组项目¶
请同学们 5 人(左右)一组,共同完成一项数据可视化项目。要求各小组首先构思一个需要数据支撑的探究话题,然后通过课程所学内容对其中的数据分析结果进行可视化。
选题不限,可来自大家的工作或个人的兴趣爱好,需要能做描述性分析和相关性分析等探索。
描述性分析:展示“发生了什么”;
相关性或因果分析:探索“为什么会这样”。
选题示例:探究大学生论文致谢对象的变化¶
收集数据。可以访问北大学位论文库,按照不同学位(本硕博)、不同学科(文科,社科、理工等)以及不同年代(1990-1999 ,2000-2009 ,2010 -2019 ,2020-2025)。
数据加工。将收集到的数据,整理为计算机可直接统计和分析的格式,如XML,JSON等
数据处理。使用GPT等模型,利用提示词从文本中提取出感谢对象,如:导师、家人、同学、机构、工具(ChatGPT)等;情感分析,每篇文章中积极情绪、负面情绪和中性情绪的比例;提取感谢的强度,对不同感谢对象的情感强弱等
描述性分析。
全部样本中,各感谢对象的总量或比例分布。(条形图)
不同年代的人对导师情感的分布(直方图)
不同专业、不同学位以及不同年代学生,感谢对象的差异(分组柱状图),感谢对象的结构性差异(卡方检验,雷达图)
致谢行文结构的差异,如导师->同学->家人或者 自我->ChatGPT->导师->朋友。(桑基图,Sankey)
以及其他各类能想到的描述性分析,例如是否用文言文写致谢,是否用代码写致谢,致谢文本的长短等等。
相关性分析。
对于导师的感谢程度,是否逐年变化?(折线图+回归线)
致谢对象的多少与学科之间是否有关系(散点图+回归线)
AI 工具被提及次数与导师的感谢强度之间是否有关系(散点图+回归线)
其他可能的分析
因果分析
2023 年开始GenAI的大流行是否影响了师生关系?可采用准实验(Quasi-Experimental) 设计,如事件研究(Event Study)或双重差分(DiD),输出DAG图,说明变量之间可能的因果路径,例如,“AI 工具的出现 → 导师感谢减弱”。
AI 的出现对不同学科(文、社、理工)的影响是否一致?输出:不同学科组的因果效应对比条形图
其他可能的分析
数据叙事:采用恰当的数据叙事方式展示本组的发现。
具体要求:¶
报告时间与顺序:待定
各类可视化图片,不少于 10 种;
小组报告时间,每组 15 分钟;
考核要点¶
选题是否新颖有趣;
分析过程是否深入和准确;
各类图表使用是否恰当和准确;
报告时能否采用恰当的叙事方式。
参考资料¶
可探索Kaggle Datasets 中可用于Data Visulization的数据集,看是否有合适的数据
数据可视化竞赛:Data Viz Finalists