课程小组项目

请同学们 5 人(左右)一组,共同完成一项数据可视化项目。要求各小组首先构思一个需要数据支撑的探究话题,然后通过课程所学内容对其中的数据分析结果进行可视化。

选题不限,可来自大家的工作或个人的兴趣爱好,需要能做描述性分析和相关性分析等探索。

  • 描述性分析:展示“发生了什么”;

  • 相关性或因果分析:探索“为什么会这样”。

选题示例:探究大学生论文致谢对象的变化

  1. 收集数据。可以访问北大学位论文库,按照不同学位(本硕博)、不同学科(文科,社科、理工等)以及不同年代(1990-1999 ,2000-2009 ,2010 -2019 ,2020-2025)。

  2. 数据加工。将收集到的数据,整理为计算机可直接统计和分析的格式,如XML,JSON等

  3. 数据处理。使用GPT等模型,利用提示词从文本中提取出感谢对象,如:导师、家人、同学、机构、工具(ChatGPT)等;情感分析,每篇文章中积极情绪、负面情绪和中性情绪的比例;提取感谢的强度,对不同感谢对象的情感强弱等

  4. 描述性分析

    1. 全部样本中,各感谢对象的总量或比例分布。(条形图)

    2. 不同年代的人对导师情感的分布(直方图)

    3. 不同专业、不同学位以及不同年代学生,感谢对象的差异(分组柱状图),感谢对象的结构性差异(卡方检验,雷达图)

    4. 致谢行文结构的差异,如导师->同学->家人或者 自我->ChatGPT->导师->朋友。(桑基图,Sankey)

    5. 以及其他各类能想到的描述性分析,例如是否用文言文写致谢,是否用代码写致谢,致谢文本的长短等等。

  5. 相关性分析

    1. 对于导师的感谢程度,是否逐年变化?(折线图+回归线)

    2. 致谢对象的多少与学科之间是否有关系(散点图+回归线)

    3. AI 工具被提及次数与导师的感谢强度之间是否有关系(散点图+回归线)

    4. 其他可能的分析

  6. 因果分析

    1. 2023 年开始GenAI的大流行是否影响了师生关系?可采用准实验(Quasi-Experimental) 设计,如事件研究(Event Study)或双重差分(DiD),输出DAG图,说明变量之间可能的因果路径,例如,“AI 工具的出现 → 导师感谢减弱”。

    2. AI 的出现对不同学科(文、社、理工)的影响是否一致?输出:不同学科组的因果效应对比条形图

    3. 其他可能的分析

  7. 数据叙事:采用恰当的数据叙事方式展示本组的发现。

具体要求:

  1. 报告时间与顺序:待定

  2. 各类可视化图片,不少于 10 种;

  3. 小组报告时间,每组 15 分钟;

考核要点

  1. 选题是否新颖有趣;

  2. 分析过程是否深入和准确;

  3. 各类图表使用是否恰当和准确;

  4. 报告时能否采用恰当的叙事方式。

参考资料