2020年12月5日上午,管理与经济学院“科研能力提升”系列讲座第七次开讲,中国人民大学经济学院孙文凯教授应邀带来题为“博士论文写作:数据收集和处理”的精彩讲授。讲座由管理与经济学院教授刘冰峰主持,吸引了学院众多师生通过线上方式聆听参与。
孙教授首先指出当前经济学研究的主流是基于数据展开的实证研究,并列举了近年来的许多研究都因为没有相应数据而无法开展,比如2011年李实和罗楚亮学者在对收入分配进行研究时,就由于长期缺少高收入个体的收入数据而难以有效计算收入分配的不均等程度。又比如2016年三位学者由于对政府内部行为缺乏了解而难以有效识别政府机构的行为动机。另一方面,独特的数据却往往能产出独特的研究,比如灾害、政策、冲突等突发事件发生前后的数据可以用来分析某些特殊问题。如今获取数据的途径也更加多样,可以通过自己调查、设计实验、爬虫等方式获取数据,也可以通过数据库来获取他人收集整理的二手数据。
开始正式的主题后,孙教授分别从数据收集的依据、数据收集的基本原则、数据基础处理三个方面入手,结合了非常多的真实文献案例,做了深入浅出的介绍。在第一部分中,孙教授提出了两种数据收集的依据,第一种是基于问题及对应变量,第二种是基于方法来决定数据库类型,并分别列举了相关学术论文当作参考。在第二部分:数据收集的基本原则中,孙教授指出数据收集的最基本要求是寻找变化维度,即变化对变化影响识别因果关系。实验思路是数据收集的科学思路,通常的做法是根据外生冲击,将对象分为处理组和实验组来比较分析。收集的调查数据最好是面板数据,且最好三期及以上。在第三部分中,孙教授介绍了一些数据基础处理的方法。比如对异常值可以采取修正、删除上下一定量样本、winsorize处理,对缺失值可以采取插值、拟合值或平均值法进行处理等等。
随后,孙文凯教授以自己和学生合作完成的一篇名为Information and Avoidance Behavior: the effect of air pollution disclosure on labor supply in China的论文为例,详细介绍了这篇文章的写作背景、意义、数据收集和处理方法,以及实证分析的过程和结论,特别是关于实证方法的选取以及各种辅助检验和稳健性检验。
在讲座最后,孙教授一一听取并回答了师生的提问。通过此次讲座,师生们纷纷表示这类科研素质提升类讲座对于有志于科研的学生和教师都很有意义,希望还有机会和各位老师交流请教。