1 PubMed文献数据分析
1.1 数据读入与字段查看
新建一个ipynb文件,导入需要使用到的库(和上一个博客导入的是相同的库,这里不再进行列出),进行读取PubMed文献数据。
由于字段很多,可以利用Record对象中的getAltName()方法进行具体字段名称的获取,方便查找到预分析的字段。
如果进一步需要查看某一行的字段名称与其对应的结果,指定行数后可以进行循环输出。输出结果如下,图中只截取部分输出信息。
1.2 探究文献标题的词汇量分布
导入的PubMed文献数据的标题中,单词之间均是由空格进行分割。因此按照空格进行分隔提取标题中的词汇数量,并赋值为新建字段。
由于DataFrame数据省略显示问题,标题中的单词被部分隐去,为了进一步核实统计结果的正确性,可以对数据进行逐项输出并核对单词数量。比如这里进行前三条数据进行核实