google scholarで引用数で並び替える方法

google scholarで論文の引用数で並び替える方法

google scholarは論文検索サイトですが、現状の機能では引用数別に並びかえることができません。

今回はsort-google-scholarを使用した方法を紹介します。

sort-google-scholar

sort-google-scholarはWittmannF氏によりgithub上に公開されているプログラムです。

参考 GitHub - WittmannF/sort-google-scholar: Sorting Google Scholar search results based on the number of citationsGitHub

実行にはpythonの環境が必要です。

こちらの記事を参考にパソコンにpythonを導入してもよいですが、今回はgoogleによって公開されているgoogle colabを使用します。

google colaboratoryとは?

google colaboratoryはgoogleのサービスでインストール不要で、ブラウザ上から簡単にpythonを実行できます。いちいちインストールなどが不要で使用することができるので便利です。

jupyter notebookがベースとなっているcolabノートブックという環境で同じように使うことができます。

まずはgoogle colabにアクセスしてください(googleのログインが必要)

https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja

  1. ノートブックを作成

2. 基本的な使い方を学ぶ

google colabでは「!」を入力することで、サーバのコマンド(linuxのコマンド)を実行できます。

試しにカレントディレクトリとディレクトリの中身、osの種類を表示してみます。

コード+の部分を押すとコマンドを入力する窓がでてきます。そこにコマンドを入力して再生ボタン◁を押します。

OSはUbuntu 18.04.5ということがわかります

!を入力しないでコマンドを入力するとpythonのコマンドを入力していることになります。

サーバ上のpythonのバージョンは3.7です。printでhello worldを表示させます。

3. git cloneする

sort-google-scholarをgithubからcloneします。

! git clone https://github.com/WittmannF/sort-google-scholar.git
git clone後にlsでディレクトリを見るとsort-google-scholarがダウンロードされているのがわかります。
ダウンロードしたsort-google-scholarのディレクトリに移動したいのですが、!cdではディレクトリの移動状態は保存されないのでcdで移動します。

4. 実行

covid-19のキーワードで1年あたりの引用数(古い論文が有利にならないようにするため)でソートします。

!python sortgs.py –kw “covid-19” –sortby “cit/year”
lsでファイルを見るとcovid-19という名前のcsvファイルが作成されているのが分かる。
※注意:このコマンドを実行しすぎるとgoogle scholarからcolabのIPが弾かれて実行できなくなる可能性があるので大量に実行しない
5. CSVファイルの中身をみてみる
pandasをインポートしてcsvファイルを見てみます。
この結果をみるとSafety and efficacy of the BNT162b2 mRNA Covid-19 vaccine.という論文がcovid-19というキーワードの中では引用数が多い論文ということがわかります。
Polack, Fernando P., et al. “Safety and efficacy of the BNT162b2 mRNA Covid-19 vaccine.” New England Journal of Medicine (2020).
csvはもちろんサーバのcatコマンドで閲覧することも可能です。
生成したCSVはPCにダウンロードすることもできます。
from google.colab import files
files.download(‘covid-19.csv’)
 
CSVファイルはエクセルなどの表計算ソフトで閲覧・編集できます。

コメントを残す

メールアドレスが公開されることはありません。