kdd比赛方案

解决方案概述

采用两阶段的方法来解决比赛任务。在第一阶段，采用与 SciBERT 集成的跨编码器模型来确定源论文是否是最重要的参考文献之一。在第二阶段，利用了从目标和源论文中得出的特征，以及第一阶段的输出，输入到几个二进制分类器中进行预测。最后，我们使用集成方法聚合了这些分类器的结果，以提高我们解决方案的整体准确性和稳健性。

数据内容结构：

训练集与验证集都包含若干篇论文的信息，每篇论文以字典形式存储。具体字段包括：
- _id: 论文的唯一标识符。
- title: 论文题目。
- refs_trace: 重要参考文献列表（每个参考文献为一个字典，包含作者、组织、期刊/会议、年份及序号等详细信息）。
- references: 参考文献列表。
- authors: 作者信息。
- venue: 发表地点（期刊或会议）。
- year: 发表年份。

验证集和测试集都提供了提交样例文件（如 submission_example_valid.json），便于参赛者理解提交格式要求。

比赛还提供了额外的训练数据 (paper_source_gen_by_rule.json)，通过关键词如“motivated by”或“inspired by”从上下文中自动提取出参考文献标题。这部分数据并未人工标注，存在一定的错误可能性。

论文原文使用TEI格式标注，

额外数据：

本次比赛为参赛者提供了额外的训练数据，文件为paper_source_gen_by_rule.json，该文件包含4854条数据，其内容为一个字典，键是论文的_id，值为其重要参考文献的字典，该字典键为该参考文献在论文参考文献列表中的序号，值为对应的重要参考文献论文题目。例：

"564b35960cf25e4e03c8752d": {
"15": "Co-saliency detection based on hierarchical segmentation",
"20": "Transfer learning by ranking for weakly supervised object annotation",
......
"25": "Deep learners benefit more from out-of-distribution examples"
}

注意！额外数据为使用规则的方法从论文数据集中收集。具体地，通过”motivated by”, “inspired by”等关键词抽取出现在相应关键词上下文的参考文献。该数据非标注数据，无法保证其正确性。

测试集公开数据

paper_source_trace_test_wo_ans.json

测试集数据，该文件格式与paper_source_trace_valid_wo_ans.json相同。

submission_example_test.json

测试集提交样例。

这次使用了允许用于本次比赛的纸质属性数据集

DBLP 数据集
- DBLP-Citation-network V15

DBLP 数据集：

6,404,473 篇论文和 62,492,559 条引文关系（2024-02-05） 概述

该数据集仅用于研究目的。引文数据从 DBLP、ACM、MAG （Microsoft Academic Graph）和其他来源提取。第一版包含 629,814 篇论文和 632,752 次引用。每篇论文都与摘要、作者、年份、地点和标题相关联。

该数据集可用于与网络和侧面信息进行聚类、研究引文网络中的影响力、查找最具影响力的论文、主题建模分析等。

DBLP-Citation-network V15： 6,275,271 篇论文和 42,104,228 个引文关系（2023-11-22）

OAG 数据集
- OAG V3.1 数据集
  - publication_1.zip ~ publication_14.zip

OAG 是通过链接两个大型学术图形生成的：Microsoft Academic Graph （MAG）和 AMiner。

OAG 在 ODC-BY 许可下发布。2017 年年中，我们发布了 OAG v1，其中包含来自 MAG 的 166,192,182 篇论文和来自 AMiner 的 154,771,162 篇论文（见下文），并在两个图之间生成了 64,639,608 个链接（匹配）关系。它可以用作研究引文网络、论文内容等的统一大型学术图谱，也可以用于研究多个学术图谱的整合。

Open Academic Graph 3.1

概述

Open Academic Graph （OAG）由 AMiner 生成。版本 3.0 数据集于 2023 年首次发布。基于 3.0 版本的数据集，我们通过合并重复论文并更新论文与研究人员、论文与机构、论文与期刊之间关系的匹配算法，大大提高了关系的准确性。现在我们发布 3.1 版数据集，如下所示。

目录中的文件如下所示。dataset

<span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><span style="color:#1f2328"><span style="color:var(--fgColor-default, var(--color-fg-default))"><span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><code>.
├── DBLP-Citation-network-V15.json
├── OAG
│   ├── v3.1_oag_publication_1_00.gz
│   ├── v3.1_oag_publication_1_00.json
│   ├──  .......
│   └── v3.1_oag_publication_14.json
└── PST├── paper-xml│   ├── 53e99792b7602d9701f57e77.xml│   ├── 53e99796b7602d9701f5d380.xml│   ├── 6584f922939a5f408236fc36.xml│   ├──  ........│   └── 65922fe2939a5f40826ca612.xml├── paper_source_gen_by_rule.json├── paper_source_trace_test_wo_ans.json├── paper_source_trace_train_ans.json├── paper_source_trace_valid_wo_ans.json├── submission_example_test.json└── submission_example_valid.json </code></span></span></span></span>

原始的 OAG 数据集被划分为小规模数据集，因为我们在实现中使用以下命令在有限的内存上执行代码。

$ split -l 1000000 -d --additional-suffix=.json v3.1_oag_publication_X.json v3.1_oag_publication_X_

“context_feature” 表示 train_context.csv 和 test_pub_context.csv

前处理

$ <Inside container /works>
$ cd preprocess

从 DBLP 数据集中提取数据。

$ poetry run python process_kddcup_data.py

从提供的训练、验证和测试数据集以及 DBLP 数据集中解析 XML 文件，以提取标题、摘要、关键字、组织、地点、上下文等。

$ poetry run pytohn xml_parser.py

为最终提交的测试数据集中的缺失值生成论文标题。

$ poetry run python oagbert_title_gen.py

特征生成（填充上下文功能）

使用 Open Academic Graph 填写论文信息。在执行以下笔记本之前，请从 Open Academic Graph 下载 OAG 数据集。

Fill_paper_info_by_OAG.ipynb

第一阶段（训练和测试预测）

使用 sentence-transformers 库执行跨编码器模型。我们使用 SciBERT 模型，并使用 GroupKFold 进行 5 倍交叉验证。

$ <Inside container /works>
$ cd first_stage
$ poetry run python cross_encoder.py --ubm --output_dir ../ce/default --train --prediction

第二阶段

$ <Inside container /works>
$ cd second_stage

基于 DBLP 的功能

使用 DBLP 数据集和 XML 文件创建纸张元数据要素。此脚本基于 paper-source-trace/rf/process_data.py at main · THUDM/paper-source-trace · GitHub 上提供的公共基线代码

$ poetry run python dblp_feature.py

和修改版的 dblp_feature.py

$ poetry run python dblp_feature2.py

基于 OAGBERT 的功能

使用以下笔记本填写上下文特征 b 后计算基于 OAG-BERT 的余弦相似度特征。

OAGBERT_embedding_cossim.ipynb

使用 OAGBERT 模型对论文进行编码，并计算目标论文和源论文之间的余弦相似度。此脚本创建 OAGBERT 功能的另一个版本。

$ poetry run python oagbert.py

生成特征

运行以下笔记本以设置特征的格式。

feature_generate4.ipynb

feature_generate5_feature_without_emb.ipynb

feature_generate6_with_oag.ipynb
feature_post_process.ipynb

运行分类器（训练和测试预测）

执行二元分类模型。CatBoost、LightGBM、RandomForest 和 SVM。使用 GroupKFold 实现 5 倍交叉验证。在这里，我们训练了 6 个模型。2 个 CatBoost、2 个 LightGBM、1 个 RandomForest 和 1 个 SVM。

<span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><span style="color:#1f2328"><span style="color:var(--fgColor-default, var(--color-fg-default))"><span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><code>$ poetry run python classifier.py --model_name catboost_0 --input_dir ../output/0601/ --trial_name catboost_0
$ poetry run python classifier.py --model_name lightgbm_binary --input_dir ../output/0601/ --trial_name lgbm_binary
$ poetry run python classifier.py --model_name random_forest --input_dir ../output/0601/ --trial_name rf
$ poetry run python classifier.py --model_name svm --input_dir ../output/feat_without_emb --trial_name svm_feat_without_emb --fill
$ poetry run python classifier_weight.py --model_name catboost_0 --input_dir ../output/dblp_title_2_oag_clean/ --trial_name catboost_0_dblp_2_clean
$ poetry run python classifier_weight.py --model_name lightgbm_binary --input_dir ../output/dblp_title_2_oag_clean/ --trial_name lgbm_dblp_2_clean
</code></span></span></span></span>

整体

运行以下笔记本以集成分类器的结果。

<span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><span style="color:#1f2328"><span style="color:var(--fgColor-default, var(--color-fg-default))"><span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><code>ensemble_oag_clean.ipynb
</code></span></span></span></span>

现在目录中有最终的提交文件。submit