[2021] Robust Knowledge Graph Completion with Stacked Convolutions and a Student Re-Ranking Network
Justin Lovelace, Denis Newman-Griffis, Shikhar Vashishth, Jill Fain Lehman, Carolyn Penstein Rose´
본문의 논문은 ACL 2021 Accepted paper로, 여기를 확인해 주세요.
Abstract
NAACL 2022 paper을 보던 중 이와 연관된 논문이 있어 읽게 되었다. 전체적인 결과나 흐름을 꼼꼼히 보기보다는 모델 architecture과 train이 어떻게 진행되었는지만 간단히 요약해보려 한다.
Method

전반적으로 먼저 감을 잡아 보자면, 먼저 BERT에서 텍스트 entity embeddings를 develop하기 위해 feature 표현을 추출한다. 저자들은 자신들의 setting에서 기존의 neural KG architecture가 성능이 좋지 않음을 보고, deep convolutional vision 모델에서 혁신적인 구조를 활용한 deep convolutional network를 개발하였다. 이 모델은 downstream 성능 향상을 내는 훈련 데이터에서 복잡한 relationships에도 적합한 모델을 구상한 것이다.
마지막에는 이 ranking 모델 지식을 괜찮은 candidates의 순위를 조정하는 student re-ranking network로 distill한다. 그렇게 함으로써, KGC를 위한 re-ranking paradigm의 효과를 입증하고, 실제 KGs의 희소성에 대해 더 큰 견고성을 가진 KGC 파이프라인을 개발하였다.
1. Entity Ranking
저자들은 기존 KGC의 formulation을 따라 실험을 진행하였다. KG의 entity-relation-entity facts 인
- Textual Entity Representations
이제 여기서 BERT를 사용하여 KG의 연결성에 변함없는 entity embeddings를 만들어 낸다. CN-100K 와 FB15K-237 데이터 셋에는 BERT-base uncased 모델을 사용하고, SNOMED CT Core KG 데이터 셋에는 UMLS에서 생물학 용어에 적합한 PubMedBERT를 사용하였다.
BERT를 텍스트 entity 분별기로 사용하였고, concept name에 요약 feature 벡터를 얻기 위해 모든 BERT layer에서 token representations를 mean pool 하였다. 각각의 training examples에 수많은 잠재력 있는 candidate entities의 점수를 계산해야 하기 때문에 훈련 중에 이 embeddings를 고정하였다. 이로 인해 fine-tuning BERT의 연산량이 매우 커졌다.
- Deep Convolutional Architecture
computer vision에서 좋은 성능을 낸 ResNet을 사용한 knowledge base completion 모델을 만들었다. 여기서 ResNet architecture은 BERT features 공간과 relation embeddings 사이의 복잡한 interactions를 표현하기에 충분하였기에 사용하였다.
incomplete triple인

공간 feature map인
그리하여 deep networks에 training을 향상시키는 각 bottleneck block에 residual connection을 추가하였다. bottleneck block을
3x3 convolutions 의 순환 padding을 사용하여 feature map의 공간적 크기를 유지하고, 모든 convolutions에 1 stride를 사용하였다. feature map의 더블 차원인 bottleneck block에는 residual connection을 위해 projection shorcut을 활용하였다.
- Entity Scoring

incomplete fact인
2. Entity Re-Ranking

- Re-Ranking Network
모든 각 단계별 훈련 query에 대해 top-k 의 entities를 추출하는데 convolutional network를 사용하였고, 이 entities의 순위를 매기기 위해 re-ranking network를 train하였다. incomplete fact
knowledge graph에서 각 relation에 대한 relation tokens를 보여주고, head 와 tail entities에 relation tokens를 추가한 다음 둘을 연결한다. 그러면 triple ("head name",
- Knowledge Distillation
잘 만들어진 ranking model은 noisy training labels을 완화하는 데 사용되고 논문의 re-ranking 모델을 개선하는 데 사용할 수 있는 정보를 제공한다. training query
student model인

- Training
training set에서 모든 query에 대한 ranking 모델은 top
- Student-Teacher Ensemble
모든 query에서 상위 top

