paper review
-
Knowledge distillation:A good teacher is patient and consistentpaper review 2022. 2. 13. 20:48
0. Abstract 매우 큰 SOTA 모델들과 실제 활용 가능한 수준의 모형 간 성능 불일치가 증가하고 있다. 본 논문에서는 그 격차를 좁힐 수 있는 방법에 대해 연구를 진행했다. KD를 활용하여 성능의 손실 거의 없이 실용적 크기의 model로 압축하는 방법을 소개한다. 추가로, 몇가지 디자인 방법들이 distillation 성능에 크게 영향을 주는 것을 밝혀냈다. 1. Introduction 최근 SOTA 모델들은 hardware의 한계치까지 사이즈가 커지고 있으나, 너무 사이즈가 커서 실제로는 쓸 수가 없다. 그래서 좋은 성능의 모형을 더 작게 압축하는 방법으로는 다음과 같은 두 가지 방법이 있다. model pruning: 적용하기에 문제가 많음 knowledge distillation: 적절 ..
-
Diversity Matters When Learning From Ensemblespaper review 2022. 1. 9. 09:34
1. Introduction Deep Ensemble (DE) [Lakshminarayanan et al., 2017]는 간단한 앙상블 방법이다. 동일한 모형을 random seed만 바꿔서 여러 번 학습하면 되기 때문이다. 그런데도 다양한 tasks에서 좋은 성능을 보여주고 있다. 몇몇 연구들은 DE의 효과성을 밝혀내려 했다. 그 중 한 이론은 DE가 Bayesian Model Average (BMA) 프로세스의 근사라는 것이다. 그런데 가장 복잡한 Bayesian inference 알고리즘들도 DE만큼의 파라미터 탐색력을 보여주지 못했다. DE는 학습하기 쉽지만, inference 시간 및 메모리 관리가 어렵다. 이를 해결하기 위한 방법 중 하나가 Knowledge Distillation (KD) 이..
-
ONCE-FOR-ALL: TRAIN ONE NETWORK AND SPE- CIALIZE IT FOR EFFICIENT DEPLOYMENT 리뷰paper review 2021. 11. 7. 02:36
0. Abstract 다양한 device의 제약조건 하에서 효율적으로 inference 하는 것은 쉽지 않은 문제. 전통적인 방법으로 네트워크를 디자인하는 것도 엄청난 연산량이 부담. 본 연구에서는 a once-for-all (OFA) 네트워크 학습법을 제안하며, OFA는 training과 search를 분리함으로써 다양한 환경을 지원. OFA 네트워크에서 추가적인 학습 없이 특화 sub-network를 빠르게 선택할 수 있음. 효율적으로 OFA 네트워크를 학습하기 위해, Progressive Shrinking (PS) Algorithm 도 제안함. PS는 보다 일반화된 pruning 방법으로, model size를 일반 pruning 방법보다 다양한 차원에 걸쳐 줄일 수 있음(depth, width, ..
-
Emerging Properties in Self-Supervised Vision Transformers (DINO) 논문 해석paper review 2021. 9. 26. 08:56
arXiv:2104.14294v2 [cs.CV] 24 May 2021 0. Abstract 본 논문은 "Vision Transformer(ViT)에 self-supervised learning를 적용하여 CNN에 버금가는 새로운 properties를 추출할 수 있을까?"라는 가설을 검증하고자 함. self-supervised를 ViT에 적용하며 다음과 같은 발견이 있었음 self-supervised ViT(ssViT) features는 이미지의 semantic segmentation에 대한 명확한 정보가 있지만 지금까지 드러나지 않음 또한, ssViT features는 훌륭한 k-NN 분류기가 될 수 있으며, ImageNet에서 78.3%의 top-1 accuracy를 보임 그리고 이번 연구에서 mome..
-
StarGAN v2paper review 2020. 3. 11. 00:52
0. Abstract 좋은 image-to-image translation 모델은 다음과 같은 특성을 가져야 합니다. 1) 생성하는 이미지의 다양성 2) 여러 domains에 대한 scalability 아직 두 가지를 모두 만족하는 모델이 없지만 StaarGAN v2는 가능하다고 합니다. 실험 결과도 base line models보다 훨씬 뛰어나다고 합니다. 1. Introduction Image-to-image translation(IIT)은 서로 다른 visual domains간의 mapping 학습을 목표로 합니다. 여기에서 'domain'은 시각적으로 구분되는 카테고리를 의미합니다. 또한, 각각의 이미지는 unique appearance를 가지고 있는데 이것은 'style'입니다. 예를들어 성별이..
-
A Gift from Knowledge Distillation: Fast Optimization, Network Minimization and Transfer Learningpaper review 2019. 11. 18. 19:16
논문을 review하기 전에 Knowledge Distillation의 시초가 되는 논문을 먼저 간단히 소개하고자 합니다. Knowledge Distillation 개념은 Teacher Network의 성능을 작은 Student Network에 담기위해 고안됐습니다. 처음 논문은 Teacher Network의 softmax 결과를 "soft label"로 정의하고, Student Network가 원래의 hard label과 soft label을 모두 학습하는 방식을 제안했습니다. 이번에 review하는 논문은 처음 논문과 최신 논문의 중간 단계입니다. 본 논문에서는 좀 더 효과적인 Knowledge Distillation 방법론을 제안합니다. 본 방법의 장점은 아래와 같다고 합니다. Optimized를 ..
-
Spectral Metric for Dataset Complexity Assessmentpaper review 2019. 11. 11. 20:25
1. Introduction 보통 데이터분석가들은 새로운 Image dataset을 만났을 때, 이게 얼마나 어려운 문제인지 파악하고 싶어합니다. 어떤 클래스가 가장 분류하기 힘든지? CNN 학습을 위해 필요한 최소의 data size는 무엇인지? 그러나 그런 측정이 가능한 표준 framework가 아직은 없습니다. 그래서 현재는 여러가지 CNN 모형들을 만들고, 학습한 뒤, test set에서의 결과들을 비교해서 그러한 정보들을 얻어냅니다. 그러나 이 방법은 두 가지 문제점이 있습니다. 시간이 너무 많이 소요되고, fully-annotated dataset이 필요합니다. 그래서 classification problem의 complexity를 측정하기 위해, dataset 단계에서 난이도를 평가할 수 있..