전체 글

고려대학교 산업경영공학부 DSBA 연구실(지도교수 : 강필성 교수님) 석사과정 손준영입니다. 인공지능을 공부하고 있습니다.
VLM AD

[ DL ] Dice Loss(Generalised Dice overlap as a deep learning loss function for highly unbalanced segmentations)

Dice Loss`Dice Loss`는 데이터가 불균형적인 특징이 존재하는 Segmentation에서 많이 사용되는 loss에 해당한다. Dice Loss의 수식은 다음과 같다. 해당 수식은 `민감도(sensitivity)`와 `정밀도(precision)`의 조화평균에 해당하는  `F1 score`와 같다.$p$ : 모델의 출력 값$\hat{p}$ : 정답 레이블해당 지표는 두 샘플 집합 간의 유사도를 측정하기 위해 개발되었으며, Dice Loss 값이 작을수록 segmentation 결과가 더 정확해진다. 이러한 Dice Loss는 특히 클래스 불균형이 큰 데이터셋에서 유용하게 사용된다. Reference[1] https://velog.io/@hsbc/dice-loss-%EC%82%AC%EC%9A%A9..

VLM AD

[ DL ] Focal Loss(Focal Loss for Dense Object Detection)

Focal Loss가 필요한 이유Object Detection은 R-CNN 계열의 `two-stage detector`와 YOLO, SSD 계열의 `one-stage detector` 2가지 종류의 알고리즘이 존재한다. 간단하게 말하면 two-stage detector는 localization을 수행한 후 classification이 순차적으로 이루어지며, one-stage detector는 이를 동시에 수행한다. 당연하게도 정확도 측면에서는 two-stage detector가 좋지만 연산 속도가 오래 걸린다는 단점이 존재한다. `Focal Loss`는 one-stage detector의 정확도 개선을 위해 학습 중 클래스 불균형 문제를 해결하기 위해 제안된 loss이다. one-stage detecto..

Deep Learning

[ DL ] Transformer에서의 Feed-Forward Network

Transformer에서의 Feed-Forward Network Transformer의 Encoder와 Decoder 모듈 내에 위치한 `Feed-Forward Network(FFN)`은 attention mechanism이 처리하는 데이터를 정제하는데 중요한 역할을 한다. 먼저 `Multi-head Attention Sublayer`와 `Post-Layer Normalization(Post-LN)`을 거친 output은 $d_{model}=512$의 차원을 유지하며, FFN에 입력된다. 이 FFN은 시퀀스의 각 position에서 독립적으로 데이터를 순차적으로 처리하는 데 중요한 역할을 수행한다.Transformer의 인코더와 디코더 내부의 FFN은 `fully connected network`이면서 ..

Programming/PyTorch

[ PyTorch ] hook - tensor_hook, forward_pre_hook, forward_hook, full_backward_hook

ACL 2024에 accept된 MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter라는 논문에서 4,096의 bottleneck size를 가진 `Parallel Adapter`를 `Natural Question` 데이터셋에 대해 학습한 후 4,000 토큰으로 구성된 test set에 대한 adapter의 FFNs layer의 뉴런의 activation value를 추출한다. activation value를 기준으로 neuron들을 정렬하고, 시각화를 위해 [0, 1]의 값으로 정규화를 해주면 다음과 같은 그래프가 구성된다. 해당 그래프를 통해 adapter의 activation이 매우 `sparse`하며, 모델 예측에 일부 뉴런만이 기여해 대부분의 뉴..

Deep Learning

[ DL ] Data Parallelism(DP), Distributed Data Parallelism(DDP)

본 포스팅은 다음 글을 기반으로 작성하였습니다.좋은 자료 공유해주셔서 감사합니다. Jupyter Notebook Viewer그런데 잠깐, All-reduce를 언제 수행하는게 좋을까요?¶ All-reduce를 backward()연산과 함께 하는게 좋을까요? 아니면 backward()가 모두 끝나고 step() 시작 전에 하는게 좋을까요? 결과적으로 backward()와 all-nbviewer.org Overview of Parallelism`병렬화(Parallelism)`란, 여러 개를 동시에 처리하는 기술을 의미하며 머신러닝에서는 주로 여러개의 디바이스에서 연산을 병렬화하여 속도나 메모리 효율성을 개선하기 위해 사용한다. 병렬화는 크게 `Data Parallelism`, `Model Parallelis..

Deep Learning

[ DL ] Multi-processing, Message Passing, P2P, Process Group, NCCL, GLOO, MPI, Collective Communication

본 포스팅은 다음 글을 기반으로 작성하였습니다. 매우 좋은 자료 공유해주셔서 감사합니다.  Jupyter Notebook Viewer2. Large-scale의 시대에 우리는 무엇을 준비해야 할까?¶ Large-scale transformer 모델은 기존과 아키텍처는 거의 동일한데, 모델의 모델과 데이터 사이즈를 엄청나게 키운 것입니다. 그래서 몇몇 사람들nbviewer.org Why Large Scale?그동안 많은 연구에서 언어 모델의 아키텍처의 변화가 생각보다 큰 차이를 가져오진 못한다고 말한다. 물론, 언어 모델의 성능이 어느 정도 향상된 것은 사실이지만 이것이 드라마틱한 성능 개선을 의미하진 않는다. 결국 모델의 성능에 가장 큰 영향을 끼치는 것은 데이터와 모델의 크기이다. 둘 중 굳이 더 중요..

Computer Vision

[Paper Review] Visualizing and Understanding Convolution Networks(ECCV 2013)

Visualizing and Understanding Convolutional Networks(2013) 0. Abstract AlexNet 이후 `Large Convolutional Network` 모델들이 ImageNet bechmark에서 인상적인 classification 성능을 보임 그러나 왜 성능이 좋은지, 어떻게 성능을 개선시켰는지에 대해선 명확하게 이해하지 못함 본 논문에선 Large Convolutional Network의 중간에 있는 feature layers의 기능과 classifier의 작동 과정을 확인하는 새로운 시각화 기법을 제안 해당 visualization 기술이 diagnostic role을 수행하여 AlexNet보다 ImageNet benchmark에서 더 우수한 성능을 ..

Computer Vision

[Paper Review] ImageNet Classification with Deep Convolutional Neural Networks(NIPS 2012)

ImageNet Classification with Deep Convolutional Neural Networks 0. Abstract ImageNet LSVRC-2010에서 1.2m개의 고해상도 이미지에 대해 1000개의 클래스로 분류하기 위해 large, deep convolutional neural network를 학습 test data에서 이전 SOTA 모델보다 좋은 top-1과 top-5 error rates에서 37.5%와 17.0%를 기록 `AlexNet`에는 약 6,000만개의 파라미터와 65만 개의 neurons가 5개의 convolutional layers로 구성 이에 더해 max-pooling layers와 1000-way softmax로 구성된 3개의 fully-connected l..

Time Series

[Paper Review] Are Transformers Effective for Time Series Forecasting?(AAAI 2023)

Are Transformers Effective for Time Series Forecasting? 0. Abstract `Long-term Time Series Forecasting(LTSF)` 문제의 해결책으로 `Transformer` 기반의 모델들이 급증 Transformers는 틀림없이 long sequence의 요소들의 `semantic correlations`을 추출하는데 가장 성공적인 해결책 그러나 시계열 모델링에서는 연속된 점들의 순서화된 집합에서 시간적 관계를 추출해야 함 Transformers는ordering information을 보존하는데 용이한 `positional encoding`과 `tokens`을 사용하여 sub-series를 embedding 이 경우 self-attent..

Time Series

[Paper Review] Deep Learning for Anomaly Detection in Time-Series Data: Review, Analysis, and Guidelines(IEEE 2021)

Deep Learning for Anomaly Detection in Time-Series Data: Review, Analysis, and Guidelines(IEEE 2021) 0. Abstract 산업이 자동화되고, 연결 기술이 발전함에 따라 다양한 시스템에서 방대한 양의 데이터가 생성 방대한 데이터에서 전체 시스템의 상태를 나타내는 주요 지표를 추출하기 위해 많은 접근 방식이 제안 이러한 지표를 사용하여 이상 징후를 제 시간에 탐지하면, 잠재적인 사고와 경제적 손실을 방지 다변량 시계열 데이터에서의 `Anomaly Detection`은 시간적 종속성과 변수 간의 관계를 동시에 고려해야하기 때문에 특히 어려운 과제 최근 딥러닝 기반 연구들이 이 분야에서 인상적인 진전을 이룸 이들은 대규모 시퀀스의 ..

Junyeong Son
Sonstory