딥러닝 최적화 2

JAX/Flax로 딥러닝 레벨업 - 제이펍 [도서리뷰]

최신 LLM 모델들을 공부하시다 보면JAX, Flax 라이브러리를 많이 들어보셨을 거라 생각합니다.JAX와 Flax는 아직 딥러닝 모델 시장에서 활성화 되지는 않았지만, 시장을 잠식해가고 있는 메타플랫폼스의 파이토치에대항마로 구글에서 최근에 밀어주고 있는 라이브러리 인데요,JAX와 Flax는 각각 2018년, 2020년에 구글리서치에서 개발하여 사용하고 있습니다.  지은이들은 모두의 연구소 'JAX/ Flax LAB'로 구성된 멤버분들이라고 합니다.모두의 연구소는 여러 LAB을 운영하면서,AI에 관한 여러 LAB을 운영하는 걸로 유명한데요,현업자들과 연구자분들이 뭉쳐서 책을 지으셨다고 합니다. 모두의 연구소의 풀잎스쿨을 여러번 참여한 경험이 있었는데요,다들 열정이 넘치고 적극적으로 활동해주셨던 분들이 많..

[Python] 딥러닝 학습 속도 문제와 최적화-2

초기값 설정 초기값을 잘못 설정한다면 sigmoid를 통하고 하면서 w값을 가야되는데, 초기값에서 크게 벗어나지 못하는 문제가 발생 초기값을 잘 설정하는게 중요함 모델을 여러번 학습하다 보니, 학습된 모델이 다르게 나오게 된다. Weight Initializtion은 새로운 방법으로 여러 연구가 있었음 초기화 설정 문제 해결을 위한 Naïve한 방법 -표준 정규분포를 이용해 초기화 -표준편차를 0.01로 하는 정규분포로 초기화 Nural Net 굉장히 크고 노드가 많다면 하나의 레이어에 잇는 100개의 Normal한 Naive한 방법인 평균0 표준편차 1인 정규화 방법을 쓰면, 나중에는 양쪽 끝으로 몰리는 현상이 발생함 이러한 표준편차를 줄여보는 시도를 함 Xavier 초기화 방법 + Sigmoid 함수..