본문 바로가기

개발자가 되고싶은 달걀들에게

GPT? LLM? 한방에 이해하는 자료 총정리

반응형

안녕하세요, 오랜만이에요. 항상 블로그에 글 써야지 하는 생각이 모종의 죄책감과 버무려져 뇌 한편에 자리하고 있지만, 짬 내서 짧은 글이라도 쓰려는 노력이 쉽지만은 않네요. 오늘은 최근에 접한 귀한 자료를 공유하기 위해 왔습니다. 초보분들은 차근차근 모든 비디오를 정독(하.. 글은 아닌데 비디오는 뭐라고 하나요?) 하시길 추천하고, 좀 아시는 분들은 본인이 궁금했던 부분만 골라 보셔도 좋겠습니다.
 

LLM(Large Language Model) 이 대체 뭐길래?

저는 머신러닝, AI 등을 주제로 연구하는 사람이지만, LLM은 제 주 종목은 아닙니다. 하지만 학회도 연구도 심지어 세간의 뉴스도 모두 LLM을 떠드는 세상에서, 내 직접적인 연구주제가 아니라고 해서 LLM이 무엇인지 모르고 지나갈 수는 없겠죠? 그래서, 저도 정말 잘 몰라서 스스로 공부해야겠다는 생각에 자료들을 찾아 나섰습니다. 처음엔 뭣도 모르고 바로 transformer를 처음 제안한 Attention is All You Need 논문을 찾아 읽었는데, 이게 뭐가 그렇게 특별한건지 잘 이해하지 못했습니다. 그러나 곧 젊은 친구들은 (박사생이라 하더라도) 논문보다 유튜브를 먼저 찾아본다는 걸 배우고는 아래 보여드릴 진귀한 영상들을 찾아냈죠.
정말 간단히 압축하여 설명하자면, LLM은 엄청 큰(Large) 언어 모델(Language Model)입니다. 요새 우리가 떠드는 LLM은 보통 Neural Network 모델이며, 다양한 구조 중에서도 Transformer 구조를 가지고 있습니다. Transformer는 Attention이라는 메커니즘을 실현하고, 이를 활용해 언어 관련 모델(예를 들어 챗봇, 번역 모델 등)을 만들면 그게 바로 LLM입니다. 그리고 GPT(chat-GPT의 그 GPT)는 이런 LLM 중 하나인 셈입니다. 그러니까 우리가 알아야 할 키워드는 Neural Network, Transformer, Attention 정도가 되겠습니다.


일단, 개념을 이해하자

가장 먼저 추천드리는 플레이리스트는 3Blue1Brown 의 Newral networks playlist입니다. 전반적인 뉴럴 네트워크에 대한 설명으로 시작해서, 마지막 두 영상에서는 transformer 구조와 attention mechanism에 대해 설명합니다. 3Blue1Brown의 영상이 대부분 그렇듯이, 수학적인 개념을 굉장히 잘 시각화했습니다. (neural net에 대해 잘 아셔도 한 번쯤 심심풀이로 영상 보시면 재밌을 거예요!)

Neural networks

Learn the basics of neural networks and backpropagation, one of the most important algorithms for the modern world.

www.youtube.com

 
Neural network에 대해 이미 잘 알고 계시는 분들은 이 비디오만 보셔도 attention이 대체 뭐하는 놈인지 이해하는 데 도움이 될 것 같습니다.

 

손으로 따라해보기

자, 이제 Transformer와 Attention이 뭔지 (혹은, 적어도 뭘 하려고 만든 구조인지) 알았으니, 그물망 같은 저 네트워크가 정확히 뭘 어떻게 계산하는지 궁금해지셨을 거예요. 뉴럴넷이 익숙하신 분들은 3Blue1Brown 비디오만 보고도 다 이해하셨을 테지만, 혹시 뭔가 좀 헷갈리신 분들은 이 리소스를 활용해서 종이에 직접 matrix multiplication을 그려볼 수 있습니다. 이 리소스는 CU Boulder에 계신 Tom Yeh 교수님께서 만든 AI workbook으로, 종이와 펜으로 직접 neural network의 계산 흐름을 적어보고 쉽게 이해할 수 있게 도와줍니다.

AI by Hand ✍️ | Tom Yeh | Substack

with Prof. Tom Yeh. Click to read AI by Hand ✍️, by Tom Yeh, a Substack publication with thousands of subscribers.

aibyhand.substack.com

유튜브에 가보면 이 자료를 활용해 어떻게 숫자를 계산하는지 직접 시연하는 영상들도 있습니다. 일단 시연하는 영상을 쭉 따라 해보고, 머리로 이해가 가지 않기 시작할 때즘에 펜을 들고 종이에 따라해 보시면 좋겠습니다. AI by Hand 웹사이트의 Advanced 탭에 가면 self attention, Mamba 등 더 다양한 구조들이 알기 쉽게 설명되어 있으니 추천합니다.

Deep Learning Basic - AI by Hand ✍ with Anna

www.youtube.com

 
 
 

진짜 따라 해보기

이제 정말 마지막으로 볼 플레이리스트는 ChatGPT 같은 생성형 모델을 "코딩으로" 진짜 함께 만들어보는 데모입니다. OpenAI는 ChatGPT를 만든 회사인데, 그 회사의 founding member였던 Andrej Karpathy가 자신의 채널에 올린 Neural Networks: Zero to Hero 플레이리스트입니다.

Neural Networks: Zero to Hero

www.youtube.com

 
이 플레이리스트는 10개의 비디오로 이루어져 있는데, 요새 아무도 직접 짜지 않는 back propagation 코드처럼 기본적인 것부터 차근차근 설명하며 결국 함께 GPT까지 만들게 됩니다. 저는 시간상의 문제로 아주 끝까지 따라 해보진 못했지만, jupyter notebook까지 공유되어 있어서 쉽고 빠르게 훑어보기에 최적의 자료였습니다.

여기까지 다 해보셨다면 여러분은 이미 웬만한 Transformer 모델 구조를 이해하기 위한 기본은 다 갖추신 겁니다. 이제 여러분의 관심사에 따라 진짜 Attention is All You Need 논문을 읽으러 가보셔도 좋고, Transformer 이후로 더 발전한 다른 모델들을 둘러보러 가셔도 좋습니다. 여러분이 어디서 무얼 하시든지 LLM 기본기를 알고 있는 것이 상식이 되어버린 요즘, 이 자료들로 난해한 LLM의 세계에 조금이나마 더 쉽게 한 발짝 다가가보시길 바랍니다.
 
그럼 저는 또 지키지 못할 약속을 남기며... 곧 또 올게요 :)
 
 

반응형