[LIVE] From Scratch로 학습한 Solar-Open-100B 공개 검증세션

[LIVE] From Scratch로 학습한 Solar-Open-100B 공개 검증세션

간략한 요약

본 영상은 업스테이지의 솔라 오픈 백비 모델이 '프롬 스크래치'로 학습되었는지에 대한 의혹을 해명하고, 모델 개발 과정과 관련된 여러 질문에 답변하는 내용을 담고 있습니다. 주요 내용은 다음과 같습니다.

  • 프롬 스크래치 학습의 정의와 중요성
  • 솔라 오픈 백비 모델의 개발 과정 및 증거 제시 (체크포인트, 완디비 로그 등)
  • 제기된 의혹에 대한 구체적인 해명 (레이어놈 유사성, 토크나이저 관련 등)
  • 모델 구조 및 라이선스 관련 설명
  • 향후 커뮤니티와의 협력 및 모델 오픈 계획 발표

소개

오늘 솔라오픈 백비가 프롬 스크래치로 학습된 모델임을 설명하고 검증하는 자리를 가질 예정입니다. 질문은 QR코드를 통해 받고, 최대한 답변드리겠습니다. 발표는 약 30분, 질의응답은 30분 정도 예상하며, 시간 제약 없이 질문을 받겠습니다. 모델 제작 방법과 프롬 스크래치 제작 과정에 대한 설명으로 시작하겠습니다.

프롬 스크래치 모델 제작 방식

모델 구조를 정하고 가중치(웨잇)를 넣는데, 초기 숫자를 어떻게 설정하는지가 가장 어려운 문제입니다. 프롬 스크래치 학습은 이 숫자를 랜덤으로 초기화하는 것을 의미합니다. 다른 곳에서 학습된 웨잇을 가져와 사용하면 프롬 스크래치가 아닙니다. 랜덤 초기화 여부가 중요하며, 이는 초기 단계에서 결정됩니다. 이후 사전 학습, 자우스, DPO 등 다양한 방법으로 모델을 개선합니다. 국가 주도 모델 개발 사업에서 업스테이지는 국민 세금으로 지표를 얻어 프롬 스크래치 모델을 학습하고 있습니다.

프롬 스크래치 판정 기준

프롬 스크래치 판정의 가장 중요한 기준은 가중치(웨잇)입니다. 가중치가 랜덤하게 초기화된 후 학습되었는지, 아니면 다른 사람이 학습한 것을 가져와 학습했는지가 결정적입니다. 모델 구조는 트랜스포머, MOE 구조 기반으로 거의 표준화되어 있으며, 허깅 페이스의 오픈 소스 코드를 따릅니다. 허깅 페이스 라이브러리는 모델 구조 표준을 이끌고 있으며, 대부분의 모델 개발자들이 사용합니다.

모델 구조와 인퍼런스 코드

모델 구조가 대동소이하므로 인퍼런스 코드도 비슷하며, 허깅 페이스 라이브러리를 사용합니다. 모델 웨잇이 랜덤하게 초기화되었다면 프롬 스크래치 모델입니다. 인퍼런스 코드에서 다른 웨잇을 불러와 활용하는 경우, 프롬 스크래치가 아닙니다. 인퍼런스 코드는 모델 웨잇 출시 시 필수로 제출하지 않아도 되지만, 편의상 함께 제공됩니다. 업스테이지는 인퍼런스 코드를 오픈 소스로 공개하고 있습니다.

솔라 모델의 프롬 스크래치 검증

솔라 모델을 처음부터 프롬 스크래치로 만들었음을 증명하기 위해, 학습 과정의 체크포인트와 완디비(WandB) 로그를 공개합니다. 체크포인트는 학습 단계별로 저장된 모델 상태이며, 완디비는 학습 과정의 지표를 추적하는 도구입니다. 이를 통해 학습 시작부터의 성능 변화를 확인할 수 있습니다. 체크포인트는 학습 노하우가 담겨 있어 일반적으로 공개하지 않지만, 오늘은 일부를 공개합니다.

학습 데이터와 로스 그래프

데이터가 얼마나 들어갔는지 트래킹하고, AWS와 SKT B200 GPU를 사용한 학습 기록이 남아 있습니다. 로스 그래프는 프롬 스크래치 학습 여부를 판단하는 지표 중 하나입니다. 초기 로스가 높았다가 학습이 진행되면서 수렴되는 것을 확인할 수 있습니다. 에브리지 크로스 엔트로피(Average Cross Entropy) 그래프에서도 학습이 진행됨을 볼 수 있습니다.

MMU (Massive Multitask Understanding)

MMU는 로스와 반대로 진행되는 지표로, 초기에는 낮은 값을 보이다가 학습이 진행되면서 점차 상승합니다. 100B 모델 사이즈로 인해 MMU를 끝까지 올리는 데 어려움이 있었으며, 3개월의 짧은 학습 기간이 아쉬웠습니다.

프롬 스크래치 논란에 대한 해명

모델 웨잇을 온전히 처음부터 랜덤하게 만들었는지, 아니면 다른 모델의 웨잇을 가져왔는지에 따라 프롬 스크래치 여부가 결정됩니다. 레이어놈(LayerNorm)이 다른 모델과 유사하다는 의혹이 제기되었으나, 레이어놈은 레이어 간 연결 고리 역할을 하는 작은 부분(0.00387%)이며, 제대로 분석하면 유사하지 않습니다.

레이어놈 유사성 분석

솔라 오픈 백비의 레이어와 GLM, 라마(Llama), 파이(Phi) 모델의 레이어놈 파라미터가 유사하다는 주장이 있었으나, 이는 코사인 유사도(Cosine Similarity) 측정 방식의 오류 때문입니다. 코사인 유사도는 벡터의 방향만 고려하고 크기는 무시하므로, 레이어놈의 특징상 양수 값을 가지는 벡터 방향이 유사하게 나타날 수 있습니다. 피어슨 상관계수(Pearson Correlation)로 분석하면 숫자가 낮아 연관성이 없음을 알 수 있습니다.

레이어놈의 특징과 초기화

레이어놈은 노멀라이제이션 기능을 수행하며, 감마(Gamma) 값으로 표현됩니다. 감마 값은 초기 학습 시 1로 설정되어 숫자가 변하더라도 벡터 방향이 크게 변하지 않습니다. 따라서 레이어놈의 차이를 판별하는 데 코사인 유사도 지표를 사용하는 것은 적절하지 않습니다.

토크나이저 관련 의혹 해명

토크나이저(Tokenizer)는 단어 사전과 같은 역할을 합니다. 솔라 오픈 백비의 토크나이저가 기존 토크나이저에 추가한 것이 아니냐는 의혹이 있었으나, 완전히 새로 만든 것입니다. 196K 단어 중 80K 단어만 겹치며, 이는 독립적으로 토크나이저를 만들어도 60-70% 정도 겹치는 일반적인 현상입니다.

모델 구조 관련 의혹 해명

GLM 모델과 구조가 흡사하여 파생 모델이 아니냐는 질문에 대해, 생태계 호환성을 위해 MOE 계열 트랜스포머 구조를 따르는 것이 표준이며, 인퍼런스 코드도 일부 유사하지만 레이어 구성은 완전히 다릅니다. 업스테이지는 GPT OSS 아키텍처를 기준으로 쉐어드 레이어를 추가하여 모델을 만들었으며, 레이어 크기, 웨잇 크기, 레이어 숫자 등이 모두 다릅니다. GLM과 달리 댄스 레이어를 제거하여 효율성을 높였습니다.

모델링 코드 및 라이선스 관련 설명

모델링 코드는 모델 웨잇을 기반으로 누구나 짤 수 있지만, 편의를 위해 제공합니다. 허깅 페이스 라이브러리의 일부를 가져와 수정했으며, 아파치 라이선스를 적용하여 누구나 자유롭게 사용할 수 있도록 했습니다. 아파치 라이선스 규정에 따라 기존 저자(GLM, GPT, 허깅 페이스)의 이름을 명시했습니다.

벤치마크 미제공 이유

12월 31일까지 모델 웨잇을 제출하는 것이 국가 과제 요건이었기 때문에, 최대한 모델 학습에 집중하고 벤치마크는 1월 4일 이후에 공개할 예정입니다.

추가 의혹 제기에 대한 해명

모델 웨잇을 가지고 서빙하는 코드를 사용한 것이 아니냐는 의혹에 대해, 이는 모델 제작과 무관하며 일반적인 방식입니다. 학습 코드와 인퍼런스 코드가 없다는 질문에 대해, 모델 웨잇만으로 충분하며 인퍼런스 코드는 편의를 위해 제공하는 것입니다.

라이선스 누락 및 수정 과정 설명

웨잇에 집중하느라 다른 파일에 신경 쓰지 못해 라이선스 누락이 발생했으며, 아파치 라이선스 규정에 따라 원저자 이름을 추가했습니다. 평가 지표는 계속 업데이트될 예정입니다. 인퍼런스 코드는 허깅 페이스 라이브러리 기반이며, 글로벌 생태계 모두가 사용하는 표준 코드입니다.

프롬 스크래치에 대한 입장

모델을 그대로 가져다 쓰는 것도 프롬 스크래치라고 주장할 수 있지만, 업스테이지는 모델을 많이 변형하여 학습시켰습니다. GPU 사용 이력을 공개할 수 있으며, 레블업과 GPU를 공유하여 사용했습니다.

모델 아키텍처 관련 질문 답변

GLM과 모델 아키텍처가 비슷해 보이는데 독자적인 모델이라고 할 수 있는지에 대한 질문에 대해, 가중치가 중요하며 중간에 머지하거나 다른 것을 가져오지 않았습니다. 토크나이저를 추가한 것이 아니며, 완전히 새로 만들었습니다. 모델 구조는 생태계 호환성 때문에 비슷해 보일 수 있지만, 레이어 구성은 완전히 다릅니다.

솔라 프로 2 관련 질문 답변

솔라 프로 2는 중국에서 가져온 것이 아니며, 댑스 업스케일링 기술로 다른 회사의 모델 웨잇을 섞어 사용했습니다. 이전 모델에 대해 프롬 스크래치라고 주장한 적이 없으며, 새로운 방법으로 만들었다고 주장했습니다. 솔라 프로 2는 미스탈 모델을 베이스로 수술하듯이 뜯어 붙인 것이며, 중국 모델과는 아무 상관이 없습니다.

프롬 스크래치 모델 개발의 의의

국가 프로젝트로 독자 파운데이션 모델을 만드는 것이 목표이며, 상업용 모델은 프롬 스크래치를 하지 않아도 됩니다. 많은 스타트업들이 모델을 가져와 파인튜닝하거나 컨티뉴드 프리트레이닝을 하여 사업을 하고 있으며, 이는 좋은 방법입니다.

모델 구조의 차이점

모델 구조를 새롭게 하는 것은 GLM, GPT OSS와 아키텍처가 다르다는 것을 의미합니다. 인퍼런스 코드도 GLM 코드를 그대로 사용하면 안 돌아가며, 구조가 완전히 다르기 때문입니다.

모델 구조 저작권 관련 질문 답변

모델 구조 자체는 GLM의 저작권에 종속되지 않으며, OSS에 있는 구조를 참고하여 변형했습니다. 트랜스포머 저자들이 특허를 내지 않아 딥러닝 생태계가 발전할 수 있었습니다.

프롬 스크래치 학습의 중요성

스크래치만 다르면 되는 것이 아니라, 웨잇을 처음에 초기화해야 합니다. 선행 학습을 하면 프롬 스크래치가 아니며, 수학을 한 번도 배워 본 적이 없는 뇌로 학습하는 것과 같습니다.

체크포인트 공개 관련 질문 답변

체크포인트 공개는 관계자에게 이메일을 통해 문의하면 직접 점검할 수 있도록 하겠습니다.

솔라 오픈 백비만의 독자적인 AI 기술

3개월 만에 높은 성능의 모델을 만들기 위해 모델 구조를 설계할 때 많은 고민을 했습니다. 쉐어드 레이어를 넣거나 댄스 레이어를 없애고, 각 레이어별 사이즈를 결정하는 실험을 했습니다. 학습 커리큘럼도 핵심 노하우이며, 데이터 학습 순서와 양을 조절하는 것이 중요합니다. 각 스테이지별로 나누어 학습하고, 가공된 데이터와 실제 사람이 쓴 데이터를 적절한 비율로 섞어 사용했습니다.

정부의 프롬 스크래치 정의와 업스테이지의 입장

정부 요건에 충족한다고 생각하며, 정부와 전문가들이 판단할 영역입니다. 개인적으로도 요건에 만족한다고 생각합니다.

의혹 제기 회사에 대한 법적 조치 여부

커뮤니티에서 의혹을 제기할 수 있다고 생각하며, 실수할 수 있습니다. 실수를 인정하면 좋은 선순환을 만들 수 있다고 생각합니다. 오류가 명확한 부분에 대해서는 공개 사과를 부탁드립니다.

커뮤니티에 대한 감사와 당부

커뮤니티의 빠른 피드백에 감사드리며, 확실하지 않은 내용을 단정 짓는 것은 위험합니다. 앞으로도 모델을 오픈할 예정이니 많은 평가 부탁드립니다.

커뮤니티 활성화 계획

모델 제작 과정에 대한 자세한 설명 세션을 열고, 기술을 공유하고 싶습니다. 학교나 비영리 단체에 솔라 오픈 API와 제품을 무료로 제공하고 있습니다.

마무리

많은 참여에 감사드리며, 자랑스러운 스타트 컨소시엄과 함께 열심히 하겠습니다.

Share

Summarize Anything ! Download Summ App

Download on the Apple Store
Get it on Google Play
© 2024 Summ