syngha.com

Field Notes · 제 3장

제 3장: GPT-2부터 Hermes까지, LLM이 걸어온 길

English 한국어

AI는 지금까지 인류가 만들어낸 기술 중 가장 빠르게 형태가 바뀌고 있는 기술이라고 본다. 한 달 단위로 frontier model이 갈리고, 분기 단위로 API 가격이 반토막 나며, 반년 단위로 IDE의 기본 페어 프로그래머가 바뀐다. 이 산업에서 “AI의 정의” 같은 교과서적인 챕터를 외우거나, 어느 특정 시점의 Claude Code 사용법을 매뉴얼처럼 익히는 것은. 솔직하게 말해서. 별로 유의미하지 않다고 생각한다. 6개월 뒤면 그 사용법이 통째로 deprecate 되고, 1년 뒤면 그 도구 자체가 인수합병되거나 rebrand 되어 있을 가능성이 높다. 시장의 대세가 사실상 분기마다 바뀌고 있기 때문이다.

그래서 나는, AI를 공부하려는 사람에게 가장 권하고 싶은 것이 “역사 보기”다. ChatGPT가 세상에 나온 2022년 11월 30일을 기점으로, 그 직전 prelude에 해당하는 트랜스포머·BERT·GPT-2 시기부터 시작해서, 지금 우리가 마주하고 있는 Harness Engineering 시대까지. 어떤 모델이 어떤 시점에 어떤 회사에서 나왔고, 그것이 시장의 무엇을 흔들었으며, 그 사건 직후에 사람들이 무엇을 다음 frontier로 바라보았는지. 그 좌표축을 머리속에 가지고 있으면, 새로 나오는 모델이나 도구나 패러다임을 만났을 때 그것이 “어디서 와서 어디로 가는 흐름의 한 점”인지를 자연스럽게 가늠할 수 있다. 거꾸로 좌표축 없이 도구 사용법만 외우면. 그 도구가 사라지는 순간 백지로 돌아간다.

이 글은 그 좌표축을 한 페이지에 압축해보려는 시도다. 아래의 세로 타임라인은 BERT(2018-10)부터 Claude Opus 4.7(2026-04)까지, 내가 중요하다고 판단한 사건들을 시간순으로 묶은 것이다. 각 노드를 클릭하면 더 자세한 맥락이 펼쳐진다. 모델 출시뿐 아니라, 도구·문화·정책·시장 충격까지 같이 묶었다. 다 읽고 나면. 이 산업이 매주 들썩이는 것처럼 보여도, 실은 몇 개의 굵직한 흐름선이 있었다는 것을 보게 될 것이다.

필터
Prelude · 2018 – 2022 · 「I. 모델 탄생기」

트랜스포머가 언어를 삼키기 시작한 시기

대중이 ChatGPT를 알기 4년 전, 트랜스포머는 이미 NLP 학계를 다 정리했고 OpenAI는 GPT-2의 weight 공개를 거부할 정도로 GPT-3로 가는 길을 닦고 있었다. 이 시기의 가장 큰 사건은 모델 출시가 아니라 Anthropic의 분리 창업이다. RLHF·Constitutional AI라는 두 갈래의 alignment 철학이 여기서 갈라진다.

Google 2018 · 10 BERT 공개. 트랜스포머가 NLP의 표준으로 굳어진 순간 model

Google이 발표한 BERT(Bidirectional Encoder Representations from Transformers)는 이전까지 따로 놀던 NLP 태스크들. 질의응답, 감정분석, NER. 을 거의 다 단일 pretrain → finetune 패러다임으로 흡수했다. 이 시점부터 "언어모델은 곧 트랜스포머"가 학계의 기본 전제가 된다. 다만 BERT는 encoder-only라 텍스트 생성은 못 했다. 그 자리를 1년 뒤 GPT-2가 메운다.

OpenAI 2019 · 02 GPT-2. "너무 위험해서 공개 못 한다"는 모델 model

OpenAI는 GPT-2의 1.5B 파라미터 풀버전 weight 공개를 처음엔 거부했다. "악용 위험이 너무 크다"는 이유였다. 지금 시점에서 보면 어색할 정도로 보수적이지만, 그 결정 자체가 "AI 모델 공개는 정치적 사건"이라는 새 카테고리를 만들었다. 단계적으로 풀어주다가 11월에 풀버전 공개. 이때 처음으로 일반인이 "AI가 진짜 글을 쓰네"라고 느꼈다. GPT-3로 가는 다리.

OpenAI 2020 · 05 GPT-3 발표. 175B 파라미터, scaling law의 첫 충격 model

175B 파라미터라는 숫자가 처음으로 학계 밖에서 회자되기 시작했다. weight 비공개·API only 정책. 이 모델이 직접 대중에게 닿진 않았지만, "few-shot prompting"이라는 사용 방식 자체가 이때 표준화된다. 그리고 이 모델의 alignment 방식에 동의하지 못한 사람들이 1년 뒤 OpenAI를 나간다.

Anthropic 2021 · 봄 Anthropic 창업. Dario·Daniela Amodei 외 OpenAI 핵심 인력 집단 분리 culture

OpenAI의 VP of Research였던 Dario Amodei와 VP of Safety & Policy였던 Daniela Amodei 남매를 중심으로, Tom Brown(GPT-3 lead author), Jared Kaplan(scaling laws), Chris Olah(interpretability) 등 OpenAI의 alignment·research 핵심 인력들이 집단으로 나와 Anthropic을 창업한다. 표면적인 이유는 "방향성 차이". 실질적으로는 safety-first 모델 개발이라는 별개의 길을 가겠다는 선언이었다.

이 시점부터 LLM 산업은 두 갈래로 갈라지기 시작한다: OpenAI = product-led, scale-first. Anthropic = safety-led, character-first.

OpenAI 2022 · 01 InstructGPT. RLHF의 첫 상용 적용, ChatGPT의 기술적 부모 model

"GPT-3는 답을 잘 못 한다"는 약점을 RLHF(Reinforcement Learning from Human Feedback)로 풀어낸 첫 사례. 10개월 뒤 ChatGPT가 폭발하게 되는 직접적인 기술 기반이 여기서 만들어진다. 사실상 ChatGPT는 "InstructGPT를 채팅 UI에 끼운 것"에 가깝다. 그래서 OpenAI 내부에서도 처음엔 ChatGPT 출시를 큰 이벤트로 보지 않았다는 후문.

GitHub 2022 · 06 GitHub Copilot GA. AI 코딩이 처음으로 mainstream 도구가 되다 tool

2021년 6월에 technical preview로 등장한 GitHub Copilot이 2022년 6월 21일 GA. OpenAI Codex(GPT-3의 코드 특화 fine-tune)를 백엔드로 쓰며 VS Code의 사이드킥으로 들어왔다. "AI에게 코드를 쓰게 한다"는 행위가 일상화된 시작점. ChatGPT 출시 5개월 전이라는 점이 중요하다. 코딩계는 이미 AI에 한 발 담그고 있었다.

OpenAI 2022 · 07 FIM (Fill-in-the-Middle) 논문 발표. AI + 코딩 결합의 기술적 정초 tool

OpenAI Mohammad Bavarian 외 "Efficient Training of Language Models to Fill in the Middle" 논문 발표(2022-07-28). 문서를 (prefix, suffix, middle)로 쪼개고 <PRE> <SUF> <MID> 토큰으로 재배치해서 학습하면, left-to-right 성능은 그대로 두면서 "커서 앞뒤를 보고 그 사이를 채우는" 능력을 공짜로 얻는다는 발견. 이 단순한 트릭이 코드 자동완성 산업 전체의 기술적 토대가 된다.

이전까지 자동완성은 IntelliSense 류의 statically-typed completion이거나, GPT-3 기반의 left-to-right 생성이었다. FIM 이후, 그리고 2023년에 Code Llama, StarCoder, DeepSeek Coder, Qwen2.5-Coder, Codestral이 모두 FIM을 default로 채택한 이후로 IDE의 ghost text 자동완성은 모두 이 패턴 위에서 작동한다. GitHub Copilot의 autocomplete, Cursor의 Tab, Windsurf의 Cascade preview, Codeium의 모든 suggestion이 사실상 FIM의 후예. "AI가 코드를 짠다"는 일상 경험의 기술적 어머니가 되는 사건.

Act I · 2022.11 – 2023.12 · 「II. 모델 고도화기 (전반)」

ChatGPT 충격, scaling law의 전성기, 그리고 한 해만의 군웅할거

ChatGPT가 5일만에 100만 사용자를 모은 그 직후부터 1년간, AI 시장은 사실상 한 해마다 한 번씩 일어날 만한 사건이 매달 발생했다. Claude, Llama, GPT-4, Gemini, Mistral, Qwen, ChatGLM이 줄줄이 등장하면서 scaling law(파라미터·데이터·compute가 커지면 성능이 예측 가능하게 올라간다)가 산업의 절대 명제로 자리잡는다. Cursor는 IDE를 다시 정의하고 Perplexity는 검색을 다시 정의한다. 1세대 AI 툴들이 모습을 드러내는 시기. 그리고 11월엔 OpenAI 보드가 Sam Altman을 해고했다가 5일 만에 복귀시키는 드라마가 전 산업을 흔든다. 12월엔 Mixtral과 Mamba가 같은 달에 나오면서, 전혀 다른 두 방향에서 트랜스포머의 자만에 균열을 낸다.

OpenAI 2022 · 11.30 ChatGPT 공개. 5일 만에 100만 사용자, 두 달 만에 1억 명 model

OpenAI는 ChatGPT를 "research preview"라고 부르며 큰 마케팅 없이 출시했다. 결과적으로는 인류 역사상 가장 빨리 1억 사용자를 모은 소비자 제품이 된다(2023년 1월 기준). 모델은 GPT-3.5(InstructGPT 계열의 chat-tuned 버전)였고, 결정적인 차이는 모델이 아니라 "무료로, 채팅 UI로, 누구나 접근 가능하다"는 점이었다. 이 시점부터 'AI'라는 단어가 비-개발자 일상어가 된다.

Perplexity 2022 · 12.07 Perplexity 출시. "검색 + LLM"이라는 새 카테고리 tool

Aravind Srinivas(전 OpenAI/DeepMind)가 ChatGPT 출시 1주일 만에 Perplexity의 메인 search engine을 공개. "답에 출처가 있는 LLM"이라는 카테고리가 처음 등장. Google이 가장 빠르게 위협을 느낀 제품. 결국 2024년에 들어서야 Google이 AI Overviews로 응수하게 된다.

Meta 2023 · 02.24 LLaMA 1 공개. 그리고 일주일 뒤 weight 4chan 유출 model

Meta가 7B/13B/33B/65B 사이즈로 LLaMA 1을 발표. 처음엔 academic 연구자에게만 application 기반으로 제공. 3월 3일, weight 전체가 4chan으로 유출된다. Meta는 takedown 요청을 보냈지만 이미 늦었다. 결과적으로 이 사건이 오픈소스 LLM 생태계의 빅뱅이 된다. llama.cpp, alpaca, vicuna가 다 이 weight 위에서 만들어진다.

Anthropic 2023 · 03 Claude 1 첫 공개. "책을 학습한, 사람처럼 대화하는 AI" model

Anthropic이 Claude와 Claude Instant 두 모델을 invite-only로 공개. 이 시점의 Anthropic은 OpenAI와 노골적으로 다른 방향을 잡았는데, 그것이 바로 "사람과 대화하듯 이야기하는 모델"이었다. 단순히 답을 잘 하는 모델이 아니라, 책처럼 긴 호흡을 가지고 페르소나가 일관된 모델. 이를 위해 Constitutional AI라는 alignment 방식을 도입하고, 학습 데이터에 책 비중을 크게 두며, 캐릭터 트레이닝(character training)이라는 별도 단계로 Claude의 톤·가치관·자기 인식을 명시적으로 빚어내기 시작한다.

지금 와서 보면 이 초기 결정이 Anthropic의 모든 후속 제품(Claude Code, Cowork, Skills)을 관통하는 DNA가 된다. "모델 성능"이 아니라 "모델 성격"으로 차별화한 첫 회사.

Cursor 2023 · 03 Cursor 출시. VS Code를 fork해 AI-native IDE를 만들다 tool

OpenAI accelerator 출신의 Anysphere가 Cursor 출시. 단순한 autocomplete 플러그인이 아니라 IDE 자체를 fork한 게 결정적이었다. "AI가 partner인 IDE는 처음부터 다르게 생겨야 한다"는 베팅. GitHub Copilot이 호스트의 보조자라면, Cursor는 host 자체를 다시 설계했다.

智谱 2023 · 03.14 ChatGLM-6B 오픈소스. 중국의 오픈소스 LLM 시대 개막 model

Zhipu AI(현 Z.ai)와 칭화대 KEG가 ChatGLM-130B를 발표하고, 그 day에 ChatGLM-6B를 오픈소스로 풀었다. consumer GPU에서 돌릴 수 있는 첫 중국산 chat LLM. 이때부터 중국 AI 진영은 "frontier 모델은 미국이 만들고, 우리는 오픈소스 모델로 generalization하겠다"는 명확한 전략을 따라가기 시작한다. GLM은 이후 4.5, 4.6, 4.7까지 이어지며 코딩 특화 오픈소스의 한 축이 된다.

OpenAI 2023 · 03.14 GPT-4 출시. 처음으로 "reasoning이 된다"고 느껴진 모델 model

OpenAI는 paper 대신 technical report만 공개했다(파라미터 수·아키텍처·데이터 모두 비공개). 그 데에도 GPT-4는 SAT, BAR, USMLE 같은 인간 시험을 사람 평균 이상으로 푸는 첫 모델이 된다. 이때 "AGI까지 몇 년 안 남은 거 아니야?"라는 정서가 본격적으로 시작된다.

2023 · 03 AutoGPT 광풍. 첫 agent 시대의 헛스윙 tool

GitHub에 올라온 한 개인 프로젝트가 2주 만에 100k star를 달성. "GPT-4한테 목표만 주면 알아서 실행한다"는 컨셉이 바이럴. 실제로는 무한 루프에 빠지거나 엉뚱한 곳에 돈 쓰는 경우가 대부분이었지만, "agent"라는 단어가 처음 대중화된 사건으로 의미가 크다. 진짜 작동하는 agent는 1년 반 뒤 Devin·Claude Code·Cowork에서 나온다.

Alibaba 2023 · 08.03 Qwen-7B 오픈소스. Alibaba가 중국 오픈소스 LLM 패권 경쟁에 본격 참전 model

Alibaba Cloud가 Tongyi Qianwen(通义千问) 시리즈의 첫 오픈소스 모델 Qwen-7B를 풀었다. 이때부터 Qwen은 사이즈·도메인(코딩, 비전, 음성) 별로 가장 다양한 라인업을 가진 오픈소스 family로 자리잡으며, 한국어 출력 품질도 오픈소스 중 최상위권으로 평가받기 시작한다. Qwen3는 2025년 4월 출시.

Anthropic 2023 · 07 Claude 2 출시. 100k context window, Anthropic의 첫 일반 공개 model

Claude 2가 처음으로 모두에게 공개된 Anthropic 모델이 된다. 핵심 셀링 포인트는 100k token context window. 당시 GPT-4가 8k/32k였던 시점에서 12배 이상. long-context는 Anthropic의 영구적 차별점이 된다(2026년 Opus 4.6에서 1M로, 2026년 5월엔 "Infinite Chats" 컨셉으로 진화).

Meta 2023 · 07.18 Llama 2. Meta가 weight 공개를 정책화하다 model

Llama 1이 유출됐을 때 takedown을 보냈던 Meta가, 5개월 만에 Llama 2를 의도적으로 open weight으로 풀었다. 상업 사용 허용. Microsoft를 distribution 파트너로 끼웠다. 오픈소스 LLM이 "조용히 받는 것"에서 "기업이 정식으로 공급하는 것"으로 패러다임이 바뀐 순간.

Mistral AI 2023 · 09 / 12 Mistral 7B → Mixtral 8x7B. 유럽의 답, 그리고 MoE 시대의 본격 개막 model

전 Meta·DeepMind 출신들이 파리에서 창업한 Mistral AI가 9월에 Mistral 7B, 12월에 Mixtral 8x7B(sparse MoE)를 풀었다. Mixtral은 46.7B 총 파라미터 중 token당 12.9B만 활성화하면서 Llama 2 70B를 대부분의 벤치마크에서 이기고 추론 비용은 6배 저렴. "거대 dense 모델 하나가 아닌, 작은 전문가들의 집합으로 frontier에 간다"는 MoE 패러다임이 산업의 주류로 들어선 분기점. 이후 DeepSeek-V3, Qwen3 235B, MiniMax-M1/M2, Kimi K2 모두 MoE 아키텍처를 채택하면서, 2024-2026의 모든 오픈소스 frontier 모델이 사실상 이 흐름의 후계자가 된다.

🐍 2023 · 12 Mamba 논문 발표. 트랜스포머 극복 시도의 첫 진지한 답 model

Albert Gu(CMU)와 Tri Dao(Princeton, FlashAttention 저자)가 발표한 Mamba 논문이 학계를 흔들었다. 핵심은 selective state space model(SSM)으로 attention 자체를 제거하면서 트랜스포머의 quadratic 비용(sequence length의 제곱)을 linear로 풀어낸 것이다. 같은 사이즈 트랜스포머를 언어모델링에서 이기고, 두 배 사이즈 트랜스포머와 동급. 추론 throughput은 5배. "트랜스포머가 마지막 아키텍처일 수 없다"는 오래된 의심에 처음으로 진지한 답이 나온 시점. 후속 흐름으로 Jamba(2024, Mamba + Transformer hybrid), Striped Mamba, Falcon Mamba 등이 이어진다.

2026년 시점에서 frontier 상용 모델 대부분은 여전히 트랜스포머지만, MiniMax의 lightning attention이나 long-context 모델들의 hybrid attention 설계에 Mamba 계열의 영향이 stealth하게 스며들어 있다. 아키텍처 frontier는 한 번 굳어지지 않는다는 사실을 보여준 매우 중요한 milestone.

OpenAI 2023 · 11.06 OpenAI DevDay. GPT-4 Turbo·GPTs·Assistants API 발표 culture

OpenAI의 첫 개발자 컨퍼런스. GPT-4 Turbo(128k context, 3배 저렴), GPTs(custom GPT 스토어), Assistants API(첫 agent 토대) 공개. "OpenAI가 platform 회사로 간다"는 선언. 11일 뒤 보드가 Sam Altman을 해고하는 사건이 발생한다는 점이 후일 흥미로운 대조점이 된다.

OpenAI 2023 · 11.17 – 22 Sam Altman 해고 → 복귀 5일 드라마. OpenAI 보드 쿠데타 실패 culture

11월 17일, OpenAI 보드가 "보드는 더 이상 Sam의 리더십에 신뢰가 없다"는 사유로 Altman을 전격 해고. 5일 동안 회사가 거의 무너질 뻔하다가, 770명 직원 중 700명 이상이 "Sam 안 돌아오면 우리도 그만둔다"는 letter에 서명. Microsoft가 Altman 영입을 시도. 결국 22일에 Altman 복귀 + 보드 교체로 마무리. AI 산업이 'CEO의 의사결정 권한' 측면에서 어떻게 작동하는지를 보여준 사건. 그리고 이때 alignment 진영(Ilya Sutskever 등)의 권력이 사실상 OpenAI에서 빠지는 분기점이 된다.

Google 2023 · 12.06 Gemini 1.0 공개. Google이 Bard 브랜드를 버리다 model

Pichai와 Hassabis가 가상 컨퍼런스에서 Gemini 1.0(Ultra/Pro/Nano)을 발표. 이전까지 Bard로 불리던 모든 Google AI 제품 라인이 Gemini로 통합. 1년 1주일을 ChatGPT한테 끌려다닌 끝의 첫 정식 응수였지만, demo 비디오가 편집됐다는 폭로(Gemini가 실시간으로 그렇게 자연스럽게 답한 게 아니었다)로 인해 신뢰 데미지가 컸다. Google의 진짜 응수는 2025년 Gemini 2.5 Pro와 nano-banana에서 시작된다.

Act II · 2024 · 「II. 모델 고도화기 (후반) → III. agentic 방법론 도래」

Reasoning의 시대, 그리고 agentic 방법론의 첫 표준

2024년 상반기까지는 scaling law가 마지막 전성기를 누린다. 하지만 GPT-4o(05)가 GPT-5로 직진하지 않고 multimodal로 우회한 시점에, 시장은 처음으로 "scaling law가 saturate되는 거 아니야?"라는 의문을 품기 시작했다. 그 답이 9월의 OpenAI o1. reasoning 시대의 본격 개막이다. CoT(chain-of-thought) 같은 기법이 prompt에서 model의 내부 메커니즘으로 흡수된 순간. 7월엔 Llama 3.1이 prompt template에 tool을 박으면서 오픈소스 진영의 tool use 표준이 만들어진다. 11월 25일, Anthropic이 MCP를 발표하면서. 모델 IQ가 아닌 agentic 방법론이 산업의 frontier로 옮겨가는 분기가 시작된다.

Anthropic 2024 · 03.04 Claude 3 Opus / Sonnet / Haiku. 처음으로 frontier에서 GPT-4를 넘은 Claude model

Anthropic이 처음으로 3-tier(가장 똑똑한 Opus / 균형 Sonnet / 빠른 Haiku) 모델 패밀리를 공개. Opus가 MMLU, GPQA 등 핵심 벤치마크에서 GPT-4를 처음으로 명확히 추월. 이때부터 "Claude vs ChatGPT" 가 사용자 선택의 실질 비교가 된다. Sonnet은 이후 가장 사랑받는 daily driver가 된다.

D 2024 · 03.12 Devin 등장. "최초의 AI software engineer" 마케팅 tool

Cognition Labs가 stealth에서 나오면서 Devin 공개. SWE-Bench 13.86% (이전 SOTA의 3배), Upwork에서 실제 일을 수주해서 완수했다는 demo. 영상이 바이럴되며 "개발자 직업이 위협받는다"는 정서가 처음으로 광범위하게 퍼진다. 실제로 일반에 access 풀리는 데는 시간이 더 걸렸고, 1년 뒤 Claude Code가 그 자리를 가져가지만, "AI SWE"라는 카테고리를 마케팅으로 만들어낸 공이 있다.

OpenAI 2024 · 05.13 GPT-4o 출시. GPT-5로 직진하지 않고 multimodal로 우회 model

이 결정이 후일 매우 흥미로운 변곡점이 된다. GPT-4 이후 OpenAI가 GPT-5로 바로 가지 않고, 같은 4세대에 머무르면서 multimodal native(텍스트·음성·비전 동일 모델로 통합)로 옆으로 확장한다. 사실상 ChatGPT의 일상 UX(음성 대화, 카메라로 보고 설명)를 다시 디자인한 사건이다. 이때 시장은 "OpenAI가 5를 못 만드는 거 아니야?"라는 의문을 처음 품기 시작한다. 그리고 4개월 뒤 o1으로 그 의문에 다른 답을 내놓는다.

Anthropic 2024 · 06.20 Claude 3.5 Sonnet. 코딩에서 처음으로 GPT를 압도 model

가격은 그대로, 성능은 Opus 수준. 특히 코딩 벤치마크(HumanEval, SWE-Bench)에서 압도적. 이때부터 "코딩 = Claude"라는 인식이 개발자 사이에 굳어진다. Cursor를 비롯한 IDE들이 디폴트 모델을 Claude로 바꾸기 시작.

SSI 2024 · 06 Ilya Sutskever OpenAI 이탈 → Safe Superintelligence(SSI) 창업 culture

OpenAI 공동창업자이자 보드 쿠데타의 핵심이었던 Ilya Sutskever가 5월 사임 → 6월 SSI 창업. 단 한 가지 목표("safe superintelligence")만을 향한 회사를 만들겠다는 선언. Anthropic 창업(2021)에 이은, OpenAI alignment 진영의 두 번째 대규모 이탈. 이 시점에서 OpenAI 내부 alignment 팀은 사실상 분해된다.

Meta 2024 · 07.23 Llama 3.1 (405B). prompt template에 tool을 박은 첫 오픈소스 모델 model

Meta가 8B / 70B / 405B 세 사이즈로 Llama 3.1을 풀었다. 405B는 GPT-4와 동급 성능에 처음 도달한 오픈웨이트 모델. frontier가 오픈소스로도 도달 가능하다는 증명. 하지만 더 큰 산업적 영향은 다른 곳에 있었다. Llama 3.1이 prompt template에 <|python_tag|>, <|eom_id|>, <|eot_id|> 같은 special token으로 tool calling을 처음으로 표준 prompt 포맷에 박았다는 점이다.

이전까지 tool use는 OpenAI Function Calling이나 LangChain의 ad-hoc wrapper에 의존했다. Llama 3.1의 표준 prompt format이 발표되면서. 그리고 vLLM, llama.cpp 등 모든 inference 서버가 그 포맷을 native로 지원하면서. 오픈소스 진영의 tool use가 standard primitive가 된다. 4개월 뒤 발표될 MCP가 "tool 정의의 표준"이라면, Llama 3.1은 "tool 호출의 표준"을 만들었다. Llama 3.2(09), 3.3(12)으로 이어지며 그 포맷이 계속 진화한다.

OpenAI 2024 · 09.12 OpenAI o1 (Strawberry). reasoning 시대의 본격 개막 model

내부 코드명 "Strawberry"로 알려져 있던 모델이 o1-preview / o1-mini로 공개. "답하기 전에 chain-of-thought를 길게 생성하면서 사고한다"는 새 paradigm. AIME 수학 시험에서 GPT-4o의 13% → o1-preview의 83%. scaling law의 새 축이 열렸다는 평가가 굳어졌고, pretraining뿐 아니라 inference-time compute도 성능을 끌어올린다는 인식이 자리잡는다. 이 발견이 4개월 뒤 DeepSeek R1 충격으로 이어진다.

xAI 2024 · 09 xAI Colossus 가동. 100K GPU 단일 클러스터 culture

Elon Musk의 xAI가 Memphis에 H100 100,000장 단일 클러스터를 122일 만에 구축해서 가동. 당시까지 단일 클러스터로는 세계 최대. "compute가 곧 frontier다"라는 인식이 굳어진 사건. 이후 모든 frontier 회사가 단일 클러스터 규모를 경쟁의 한 축으로 가져간다. Stargate(2025-01)의 직접적 전조.

Apple 2024 · 10 Apple Intelligence 출시. on-device LLM이 OS에 박히다 tool

iOS 18.1과 함께 Apple Intelligence가 일반 사용자에게 풀린다. 핵심은 "클라우드 안 가도 되는 모델이 OS에 들어왔다"는 것. Writing Tools, Summarize, 새 Siri의 ChatGPT fallback. 결과적으로는 처음 출시 시점엔 기대 이하라는 평가가 많았지만, on-device·privacy-first 모델이라는 새 카테고리를 모바일 mainstream에 박은 의미가 크다.

Anthropic 2024 · 10.22 Claude 3.5 Sonnet 업그레이드 + Computer Use. Claude가 마우스·키보드를 잡다 model

업그레이드된 Claude 3.5 Sonnet + 새 Haiku와 함께, Anthropic이 Computer Use 기능을 풀었다. Claude가 스크린샷을 보고 마우스 좌표를 계산해서 클릭하고, 키보드 입력을 한다. 화면이 있는 모든 앱에 agent를 붙일 수 있게 된 시작점. 1년 뒤 Cowork의 기술적 토대가 된다.

Anthropic 2024 · 11.05 Claude Desktop 앱 출시 (Windows/macOS) tool

지금까지 웹에서만 쓰던 Claude가 OS-native 앱으로 내려온다. 처음엔 별거 아니라고 봤던 release지만, 3주 뒤 MCP가 발표되면서 "로컬 파일·로컬 도구와 직접 연결되는 Claude"의 첫 hub가 이 데스크톱 앱이 된다.

Windsurf 2024 · 11.13 Windsurf 출시. Codeium의 IDE 정면 도전 tool

Codeium이 단순 autocomplete 확장이 아니라, Cursor와 정면 경쟁할 standalone IDE Windsurf를 발표. Cascade라는 agent를 IDE의 first-class collaborator로 박아넣었다. 2025년 4월엔 회사명까지 Windsurf로 rebrand. "AI IDE는 단일 카테고리이고 시장은 둘 이상 들어갈 수 있다"는 신호.

Anthropic 2024 · 11.25 Model Context Protocol (MCP) 발표. Anthropic이 표준을 쥐다 protocol

Anthropic이 LLM이 외부 도구·데이터와 연결되는 표준 프로토콜 MCP를 open으로 제안. "agent가 무엇과 연결되어야 하는가"를 회사별 SDK가 아니라 protocol로 풀겠다는 베팅. 처음엔 큰 관심을 못 받았지만, 6개월 뒤부터 OpenAI·Google·Microsoft가 모두 MCP를 native로 지원하기 시작한다. HTTP의 LLM 버전이라는 평가가 굳어진다. 1주년 시점(2025-11)엔 Anthropic이 MCP를 Linux Foundation 산하 Agentic AI Foundation에 donate.

OpenAI 2024 · 12.09 Sora 일반 공개. 영상 생성 시대의 본격 시작 model

2024년 2월에 short demo로만 공개됐던 Sora가 10개월 만에 ChatGPT Pro/Plus에 풀린다. 영상 생성 모델 자체는 기존에도 있었지만(Runway, Pika), OpenAI가 영상 생성을 자기 product line에 박았다는 점이 산업에 미친 영향이 크다. 영상 콘텐츠 산업이 처음으로 "AI가 우리 직접 위협한다"고 느낀 분기점.

Act III · 2025 · 「IV. Agent 시대 개화 → V. Pax Anthropica + SaaS 포비아」

Manus가 연 agent 시대, Claude Code가 굳힌 Pax Anthropica, 그리고 SaaS의 첫 공포

2025년은 두 가지 흐름이 동시에 진행된 해다. 첫째, Agent 시대의 개화. 3월 6일 Manus가 24시간 만에 invitation code가 ¥10만에 거래될 정도로 바이럴되면서, Devin이 1년 전에 마케팅으로 만들어둔 카테고리에 실제 product가 처음 들어선다. 4월의 Google A2A로 agent ↔ agent 통신 표준이 보태진다. 둘째, Pax Anthropica의 시작. 2월 Claude 3.7 + Claude Code preview, 5월 Claude 4 + Claude Code GA, 9월 Sonnet 4.5 + Skills, 11월 Opus 4.5의 80% 가격 인하. Anthropic이 coding부터 enterprise까지 차근차근 한 영역씩 점령해나가는 분기. 동시에 이 시기부터 Salesforce·Workday·ServiceNow 같은 "AI agent가 SaaS의 lock-in을 깰 수 있다"는 SaaS 포비아. 사용자 chapter 2에서 다룬 베니호프 발언이 대표적. 가 industry 공통 화두가 된다.

DeepSeek 2025 · 01.20 DeepSeek R1 출시. 그리고 1주일 뒤 미국 시총 $1T 증발 model

중국 hedge fund 출신 회사가 만든 reasoning 모델이 o1과 거의 동급 성능에 도달, 게다가 weight을 오픈소스로 풀어버렸다. 보고된 학습 비용 $5.6M(공식 수치라 의심하는 사람도 많지만, 어쨌든 수십억 달러는 분명히 아니었다)이 시장을 뒤집어놨다. 1월 27일, NVIDIA 주가 -17%(시총 -$589B, 단일 종목 단일 거래일 최대 손실 기록), 미국 tech 시총 총 $1T 증발. The Hill·Guardian이 "AI 산업의 Sputnik moment"라고 표현. "compute가 곧 frontier"라는 명제에 처음으로 균열이 갔다.

OpenAI 2025 · 01 OpenAI Operator 발표. 첫 native computer use agent tool

OpenAI가 ChatGPT Pro에 Operator를 풀었다. Anthropic Computer Use(2024-10)에 대한 직접 응수. 브라우저를 모델이 직접 조작하면서 일을 처리. 처음엔 실수가 잦았지만, agent UX가 어떤 모양이어야 하는지에 대한 OpenAI의 답을 보여준 사건.

OpenAI 2025 · 01.21 Stargate $500B 발표. Trump + OpenAI + Oracle + SoftBank protocol

Trump 취임 직후, OpenAI·Oracle·SoftBank·MGX가 4년에 걸쳐 $500B를 미국 AI 인프라에 투자하는 Stargate Project를 발표. 즉시 $100B 집행. SoftBank가 재무 책임, OpenAI가 운영 책임. DeepSeek 충격 6일 만이라는 점이 의미심장하다. "compute로 frontier를 지키겠다"는 미국식 답이다. 2025-09엔 5개 신규 데이터센터로 ~7GW까지 확장 발표.

2025 · 02.02 Andrej Karpathy가 "vibe coding"이라는 단어를 트윗에 던지다. AI가 코딩을 본격적으로 잠식하기 시작한 시점의 명명 culture

Karpathy(OpenAI 공동창업자, 전 Tesla AI lead)가 X에 한 줄 트윗을 던졌다. "There's a new kind of coding I call 'vibe coding', where you fully give in to the vibes, embrace exponentials, and forget that the code even exists. It's possible because the LLMs (e.g. Cursor Composer w Sonnet) are getting too good." 본인 표현으로는 "shower of thoughts throwaway tweet" 한 줄이었다. 그런데 이게 산업의 새 단어가 됐다.

이 단어가 단순 신조어 이상으로 의미 있는 이유는, "AI가 코딩을 잠식하기 시작했다"는 개발자 경험상의 paradigm shift를 한 단어로 묶어낸 점이다. 단순히 자동완성이 좋아진 게 아니라, "코드를 신경 쓰지 않고 vibe만 따라가도 동작하는 게 만들어지는 경험"이 처음으로 일상화된 시점. 22일 뒤 Claude 3.7 + Claude Code가 그 단어에 product 형체를 입히고, 1년 뒤 Collins English Dictionary가 2025 Word of the Year로 이 단어를 선정한다.

Anthropic 2025 · 02.24 Claude 3.7 Sonnet + Claude Code preview. vibe coding의 본격화 model

Anthropic이 hybrid reasoning 모델 Claude 3.7 Sonnet과 함께 Claude Code의 research preview를 풀었다. 터미널에서 자연어로 명령하면, Claude가 directly 파일 시스템과 git을 조작하면서 일을 끝낸다. 이것이 Karpathy가 같은 달에 트윗으로 던진 "vibe coding"이라는 단어의 실체가 된다. 5월에 Claude 4와 함께 GA로 풀린다. 이후 1년 동안 Cursor·Windsurf와 함께 개발 워크플로의 표준이 된다.

2025 · 03.06 Manus launch. Agent 시대 개화의 시그널 사건 tool

싱가포르 거점 중국 회사 Butterfly Effect가 일반-목적 agent Manus를 invitation-only beta로 공개. demo 비디오(이력서 스크리닝, 주식 분석, 여행 일정 짜기를 처음부터 끝까지 autonomous로 처리)가 24시간 만에 100만 view를 넘기고, invitation code가 중국 secondary 마켓에서 ¥50,000–100,000 (USD $7,000–13,800)에 거래되는 진풍경. "agent"라는 단어가 2년 전 AutoGPT 광풍 이후 처음으로 real product를 가진 시점이 된다.

Devin이 1년 전(2024-03)에 마케팅으로 만들어둔 카테고리에, Manus가 마침내 실사용 가능한 product를 들고 들어왔다. 6월 MIT Technology Review는 "Manus가 중국 AI agent 붐을 점화시켰다"고 보도. 12월에 Meta가 Manus를 인수하며 Zuckerberg가 직접 founder를 부사장으로 영입. 이 시점이 사실상 Manus가 만든 흐름이 미국 빅테크에 흡수된 분기.

OpenAI 2025 · 03.26 ChatGPT Studio Ghibli 화풍 바이럴. "GPUs are melting" culture

GPT-4o native image generation이 풀리면서, 가족 사진을 지브리풍 anime cell로 바꾸는 트렌드가 X·Instagram·LinkedIn을 일주일 동안 잠식. Sam Altman 본인도 "our GPUs are melting"이라며 rate limit 도입. Hayao Miyazaki의 과거 발언("AI는 생명에 대한 모독")이 다시 회자됨. 일반 대중이 image generation을 "API가 아니라 SNS 놀이"로 받아들인 첫 사건.

Google 2025 · 04.09 Google A2A + ADK 발표. orchestration 시대의 선언 protocol

Google Cloud Next에서 Agent2Agent(A2A) 프로토콜과 Agent Development Kit(ADK)를 발표. MCP가 "agent ↔ tool"이라면, A2A는 "agent ↔ agent". 150개 이상 organization이 즉시 지원 표명(Atlassian, Box, Salesforce, ServiceNow, SAP 등). 6월엔 Linux Foundation에 donation. "orchestration"이 그 해의 industry 키워드가 된 분기점.

Alibaba 2025 · 04.28 Qwen3 family 출시. Apache 2.0, 한국어 강자 model

Alibaba가 Qwen3 시리즈 전체를 Apache 2.0으로 공개. 0.5B부터 235B MoE까지 가장 다양한 사이즈 라인업. 한국에서 local LLM 셋업할 때 사실상 default 선택지. 한국어 출력 품질이 오픈소스 중 압도적으로 자연스럽다. Mac mini local LLM 트렌드의 핵심 모델 family.

Anthropic 2025 · 05 Claude 4 (Opus 4 / Sonnet 4) + Claude Code GA model

Anthropic의 4세대 모델. SWE-Bench Verified 70%대 진입. 함께 Claude Code가 GA로 풀린다. 이 시점부터 "Claude Code는 그냥 개발자의 기본 셋업"이 된다. Cursor·Windsurf는 모델로 Claude를 쓰고, 터미널에선 Claude Code 자체를 쓴다.

Google 2025 · 06.17 Gemini 2.5 Pro 출시. 1M token context window model

Google의 응수가 본격적으로 통하기 시작한 시점. reasoning 능력 강화 + 1M token context. 코드 베이스 전체를 한 번에 context로 넣을 수 있다는 셀링 포인트가 enterprise·coding에 어필. (참고: 1M token context 자체는 Gemini 1.5 Pro에서 먼저 도입됐지만, "reasoning + 1M"을 함께 production 품질로 들고 온 첫 모델은 2.5 Pro.)

MiniMax 2025 · 06 MiniMax-M1 오픈소스. 1M context, hybrid attention model

상하이 MiniMax가 1M input / 80k output token context를 가진 hybrid MoE 모델을 Apache 2.0으로 풀었다. 456B 총 파라미터 / 45.9B active. lightning attention이라는 효율적 attention 변형으로 long context 비용을 크게 낮춤. 중국 오픈소스가 frontier-class context 경쟁에 본격 진입.

2025 · 06 – 07 Gemini CLI · Qwen Code · OpenAI Codex CLI. Claude Code 카테고리의 모방·확산 폭발 tool

Claude Code(2025-05 GA)가 만든 "터미널 안에서 사는 agentic coding CLI" 카테고리에, 4개월 만에 빅테크들이 일제히 자기 버전을 들고 들어온다. 6월: Gemini CLI(Google, Apache 2.0, Gemini 2.5 Pro 백엔드, 1M context). 7월: Qwen Code(Alibaba, Gemini CLI fork에 Qwen3-Coder를 끼움). 같은 시기 OpenAI Codex CLI가 풀리며 GPT-5 백엔드로 동일 카테고리 진입. 이후 Aider, Cline, Goose, Block의 자체 CLI, Sourcegraph Amp 등. 2026년 시점에 누적 30개 이상의 CLI agent가 시장에 나온다.

이 흐름이 의미하는 바는 분명하다. 코딩 도구의 frontier가 IDE plugin에서 terminal CLI로 옮겨갔다는 것. Cursor/Windsurf가 IDE-native AI를 만들었다면, Claude Code 이후의 흐름은 "IDE를 거치지 않고 터미널에서 직접 agent와 일한다"는 더 raw한 모양이다. 이 분기에서 vibe coding의 default UX도 IDE chat에서 CLI prompt로 옮겨갔다.

Moonshot AI 2025 · 07 Moonshot Kimi K2. 1조 파라미터 오픈소스 MoE model

Moonshot AI가 1T 총 파라미터 / 32B active MoE 모델을 modified MIT 라이센스로 공개. 코딩 벤치마크에서 강한 성능. 9월에 K2-Instruct-0905로 context를 128k → 256k로 확장. 2026년 1월엔 multimodal Kimi K2.5 출시. 중국 오픈소스 진영이 frontier에 도달했다는 가장 명확한 시그널.

OpenAI 2025 · 08.05 gpt-oss-120b / 20b. OpenAI가 오픈소스로 돌아오다 model

OpenAI가 GPT-2 이후 6년 만에 처음으로 weight을 풀었다. Apache 2.0. 120b는 단일 80GB GPU에서 돌아가며 o4-mini급 reasoning, 20b는 16GB device에서 돌아가며 o3-mini급. DeepSeek/Llama/Qwen에 밀려가던 미국 오픈소스 진영의 카운터펀치. 그리고 회사 이름 "Open"AI를 6년 만에 일부 회수한 행보.

OpenAI 2025 · 08.07 GPT-5 출시. 2년 반 만의 메이저 버전 점프 model

GPT-4(2023-03) 이후 GPT-4o, o1, o3로 우회하면서 미뤄왔던 메이저 버전이 마침내 도착. 400K token context. 핵심은 "빠른 모델 + reasoning 모델 + 라우터" 세 가지를 하나로 통합한 시스템이라는 점. 사용자가 reasoning을 켜고 끄는 게 아니라, 모델이 알아서 선택한다. ChatGPT의 기본 UX가 이때부터 다시 디자인된다.

Google 2025 · 08.26 Nano Banana (Gemini 2.5 Flash Image). 이미지 편집의 새 표준 model

Google이 코드네임 "nano-banana"로 lmarena에서 익명 테스트하던 이미지 모델이 Gemini 2.5 Flash Image로 정식 공개. character consistency가 압도적이라 SNS·콘텐츠 크리에이터 사이에서 단숨에 default 이미지 모델이 된다. 11월에 Pro, 2026년 2월 26일엔 Nano Banana 2까지 이어진다.

Anthropic 2025 · 09 Claude Sonnet 4.5. coding 가성비 모델의 정착 model

Sonnet 4.5는 coding과 agent task에서 Opus 4를 잡는 가성비. "frontier 성능을 Sonnet 가격에"라는 Anthropic의 tier 전략이 완전히 자리잡은 시점. Cursor·Windsurf·Cline·Claude Code의 default 모델이 거의 전부 Sonnet 4.5로 옮겨간다.

Anthropic 2025 · 10.16 Claude Skills 발표. MCP의 한계를 보완하는 또 하나의 표준 protocol

Anthropic이 Skills 발표. MCP가 "agent가 외부 세계에 접근하는 방법(connectivity)"의 표준이라면, Skills는 "agent가 어떤 일을 잘 하는 방법(expertise)"의 표준이다. 마크다운 파일 하나(SKILL.md)에 task별 instructions·system prompt·필요 도구·예시를 묶어두면, Claude가 task 매칭시 자동으로 그 manifest를 로드해서 실행. Skills는 progressive disclosure 패턴으로. 필요할 때만 로드되어 context window를 효율적으로 쓴다.

이 발표가 흥미로운 이유는. Anthropic이 자기가 만든 MCP의 약점을 자기가 만든 Skills로 메우는 흐름이라는 점이다. MCP만 가지고 agent를 짜본 사람들은 곧 깨닫는다: tool 접근은 됐지만 "언제·왜·어떻게" tool을 쓸지의 expertise가 없다는 문제. 그것을 context로 매번 prompt에 넣자니 비효율적이고, system prompt에 박자니 task별로 다 다르다. Skills는 그 빈 자리를 채운다. Simon Willison은 "Skills가 MCP보다 더 큰 deal일 수 있다"고 평가. 12월 18일엔 Agent Skills를 open standard로 풀며. MCP 때와 같은 표준 전략을 한 번 더 시도한다.

이 시점부터 산업 화두가 정확히 "prompt engineering → context engineering → skill engineering / harness engineering"의 흐름으로 이동한다는 게 분명해진다.

OpenAI 2025 · 10 OpenAI Aardvark (→ Codex Security). frontier 모델, 사이버 보안 전선에 본격 진입 tool

OpenAI가 Aardvark 발표. GPT-5 기반의 autonomous security researcher. repo와 commit을 모니터링하면서 취약점을 발견·검증·exploit 시연·patch까지 자동 처리하는 agent. fuzzing 같은 전통 program analysis가 아니라 LLM의 reasoning + tool use로 코드 행동을 이해하고 취약점을 찾는다는 점이 새로움. "golden" repository 벤치마크에서 known·synthetic 취약점의 92%를 발견.

이후 Aardvark이 Codex Security로 rebrand되어 Codex(웹) 안에 직접 박힘. ChatGPT Enterprise·Business·Edu에 first-class feature로 풀린다. 이 분기에서 명확해진 게 있다. frontier 모델의 다음 차별화 축 중 하나가 "보안"이라는 것. Anthropic의 6개월 뒤 Mythos Preview가 같은 라인의 두 번째 사건.

OpenAI 2025 · 09.30 Sora 2 + iOS 앱 출시 model

OpenAI가 영상 모델 Sora 2를 독립 iOS 앱과 함께 출시. 짧은 영상을 SNS 피드 형태로 소비하게 디자인. TikTok·Reels의 AI native 대안 시도. 결과적으로는 2026년 4월에 앱이 sunset되며 short-form AI 영상의 첫 실험은 실패로 마무리되지만, "AI 영상이 일상 콘텐츠가 될 수 있는가"라는 질문을 가장 본격적으로 던진 시도였다.

MiniMax 2025 · 10.27 MiniMax-M2. 오픈웨이트 SOTA 등극 model

230B 총 파라미터 / 10B active. Artificial Analysis의 독립 평가에서 모든 open-weight 시스템 중 1위(Intelligence Index 기준). MIT 라이센스. 중국 오픈소스가 "frontier-adjacent"에서 "frontier"로 한 단계 더 올라간 시점.

Anthropic 2025 · 11.24 Claude Opus 4.5. 가격을 80% 깎으며 월가를 정조준 model

Opus 4 대비 성능은 향상, 가격은 $5/$25 per M tokens으로 80% 인하. Opus 4의 $15/$75에서 대폭. 동시에 "Infinite Chats"라는 context window 자동 관리 기능 도입. 이 가격으로 finance·legal·consulting 등 token-heavy 엔터프라이즈가 Claude로 대거 이동하기 시작. "Wall Street Claude 쇼크"의 시작점. 두 달 뒤 Cowork가 launch되며 그 흐름이 완성된다.

🐾 2025 · 11 ClawdBot 첫 release (Peter Steinberger). 후일 OpenClaw가 된 그 프로젝트 tool

전 PSPDFKit 창업자 Peter Steinberger가 "Claude API key를 가지면 어떤 환경에서도 Claude Code-급 에이전트를 돌릴 수 있다"는 컨셉의 오픈소스 CLI를 Clawdbot이라는 이름으로 공개. Anthropic의 trademark 클레임으로 2026-01-27 Moltbot, 3일 뒤 OpenClaw로 rename. 이게 2026년 봄의 "OpenClaw 대란 + Mac mini 품절 사태"로 이어진다.

Act IV · 2026.01 – 2026.05 · 「VI. 개인화 Agent의 시대」

Harness 시대. OpenClaw 대란과 책상 위 Mac mini, 모두가 자기 agent를 갖는 분기

2026년의 메인 키워드는 harness engineering이고, 그 product 형태는 개인화 agent다. 모델 자체의 IQ보다, 그 주변의 instructions·tools·memory·feedback loops 다섯 레이어를 어떻게 짜느냐가 agent의 실력을 결정한다는 관찰. Hermes Agent가 그 화두를 명확히 만들었고, OpenClaw 대란이 그것을 일반 사용자가 책상 위 Mac mini에서 자기 agent를 24/7 돌리는 차원으로 끌어내렸다. Anthropic은 Cowork·Opus 4.5/4.6/4.7로 enterprise를 정조준하고, harness 진영은 그것을 individual로 가져온다. 그리고 4월의 OpenClaw 별도 결제 정책은. 모델 회사와 harness 회사 사이의 첫 권력 전선이 그어진 순간이다.

Anthropic 2026 · 01.12 Claude Cowork research preview. Claude Code의 office worker 버전 tool

Claude Code가 개발자용 agent였다면, Cowork는 office worker용 agent. 데스크톱에서 로컬 파일과 앱을 직접 조작해서 multi-step 업무를 끝낸다. 2월부터 Google Drive, Gmail, DocuSign, FactSet, Zoom 등 enterprise 도구와 연동. 이게 풀린 직후 CNBC가 "Anthropic이 평균적인 office worker의 생산성을 끌어올리는 도구를 만들었다"고 보도. Opus 4.5의 가격 인하와 결합되어 finance·consulting 영역의 Claude 도입을 폭발시킨다. 월가 Claude 쇼크의 완성형.

🐾 2026 · 01.27–30 Clawdbot → Moltbot → OpenClaw rename 드라마 tool

Anthropic이 trademark 클레임을 보내면서 Clawdbot이 Moltbot으로(01-27), 3일 뒤 다시 OpenClaw로 rename(01-30). 한 주 안에 두 번의 rename. Hacker News와 X에서 매번 1면을 차지. "Claude API key 하나로 어떤 환경에서도 Claude Code-급 에이전트를 돌릴 수 있다"는 컨셉 자체가 그 사이에 일반 개발자에게 각인된다. 이게 두 달 뒤 4월의 큰 사건들의 도화선이 된다.

Anthropic 2026 · 02.05 Claude Opus 4.6. 1M context window 도입 model

Anthropic이 처음으로 Opus 라인에 1M context window를 도입. Gemini 2.5 Pro가 가져갔던 long-context 우위를 Claude도 따라잡음. Cowork와 결합되어 "긴 문서·전체 코드베이스·전체 회사 데이터"를 한 번에 context에 넣는 사용 패턴이 본격화된다.

2026 · 02.25 Hermes Agent 출시 (Nous Research). harness engineering 시대의 깃발 tool

Nous Research가 "self-improving agent"를 표방한 오픈소스 harness Hermes Agent를 release. "모델을 고정시키고 그 주변(instructions, constraints, feedback loops, memory, orchestration)만 바꾸면 agent의 실력이 얼마나 달라지는가"를 LangChain 팀이 실험으로 보여주면서, "harness engineering"이라는 단어가 industry 키워드로 굳어진다. Hermes는 그 흐름의 가장 야심찬 답. 7주 만에 GitHub star 95k+, 두 달 뒤 v0.9 "everywhere release". 2026년 가장 빠르게 성장한 오픈소스 agent framework.

Google 2026 · 02.26 Nano Banana 2. Gemini chat·Search·Lens 전방위 통합 model

Nano Banana Pro의 품질 + Gemini Flash의 속도를 결합한 Nano Banana 2를 발표. Gemini chatbot, Search AI Mode, Lens 모두에 통합. image generation이 별도 product가 아니라 "검색의 일부", "카메라의 일부"가 되는 분기점.

Apple 2026 · 봄 Mac mini 품절 대란. OpenClaw 열풍이 만든 글로벌 hardware shortage culture

OpenClaw + Ollama로 "Claude API key + 로컬 Qwen3·Kimi K2 하나로 24/7 개인 비서 서버를 돌린다"는 셋업이 바이럴. 전성비 좋은 M4 Mac mini가 글로벌하게 품절. 한국 중고시장(번개장터·당근)에서 시세가 정가를 넘기는 역전 현상, Apple 공식 스토어 출고 지연, 쿠팡·다나와 가격 상승. "AI 서버 = 데이터센터"라는 mental model이 "AI 서버 = 책상 위 Mac mini"로 빠르게 옮겨간 한 분기.

Anthropic 2026 · 04.04 Anthropic, OpenClaw 별도 결제 정책. third-party harness 비용 분리 culture

Claude Code 구독 한도로 OpenClaw·NanoClaw 같은 third-party harness를 사용하는 것이 4월 4일부터 금지된다고 Anthropic이 발표. pay-as-you-go로 별도 결제 필요. 6일 뒤(04-10) Steinberger가 일시 차단됐다가 풀림. 14일에 Steinberger의 OpenAI 합류 발표. "모델 회사가 자기 모델 위의 harness 생태계를 어디까지 허용할 것인가"라는 정책 문제가 처음으로 산업 화두로 떠오른 분기.

Anthropic 2026 · 04.07 Claude Mythos Preview + Project Glasswing. Opus 위 새 tier, 그리고 사이버 보안 컨소시엄 model

Anthropic이 Opus 위의 새 모델 tier Claude Mythos Preview를 발표. Opus의 업그레이드가 아닌 별개 tier로 자리매김. 일반 공개는 하지 않고. Project Glasswing이라는 산업 컨소시엄에만 gated research preview로 풀린다. AWS·Apple·Microsoft·Google·CrowdStrike·Palo Alto Networks 등 약 40개 기업이 founding member로 참여.

Mythos가 일반 공개되지 않은 이유는 매우 구체적이다. 발표 직전 몇 주 동안 Anthropic이 Mythos로 모든 메이저 OS와 모든 메이저 웹 브라우저에서 수천 개의 zero-day 취약점을 발견했기 때문이다. "AI 코딩 능력이 인간 보안 전문가의 거의 모든 영역을 넘어선 시점이 도래했고, 그 능력을 가진 frontier 모델을 일반 공개하는 것이 더 이상 안전하지 않다"는 게 Anthropic의 framing.

이 사건이 의미하는 바는 분명하다. frontier 모델은 이제 "어디까지 풀 것인가"가 IQ보다 더 중요한 질문이 된다. 그리고 사이버 보안이라는 영역이. 6개월 전 OpenAI Aardvark에 이어. frontier 진영 전선에 본격 자리잡았다. 이게 chapter 3의 마지막 시점에서 일어난 가장 의미심장한 사건이다.

Anthropic 2026 · 04.16 Claude Opus 4.7 GA. 현재 시점의 frontier model

1M context window 그대로 유지하면서 coding·long-horizon agent task에서 추가 개선. 이 글을 쓰고 있는 2026-05-11 시점에서 가장 최신의 Opus. GitHub Copilot이 4월 16일부터 Opus 4.7을 generally available로 지원하기 시작. 어느 IDE에서도 Claude를 default로 쓸 수 있는 상태가 완성된다.

이 좌표축에서 지금 어디에 와 있는가

타임라인을 다 본 사람은 한 가지가 자연스럽게 보일 것이다. 2022년 11월부터 2024년 가을까지의 약 2년이 모델 자체의 시대였다면, 2024년 11월의 MCP 발표를 분기로 산업의 관심이 모델을 둘러싼 것으로 옮겨갔다는 점이다. 도구(IDE, agent, CLI), 프로토콜(MCP, A2A, Skills), context engineering, 그리고 마지막으로 harness engineering. 모델 IQ는 여전히 매 분기 오르고 있지만, 그것 하나로 차별화가 되지 않는 시기로 들어섰다.

조금 더 큰 호흡으로 묶으면, 지금까지 LLM이 걸어온 길은 다음의 일곱 단계로 정리된다. 일종의 한 산업이 새 layer를 발견하고 그것을 commodity로 보내고 다시 그 위 layer로 올라가는. 익숙한 곡선이다. 컴파일러가 commodity가 된 뒤 OS 엔지니어링이, OS가 commodity가 된 뒤 framework 엔지니어링이, framework가 commodity가 된 뒤 product 엔지니어링이 각자의 시대를 가졌던 것과 동일한 패턴.

Stage I

모델 탄생기

2018 – 2022

BERT · GPT-2/3 · Anthropic 분리 창업 · InstructGPT(RLHF) · GitHub Copilot · FIM

Stage II

모델 고도화기

2022.11 – 2024 가을

ChatGPT 충격 · scaling law의 전성기 · GPT-4 · Claude(책·페르소나) · CoT/ReAct/ToT · Cursor·Perplexity(1세대 AI 툴) · MoE(Mixtral) · Mamba · o1 reasoning 시대 개막

Stage III

모델 saturation, agentic 방법론 도래

2024.07 – 2025.04

Llama 3.1(tool calling 표준) · MCP(Anthropic) · Computer Use · A2A + ADK(Google) · context engineering이 prompt engineering을 대체

Stage IV

Agent 시대 개화

2025.02 – 2025.06

Devin이 만든 카테고리에 Manus가 첫 real product · Operator · Claude Code preview→GA · Cursor/Windsurf의 agent 전환

Stage V

Pax Anthropica + SaaS 포비아

2025.05 – 2026.02

Claude Code GA · Skills(MCP 보완) · Opus 4.5 가격 80% 인하 · Cowork · 월가 Claude 쇼크 · CLI 우후죽순(Gemini/Qwen/Codex) · Salesforce·Workday의 SaaS lock-in 위협

Stage VI · 지금

개인화 Agent + 사이버 보안 frontier

2026.01 – 2026.05

OpenClaw 대란 · Mac mini 품절 · Hermes Agent(harness engineering) · 책상 위 24/7 personal agent · 모델사 ↔ harness 첫 권력 전선 · Aardvark / Mythos + Project Glasswing. 사이버 보안이 frontier 새 차별축

Stage VII

What's Next?

2026.06 –

harness ↔ model 권력 균형의 정착? · agent-to-agent 경제? · 개인 AI 서버의 mainstream화? · 그리고. 우리가 아직 이름 붙이지 못한 다음 layer

이 다이어그램을 보면 두 가지가 동시에 보인다. 첫째, 각 stage 사이의 transition은 항상 “이전 layer가 충분히 commodity가 된 뒤에 그 위 layer로 올라가는” 모양이라는 것. Stage III가 시작된 건 모델 IQ가 saturate되기 시작한 시점이고, Stage VI가 시작된 건 Claude API key 자체가 사실상 commodity가 된 시점이다. 둘째, 이 곡선이. frontier 모델 IQ가 빠르게 commodity로 가고 있다는 사실(Opus 4.5의 80% 가격 인하, gpt-oss·DeepSeek·Qwen·MiniMax의 무료 SOTA)과 결합되면. Stage VII가 이미 머리를 빼고 있다는 것을 짐작케 한다.

이 모든 흐름 위에 또 하나의 흐름이 겹친다. SaaS 포비아다. Stage V에서 본격적으로 시작된 이 정서는, Anthropic Cowork이 Google Drive·Gmail·DocuSign·FactSet과 직접 연결되는 모양으로 풀리는 순간부터. Salesforce·Workday·ServiceNow 같은 enterprise SaaS의 lock-in이 “agent가 그냥 우회한다”는 새 위협에 노출됐다는 인식이 굳어진다. 이전 chapter에서 다룬 베니호프의 발언이 그 정서의 표면이다. 이 흐름이 Stage VII에서 어떻게 풀릴지. SaaS가 agent-native로 변신할지, 아니면 agent에게 자리를 내줄지. 가 다음 1–2년의 가장 큰 enterprise 화두가 될 것이다.

그래서 지금 이 산업을 따라가려는 사람에게 내가 권하고 싶은 관찰 좌표는 다음 세 가지다. 첫째, frontier 모델 IQ보다 harness의 정교함이 product 품질의 더 큰 부분을 설명하게 될 것. 둘째, “내가 어떤 모델을 쓴다”보다 “내가 어떤 context·tool·memory 시스템 안에서 일한다”가 개인 생산성의 더 큰 결정 요인이 될 것. 셋째, 모델 제공자(Anthropic/OpenAI/Google)와 harness 제공자(Hermes, OpenClaw, LangChain 등) 사이의 권력·정책 전선이 다음 분기 가장 흥미로운 산업 이슈가 될 것. Anthropic의 OpenClaw 별도 결제 정책은 그 전선의 첫 작은 충돌이었다.

마지막으로. 사용 도구가 매주 바뀌고 모델이 매월 바뀌어도, 이 일곱 단계의 좌표축은 좀처럼 변하지 않는다. 새 모델이 나왔을 때 “이건 어떤 시기의 어떤 흐름선의 어디쯤인가?”를 묻는 습관 하나만 들이면, 평생 이 산업의 관찰자로 살아갈 수 있다.

그럼 다음은 무엇일까?

AI는 산업이다. 따라서 우리는 각 Frontier Labs들이 어떤 이야기를 하고있는지를 들어봐야 한다. 운이 좋게도, 유튜브와 LinkedIn, tweet의 시대에 우리는 그들의 이야기를 보다 쉽게 접할 수 있음을 감사히 여겨야 한다. 이에 대해서는 다음 posting에서 정리해보려고 한다.

본 글의 타임라인은 내가 중요하다고 판단한 사건들로 의도적으로 큐레이션된 것임을 솔직히 고백한다. 같은 시기에 일어났지만 빠진 사건(EU AI Act 통과, NVIDIA Blackwell, Microsoft Recall, Adobe Firefly, ElevenLabs, Replit Agent, 한국의 Naver HyperCLOVA X, Kakao Kanana 등)도 많고, 그 부재 자체가 나의 관심 편향을 드러낸다. 또 이 글은 Anthropic 색채가 짙은데, 이는 내가 Claude를 주력으로 쓰는 FDE라는 사실의 자연스러운 그림자다.