인공지능이 인간의 지능을 추월했다는 마케팅 문구는 이제 지겹다. GPT-5.4가 나왔을 때, 클로드 4.7이 등장했을 때 언론은 약속이라도 한 듯 '인류의 마지막 발명품' 운운하며 호들갑을 떨었다. 나 역시 한때는 그 화려한 벤치마크 점수에 취해 있었다. MMLU 95점, GDPVal 만점... 숫자만 보면 이미 기계가 세상을 통치해야 마땅한 수준이니까.
하지만 실제 프로젝트에 투입해 본 사람들은 안다. AI서비스가 생각보다 실제로 업무에 써먹기 매우 힘들다는 것을.

최근 학계를 뒤흔든 '잡벤치(JobBench)' 쇼크는 이런 내 의구심이 단순한 기분 탓이 아니었음을 수치로 증명해 버렸다.
시험 문제만 잘 풀던 전교 1등이 실제 회사 현장에 던져지자마자 복사기 작동법도 몰라 쩔쩔매는 꼴을 목격한 셈이다.
이 굴욕적인 데이터의 실체를 뜯어보고 나면, 우리가 왜 아직도 AI 비서에게 똑같은 말을 세 번씩 반복해야 하는지 그 근본적인 이유를 깨닫게 될 것이다.
패턴 매칭의 한계: 왜 AI는 '진짜 일'을 못하는가
잡벤치(JobBench)의 설계 원리는 잔인할 정도로 현실적이다. 기존 벤치마크들이 정제된 데이터셋에서 정답을 찾는 능력을 측정했다면, 잡벤치는 '맥락이 꼬이고, 정보가 누락되었으며, 이해관계자가 복잡하게 얽힌' 실제 실무환경을 그대로 모사한다.
예를 들어보자. "A 부장님이 지난번에 말한 그 프로젝트 예산안을 B 팀장님 의견 반영해서 수정하고, C 과장님한테는 비밀로 한 채로 이메일 보내줘"라는 지시가 있다고 치자.
보통 사람에게는 흔한 직장 생활의 풍경이지만, AI에게 이것은 지옥이다. 여기서 '지난번에 말한 프로젝트'가 무엇인지, 'B 팀장님의 의견'이 텍스트로 명시되지 않은 맥락은 무엇인지, 왜 'C 과장님'에게는 비밀이어야 하는지... 이 모든 '암묵적 지식(Tacit Knowledge)'의 벽 앞에서 90점짜리 AI 모델들은 30점대로 추락했다. 이것이 바로 지능의 민낯이다. 기계는 지식을 가진 게 아니라, 지식의 '패턴'을 복사하고 있을 뿐이다.
이쯤에 우리는 지능의 본질에 대해 다시 고민해 봐야 한다.
잡벤치가 폭로한 것은 단순히 AI의 성능 부족이 아니다.
우리가 그동안 '지능'이라고 믿어왔던 벤치마크 테스트 자체가 얼마나 인간의 실제 업무 능력과 동떨어진 가짜였는지를 폭로한 것이다.
Reddit의 개발자 커뮤니티에서 "AI는 시험만 잘 보는 찐따"라는 조롱이 자주 보인다.
실무자들은 이미 몸소 느끼고 있었던 괴리감을 수치가 증명해 준 것이다. 우리가 매번 느끼고 있지 않은가?
지저분한 실무의 벽: 에이전틱 AI의 거대한 절벽
단순히 텍스트를 생성하는 단계를 넘어, 스스로 판단하고 행동하는 '에이전틱 AI(Agentic AI)'로 가기 위해 우리가 넘어야 할 산은 생각보다 훨씬 거대하다.
학계에서는 이를 '비선형적 의사결정의 늪'이라고 부른다. 업무는 선형적이지 않다.
A를 하면 B가 나오고, B를 하면 C가 되는 구조가 아니다. A를 하다가 갑자기 상사가 마음을 바꾸고, 데이터에 오류가 발견되며, 동료와의 감정적 마찰로 인해 경로가 수정되는 아수라장이 실제 업무다.
AI가 잡벤치에서 고전하는 진짜 이유는 '불확실성에 대한 대처 능력'이 전무하기 때문이다. 기계는 '데이터'가 없으면 멈춘다. 하지만 인간은 데이터가 없어도 '직관'과 '정무적 판단'으로 밀고 나간다.
이 격차를 좁히지 못하는 한, GPT-6, GPT-7이 나와도 당신의 일자리는 안전하다.
아니, 오히려 고도의 맥락 파악이 필요한 영역의 가치는 더욱 치솟을 것이다. 기술 만능주의에 빠진 빅테크 기업들이 잡벤치 결과를 애써 무시하거나 축소하려 드는 태도가 현실에서 여지없이 무너져내리는 이유이기도 한 것일 것이다.

물론 반론도 있을 수 있다. 데이터가 더 쌓이면, 혹은 에이전트 환경에서 더 많은 시행착오를 겪으면 해결될 문제라고 말이다.
나도 한때는 그렇게 낙관했다. 하지만 인간의 업무 환경은 고정된 게임판이 아니다. AI를 써가며 '내가 GPT에게 물어봤는데, 그렇다는데?'하고 사고를 멈춰버리고 다른 문제를 일으키는 상사나, 'GPT에게 물어봤더니 그렇대/아니래'라고 쉽게 자신의 문제를 결정지어버리고 생각하는 에너지를 절약하는 지인들을 보면, 사고의 외주가 얼마나 빠르게 진행되는지 새삼 다시금 느낀다.
아니지 '내가 GPT에게 누군가의 사주를 넣고 물어봣는데, 생각보다 잘 맞춰서 놀랐어!'라고 재미롭게 이야기하는 사람들을 보며 확신한다. 사고의 외주는 시대가 만드는 것이 아닌 오히려 인간이 장려하고 희망하는 것이 맞는 것 같다. 나는 절대 그런 사람들이 이상하거나 사고가 무디다고 생각하지 않는다. 나 또한 그런 정보를 보고 헤헤거리며 소비하기는 매 한가지이기 때문이다.
우리가 AI를 위해 환경을 정제하지 않는 한, AI는 영원히 인간이 떠넘긴 '지저분한 뒤처리'의 늪에서 허우적댈 것이다. 지금 우리가 목격하는 것은 기술의 진보가 아니라, 지능의 정의가 재편되는 과정이다.
공부를 위한 self-FAQ
그렇다. 심지어 코드 생성 능력에서 만점에 가까운 모델들도 잡벤치의 '실전 프로젝트 관리' 섹션에서는 40점을 넘기지 못했다. 이는 암기력(Knowledge Retrieval)과 실무 지능(Applied Reasoning)이 완전히 다른 차원의 능력임을 시사한다.
단순한 파라미터 증설로는 해결이 불가능하다는 것이 중론이다. '롱 컨텍스트(Long Context)'를 단순히 읽는 것을 넘어, 수천 개의 파편화된 정보 사이에서 '우선순위'를 동적으로 재할당하는 메타 인지적 아키텍처가 도입되어야 한다. 현재의 트랜스포머 구조만으로는 한계가 명확하다.
거품이라기보다는 '냉정한 현실 자각(Reality Check)'에 가깝다. AI가 모든 것을 해줄 것이라는 환상에서 벗어나, AI가 잘하는 것(정형 데이터 처리)과 인간이 잘해야만 하는 것(모호한 맥락의 조율)을 명확히 구분하는 계기가 될 것이다. 투자 시장에서는 '진짜 실무 에이전트'를 가려내는 선별 작업이 시작될 것이다.
출처
University of Washington releases "JobBench: Aligning Agent Work with Human Desire"
https://action.ucsb.edu/news/university-washington-releases-jobbench-aligning-agent-work-human-desire
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
https://openreview.net/forum?id=LZnKNApvhG
Future of Work with AI Agents
https://futureofwork.saltlab.stanford.edu/
'과학' 카테고리의 다른 글
| 금리 인상 전환점의 예금 재테크 전략, 파킹통장 분산 유동성 메커니즘 (0) | 2026.06.17 |
|---|---|
| 블록체인의 심장: 가상화폐 거래소 초고속 매칭 엔진과 분산 합의 알고리즘의 컴퓨터 과학적 분석 (0) | 2026.06.15 |
| 올해 여름 왜 안 더울까? 차가운 동풍이 숨긴 게릴라 폭우의 시그널 (0) | 2026.06.10 |
| 기계가 쓰고 기계가 심사한다: AI 가짜 논문과 학문적 신뢰의 종말 (0) | 2026.06.09 |
| 얼려진 뇌가 다시 신호를 보낼 때: 2026년 과학의 도발 (0) | 2026.05.26 |