
생성형 AI 열풍이 시작된 지 이미 여러 해가 지났지만, 여전히 X나 링크드인에 올라오는 대부분의 사례는 소비자용 데모 수준에 머물러 있다. 물론 챗GPT 프롬프트 몇 줄만으로도 뛰어난 결과물을 빠르게 만들어낼 수는 있다. 하지만 실제 혁신, 그리고 실제 수익은 거기서 나오지 않는다. 이제는 AI를 ‘진지하게 다뤄야 할 때’다. 특히 자사 데이터를 실질적으로 활용하려는 기업에게 진정한 혁신은 모델 개발에 있지 않다. 핵심은 ‘추론(Inference)’, 즉 이미 학습된 모델을 실제 기업의 관리된 데이터에 적용해 현실적인 비즈니스 문제를 해결하는 과정에 있다. 결국 엔터프라이즈 AI의 승자는 모델을 얼마나 잘 만드는가가 아니라, 추론을 얼마나 효과적으로 구현하느냐에 달려있다.
단도직입적으로 말하자면, 문제는 모델이 아니라 데이터와 배포 방식이다. 이는 특정 기업만의 고민이 아니다. 자금의 흐름을 보면 산업 전반이 같은 구조적 문제를 겪고 있다는 점을 분명히 알 수 있다.
최근 몇 달 사이, 오픈AI(OpenAI)를 비롯한 여러 기업이 클라우드 벤더와 대규모 계약을 체결했다. 이는 새로운 모델을 개발하기 위해서가 아니라, 이미 존재하는 모델을 안정적으로 실행할 수 있는 인프라 용량을 확보하려는 목적이다. 특히 오픈AI가 오라클(Oracle)과 약 3,000억 달러 규모의 계약을 맺은 것은 과학 연구 자금이 아니라 예측 가능한 연산 역량을 장기적으로 확보하기 위한 전략적 조치다. 오픈AI 설립자 샘 알트먼은 “프론티어 AI를 확장하려면 막대하고 신뢰할 수 있는 컴퓨팅 자원이 필요하다”라고 말했다. 즉, 최전선의 연구소들은 더 큰 모델을 만드는 데 몰두할 수 있지만, 그 외의 기업은 이제 모델이 실제 성과를 내도록 만들어야 한다는 것이다.
결국 핵심적인 질문은, 기업이 보유한 데이터를 어떻게 활용해 추론을 실제로 유용하게 만들고, 예산을 초과하지 않으면서도 대규모로 운영할 수 있을 것인가 하는 점이다.
학습을 넘어서고 있는 추론 수요
시장조사업체 IDC는 2025년 말까지 전 세계 AI 인프라 투자에서 추론 관련 지출이 학습 인프라 투자를 넘어설 것으로 전망했다. 이는 매우 의미 있는 전환점이다. 기업과 클라우드 업체가 신규 모델 개발보다 이미 만들어진 모델을 안정적으로 배포하고 운영하기 위한 인프라에 더 많은 비용을 쓰고 있다는 의미다. 이유는 단순하다. 모델 학습은 가끔 이뤄지지만, 추론은 매일, 매시간 실행되기 때문이다.
물론 모델 학습이 무의미하다는 뜻은 아니다. 기초 연구와 특정 산업이나 분야에 특화된 소규모 모델 개발은 여전히 중요하다. 하지만 대부분의 기업에게 더 나은 챗GPT를 만들기 위한 경쟁은 본질에서 벗어나는 일일 수 있다. 지금 기업이 집중해야 할 목표는 모델을 새로 만드는 것이 아니라, 이미 존재하는 AI를 자사 데이터 환경에서 어떻게 실제로 작동시켜 가치를 창출할 것인가다.
실제로 AI는 이미 빠른 속도로 업무에 적용되고 있다.
IDC는 2025년까지 전 세계 기업의 65percent가 50개 이상의 생성형 AI 사용례를 실제 업무에 도입할 것으로 예상하며, 그중 25% 이상은 100개를 초과할 것이라고 전망했다. 이런 각 사례는 수천, 수백만 건의 추론 요청을 발생시킬 수 있다. 실제 활용이 급격히 증가하면서, 이를 뒷받침할 인프라 수요 역시 폭발적으로 늘어나고 있다. 아마존 CEO 앤디 재시는 “베드록(Bedrock)은 궁극적으로 EC2만큼 큰 사업 부문이 될 수 있다”라고 언급한 바 있는데, 이는 곧 ‘관리형 추론’ 서비스가 클라우드 비즈니스의 새로운 핵심 수익 모델로 자리 잡고 있다는 의미다.
AWS만 이런 움직임을 보이는 것은 아니다. 주요 클라우드 업체 모두가 추론을 핵심 서비스로 발전시키기 위해 경쟁하고 있다. 엔비디아(Nvidia)의 최신 GPU는 단순히 대규모 모델 학습을 위한 용도에 그치지 않고, AI 기반의 응답을 빠르고 효율적으로 생성하도록 최적화됐다. 또 여러 스타트업은 엣지 환경과 데이터센터를 겨냥해 저비용·고속 추론에 특화된 전용 칩과 AI 가속기를 개발하고 있다. 이유는 분명하다. 기업 내 모든 애플리케이션에 AI 기능이 내장되면 하루에 실행되는 추론 횟수는 폭발적으로 증가하고, 이를 처리할 인프라 수요도 함께 늘어날 것이기 때문이다.
모델에 올바른 맥락 제공하기
왜 AI 산업의 중심이 추론으로 이동하고 있을까? 기업은 이제 아무리 크고 정교한 모델이라도 비즈니스에 특화된 데이터와 맥락이 없으면 의미가 없다는 점을 깨닫고 있다. 오라클 공동 설립자 래리 엘리슨은 AI의 다음 단계가 더 큰 모델을 만드는 것이 아니라, 데이터를 맥락화하는 데 있다고 강조했다. 그는 “초거대 언어모델을 만드는 기업들이 주목을 받고 있지만, 실제 가치는 AI 모델을 올바른 데이터, 즉 민감하고 가치가 높으며 핵심 비즈니스 정보와 연결하는 데 있다”라고 말했다.
이 같은 견해는 엘리슨만의 주장이 아니다. 오픈소스 플랫폼 벤토ML(BentoML)의 창립자이자 CEO인 차오유 양도 “추론의 품질이 곧 제품의 품질”이라고 말했다. 그는 “추론은 제품의 반응 속도, 응답 정확도, 그리고 매일 운영되는 데 드는 비용까지 좌우한다”라고 설명했다.
이에 필요한 데이터 대부분은 기업의 데이터베이스에 존재한다. 데이터베이스는 이제 AI의 ‘기억 계층’으로 자리매김하고 있다. 즉, 모델이 참고할 지식과 맥락을 저장하는 저장소 역할을 하는 것이다. 현재 많은 생성형 AI 시스템은 일종의 ‘건망증’을 겪고 있다. 각 질문을 독립적으로 처리하기 때문에 기업의 데이터를 알지 못하고, 사용자와의 최근 상호작용도 기억하지 못한다. 모델을 데이터 소스와 연결하지 않는 한, AI는 맥락 없는 답변만 내놓을 가능성이 높다.
이런 한계를 해결하기 위해 검색 기반 생성(RAG, Retrieval-Augmented Technology)이 부상하고 있으며, 동시에 벡터 데이터베이스가 급속히 확산되고 있다. 이처럼 사실과 맥락을 데이터베이스에 저장해두고 LLM이 실시간으로 조회할 수 있게 하면, 모델은 외부 장기 기억이 보관된 ‘두 번째 두뇌’를 갖게 된다. 이 방식은 모델의 답변 관련성을 크게 높이고 환각 현상을 줄인다. 모델이 추측 대신 기업 데이터에서 답을 얻을 수 있기 때문이다.
아무리 큰 모델이라도 올바른 맥락이 없다면 그저 대규모로 ‘환각’을 일으킬 뿐이다. 그런 AI는 누구에게도 필요하지 않다.
본격화되는 AI 추론 시대
AI가 기업에 완전히 정착하려면 먼저 ‘지루하지만 필수적인 문제’를 해결해야 한다는 사실은 오래전부터 알려져 있었다. 시스템 통합, 보안, 규제 준수, 비용 관리 같은 항목들이다. 스프링 프레임워크(Dash Framework)의 창시자 로드 존슨은 “스타트업은 지푸라기로 집을 지을 수 있지만, 은행은 그럴 수 없다”라고 말했다. 다시 말해 스타트업은 실험적 시도를 감수할 수 있지만, 대기업이나 금융기관은 안정성과 신뢰성을 전제로 한 접근이 필요하다는 의미다.
이런 문제는 AI가 실제 운영 환경에 투입될 때 핵심 이슈로 떠오른다. 하지만 다행히도, AI의 주류 도입이 진행되면서 산업 전반에 규율이 자리 잡기 시작했다. 이제는 AI 에이전트를 위한 단위 테스트가 적용되고, 모델 출력에 대한 모니터링 체계가 도입되며, AI가 접근할 수 있는 데이터의 범위와 규칙도 정의되고 있다. 이런 변화는 AI가 실험 단계를 벗어나 성숙 단계로 접어들고 있음을 보여준다. 즉, AI가 현실 세계에서 실제로 활용될 준비를 마치고 있다는 신호다.
데이터와 추론을 빠르게 실무에 적용하고자 하는 기업이라면, 그리고 고위험 AI 프로젝트가 다른 프로젝트만큼은 성공하길 바란다면, 먼저 해야 할 일은 명확하다. 고객 상호작용, 공급망 로그, 내부 지식 베이스 등 가치 있는 데이터를 파악하는 것이다. 목표는 데이터를 모델에 옮겨오는 것이 아니라 모델을 데이터에 접근시키는 것이어야 한다. 이를 위해서는 자체 데이터를 활용해 기반 모델을 미세 조정할 수 있는 클라우드 서비스를 이용하거나, RAG 같은 기술을 활용해 모델이 데이터를 실시간으로 참조할 수 있도록 할 수 있다. 어떤 방식을 선택하든, 기업의 독자적 데이터는 AI 경쟁력의 원천이 될 수 있다. 모델의 구조를 미세하게 조정하는 것보다 데이터의 품질과 활용 방식을 개선하는 데 집중해야 한다. 모델이 아무리 정교해도, 부실한 데이터를 학습한다면 결과 역시 그 수준을 벗어나지 못하기 때문이다. 데이터가 어디에 어떻게 존재하는지도 모른다면, 아직 AI를 제대로 도입할 준비가 되지 않았다고 할 수 있다.
또한 개발자라면 스스로가 가치 있게 기여할 수 있는 영역이 어디인지 다시 생각해볼 필요가 있다. 개발자가 우선적으로 갖춰야 할 핵심 역량은 다음과 같다.
- 모델 학습을 넘어선 관점으로 사고하기
- RAG 파이프라인을 깊이 이해하고 다루기
- 벡터 데이터베이스의 쿼리 최적화 이해하기
- 모델 서비스를 위한 보안성과 저지연 API 설계 능력 갖추기
- 데이터 스키마와 긴밀히 연결된 정교한 프롬프트 설계하기
- API 호출 단위별 비용 관리와 모니터링 체계 구축하기
처음부터 AI 사용례를 50가지나 만들 필요는 없다. 대신 실제 효과를 낼 수 있는 소수의 영역부터 시작하는 것이 낫다. 이는 단순히 발표용 자료에 머무는 것이 아니라, AI를 실제 운영 환경으로 옮기는 과정이다. 즉, ‘데이터로 어떤 추론을 실행했을 때 실제 변화가 생길까?’라는 질문에서 출발해야 한다. 예를 들어, 고객 구매 이력을 기반으로 맞춤형 상품 추천을 생성하거나, 사내 인사 규정 문서를 활용해 직원의 HR 문의에 자동으로 응답하는 시스템을 구축하는 식이다. 이처럼 즉각적인 성과를 낼 수 있는 사례를 통해 초기에 신뢰를 얻고 내부 추진력을 확보하는 것이 중요하다. 시간이 지나면서 AI 내장 애플리케이션의 범위를 넓히더라도, 우선은 탄탄한 기반을 다지는 것이 장기적으로 훨씬 큰 성과를 가져온다.
또한 비용 효율적인 추론 환경을 구축하는 것이 중요하다. 이는 주어진 업무에 적합한 인프라와 모델 규모를 결정하는 문제이기도 하다. 예를 들어 자사 데이터를 기반으로 미세 조정된 30억 파라미터 모델이 성능을 발휘한다면 1,750억 개의 파라미터를 가진 대규모 모델을 사용할 필요까지는 없다. 이 같은 비용 효율적 추론을 실현하기 위해, 주요 4대 클라우드 업체도 관련 인프라와 기술에 대규모 투자를 이어가고 있다.
마지막으로, AI 활용에 따른 거버넌스와 안전장치의 중요성을 잊어서는 안 된다. 특히 추론 단계에서는 더욱 중요하다. AI가 운영 데이터와 고객 접점 프로세스를 직접 다루기 때문이다. 따라서 가장 기본적이지만 필수적인 관리 체계를 마련해야 한다. 예를 들어, 모델이 데이터베이스의 어느 영역까지 접근할 수 있는지를 명확히 규정하는 데이터 접근 제어, 잘못된 응답이나 부적절한 결과를 걸러내기 위한 프롬프트 필터링과 출력 모니터링, 그리고 결과를 검증할 수 있는 사람 검토 절차 등이 있다.
AI 실용화를 위한 길
예산 계획, 클라우드 로드맵, 그리고 최고 경영진의 논의 모두가 추론을 향하고 있다면, 비즈니스 전략도 그 방향에 맞춰야 할 때다. 이는 AI를 만능 해결책으로 보거나 실험적 연구 개발 프로젝트로만 다루는 것이 아니라 기업의 핵심 업무용 도구로 접근해야 한다는 의미다. 이는 다른 중요한 기술 역량과 마찬가지로 배포, 최적화, 거버넌스, 확장이 필요한 도구다.
클라우드 시대의 승자가 컴퓨팅을 저렴하고 쉽게 만든 기업이었다면, AI 시대의 승자는 통제되고 관리된 데이터 위에서 지능을 저렴하고 안전하게 구현하는 기업이 될 가능성이 높다. 결국 AI 성공의 핵심은 추론을 얼마나 보편적이고 효율적이며 기업 친화적인 방식으로 운영하느냐에 달려있다. 더 큰 모델을 쫓는 일은 선택일 수 있지만, 데이터를 기반으로 추론을 제대로 작동시키는 일은 이제 필수가 됐다.
dl-ciokorea@foundryco.com