약 10분

엔터프라이즈 AI 제품을 만든다는 것

클라썸의 Wanted HiFive 2026 발표를 듣고 정리한 기록 — B2B AI 제품의 0→1과 1→10

목차

오늘 이 자리가 클라섬에서의 마지막 발표가 될 것 같다. 7년 반 동안 첫 번째 정규 멤버로 시작해서, 회사가 자체 AI 모델을 갖추던 시절부터 LLM의 물결 속에 온갖 시도를 해온 사람으로서. 곧 출산을 앞두고 있어 발표하다 숨이 찰 때도 있겠지만, 이 경험을 어딘가에 남겨두고 싶었다.

성공했냐고 묻는다면, 아직은 아니다. 우리는 지금 0에서 1을 겨우 통과해 1에서 10으로 가는 길 어딘가에 있다. 그 여정에서 무엇이 잘 됐고, 무엇이 무너졌는지를 이야기하려 한다.


왜 엔터프라이즈 AI는 유독 어려운가

B2B 엔터프라이즈 환경이 어렵다는 건 누구나 안다. 하지만 AI 시대가 되면서 그 어려움의 결이 달라졌다.

가장 본질적인 문제는 배움의 속도다. B2C나 SMB는 제품을 내놓고 며칠 안에 반응이 온다. 엔터프라이즈는 계약 논의부터 실제 도입까지 수개월, 길게는 1년을 훌쩍 넘기도 한다. 그 긴 시간 동안 PM이 할 수 있는 건 추정과 설득뿐이다. 데이터 없이, 피드백 없이, 그냥 믿고 가야 하는 구간이 너무 길다.

게다가 한 명을 만족시키는 것으론 부족하다. AI 도입을 주도하는 AX팀, 실제로 매일 쓰는 운영팀, 그리고 어느 날 갑자기 한 번 써보고 “이거 뭔가 잘 안 되는데요”라고 말하는 임원. 각자 기대하는 것도, 평가하는 기준도 다르다. 이 여러 명의 집단적 만족을 어떻게 수치로 증명할 것인가. 그게 엔터프라이즈 PM의 숙명이다.

그리고 보안. 이건 비토(veto) 권한을 가지고 있다. 제품 반응이 아무리 좋아도 보안팀이 막으면 그게 끝이다. 검토조차 시작되지 않는 경우도 있다. 2023년 봄, 우리는 사내 모든 자료를 AI가 검색해주는 제품을 만들었다. 당시엔 그게 굉장히 자연스러운 아이디어처럼 보였다. LLM이 막 세상에 나왔고, 모든 회사가 어떻게 써야 할지 탐색하던 시기였으니까. 세일즈 덱을 돌렸고, 관심을 보이는 기업들도 있었다. 그런데 막혔다. 사내 정보가 클라우드에 올라간다는 것, 외부 LLM을 통과한다는 것. 당시 기업들은 그 기준을 아직 세워가는 중이었고, 결국 도입이 되지 않았다. 성능을 증명할 기회도 얻지 못한 채.


0에서 1로: 틀리고 또 틀리다가

그 실패 이후로 크고 작은 시도들이 반복됐다. 2023년에서 2024년 초까지, 우리는 내부에서도 스스로를 의심했다. AI가 실제로 복잡한 엔터프라이즈 업무 프로세스를 대체할 수 있는 수준이 맞을까? 확실성을 원하는 고객에게 AI의 불확실성을 어떻게 설득할 수 있을까?

그러던 차에 고객이 먼저 연락을 해왔다. “클라섬에 이런 유사 기능이 이미 있던데, 이런 제품을 만들어줄 수 있지 않나요?” 학교의 학사 상담을 AI가 처리하는 시스템이었다. 우리도 반신반의했지만, 성능이라도 한번 보자는 마음으로 시작했다.

이번엔 방식을 바꿨다. 제품을 먼저 만들지 않았다. 성능부터 봤다.

실제 고객 데이터와 테스트 셋 100개를 받고, 고객과 함께 정답 기준을 정했다. 이 100개 중 몇 개가 맞아야 쓸 수 있는 수준인지, 그 기준을 같이 세웠다. PM 1명과 백엔드 엔지니어 1명. 엔터프라이즈의 커뮤니케이션 비용을 빼면 실작업은 23주. 총 23개월에 걸쳐 세 차례 성능 검토를 진행했다.

세 번째 검토 즈음에 고객이 말했다. “이거 너무 잘하는데요. 우리 업무 대체할 수 있겠어요.” 그 순간이 왔다. 파일럿을 시작하자는 이야기가 나왔다.

제품화 단계는 또 다른 싸움이었다. 성능이 나오는 것과 실제 제품을 만드는 건 완전히 다른 문제다. 테스트 셋에서 답이 맞는 것과, 학생들이 실제로 쓰는 것, 전화 문의가 줄어드는 것, 보안 검토를 통과하는 것. 4명이 투입돼 2개월을 만들고 1개월을 안정화했다.

런칭 후 학생들은 생각보다 많이 썼다. 그런데 처음에 핵심 지표로 잡았던 전화량이 좀처럼 줄지 않았다. 근소하게만 줄어서 우리가 성공 지표를 달성했는지조차 모호했다. 고객과 다시 이야기했다. 학교 특성상 정해진 인원이 더 많은 문의를 처리할 수 있게 됐다는 것, 즉 ‘전화량 감소’가 아니라 ‘동일 인원의 대응력 향상’이 진짜 가치였다. 지표를 바꾸고, 세일즈 덱도 그 관점으로 다시 썼다.

돌아보면 이 성공이 가능했던 건 세 가지 조건이 겹쳤기 때문이다. 첫째, 실고객 데이터로 검증할 수 있었다. 엔터프라이즈에서 이 기회를 얻는다는 건 생각보다 희귀하다. 네트워크가 없으면, 신뢰가 없으면 불가능한 일이다. 둘째, 내부에서 1차 품질 판단이 가능한 문제였다. 학사 상담은 정답이 어느 정도 있는 영역이다. PM과 엔지니어가 직접 “이 답변이 맞는가”를 스크리닝할 수 있었다. 고객에게 모든 검토를 떠넘기지 않아도 됐다. 셋째, 학사 규정은 홈페이지에 공개된 정보들이라 보안 민감도가 상대적으로 낮았다. 클라우드에 올리고 외부 LLM을 쓰는 것에 대한 허용 구간이 있었다.

이 세 가지가 맞아떨어지지 않는 제품들은 지금도 0에서 1을 통과하지 못하고 있다. 내부에서 품질을 판단할 수 없는 영역, 정답이 없는 문제, 보안 장벽이 높은 도메인. 그 경우엔 외부 파트너사를 찾거나, 전문가를 임시로 데려오거나, 아니면 실제로 함께 검증해줄 수 있는 고객사를 먼저 발굴해야 한다. 이 세 번째가 현실에서 얼마나 어려운지는 해본 사람은 안다.


1에서 10으로: 어둠에서 나왔더니 다른 어둠이

0에서 1은 막막함이었다. ‘이게 될까’를 속으로 되뇌며 걷는 시간이었다. 1에서 10은 다르다. 막막함이 아니라 압박이다. ‘다른 고객에게도 통하는가’라는 질문이 매일 따라온다.

지금 우리 제품은 런칭한 지 약 1년, 고객사가 15곳에 가까워지고 있다. 그런데 갑자기 해결해야 할 문제들의 성격이 완전히 달라졌다.

가장 큰 것은 격차다. 왜 이 제품을 써야 하는가. 한국 엔터프라이즈 시장에서 일해본 사람이라면 공감할 텐데, 고객사가 자체 개발하는 경우가 굉장히 많다. 그리고 최근엔 “이거 그냥 ChatGPT에 넣으면 되는 거 아닌가요?”라는 질문을 회의마다 받는다. LLM이 빠르게 발전하면서 실제로 사장된 제품들도 생겼다. 범용 AI가 잘하게 된 영역은 더 이상 우리가 팔 수 없다.

LLM 시대가 되면서 70점짜리 제품을 만드는 건 너무 쉬워졌다. 그럴듯한 데모, 어느 정도 작동하는 기능. 하지만 엔터프라이즈가 원하는 건 그게 아니다. 실제 업무를 맡길 수 있는 신뢰할 수 있는 결과, 반복해도 안정적인 100점을 원한다. 그 100점은 AI 모델의 성능만으로 되지 않는다. 데이터 설계, 워크플로우 통합, 도메인 특화, 고객사별 미세 조정. 이 모든 게 얽혀 있다.

우리가 선택한 방향은 도메인 깊이 들어가기다. 학사 상담이라는 영역을 예로 들면, 인터콤이나 채널톡 같은 기존 상담 도구들은 커머스 중심으로 설계돼 있다. 구매한 소비자가 문의하면 상담원이 즉각 처리하는 구조다. 하지만 대학 교직원은 다르다. 본업이 따로 있고, 학사 문의 응대는 사이드잡이다. UX가 완전히 달라야 한다. 데이터도 다르다. 학사 규정은 300페이지가 넘는 PDF, HWP 파일, 표 5개짜리 문서들로 이루어져 있다. 커머스 데이터 구조와는 완전히 다른 방식으로 쌓고 처리해야 한다.

도메인에 깊이 들어가면 90까지는 갈 수 있다고 본다. 100까지 가려면 고객사별 커스터마이징이 더 필요하다. 말투, 답변 길이, 용어 반영 같은 건 이미 업계 스탠다드가 됐다. 거기서 한 발 더 나아가, 우리 제품 안에 있는 룰베이스, 에이전트, RAG 각 레이어에서 어떤 부분을 고객사마다 다르게 할 것인가를 정의하고 있다. 그 조정을 고객사가 직접 할 것인가, 우리가 해줄 것인가. IT 리터러시가 낮은 고객사에 직접 건드리게 했다가 전체 성능이 떨어지면 어쩌나. 확장성과 맞춤화 사이의 균형. 이 질문을 매주 반복한다.

그래서 만들기 시작한 게 피드백 루프다. 초기엔 시스템이 없었다. 제보가 들어오면 형식도 제각각이고 분석에 필요한 항목도 빠져 있었다. 백엔드 엔지니어에게 달려가 “여기가 문제 아닐까요?” 물어보면 엔지니어가 파서 봐주는 식이었다. 속도가 나지 않는다.

지금은 내부 분석 툴을 갖춰가고 있다. AI 로직이 단계별로 어떻게 흘렀는지를 볼 수 있고, 어느 단계에서 뭔가 틀어졌는지를 비교 테스트할 수 있는 환경이다. 이게 갖춰지면서 1차 원인 분석을 QA 엔지니어가 하게 됐다. AI 시대에 새롭게 생겨난 역할이라고 생각한다. 누가 이 역할을 맡아야 하는지, 아직 업계 전체가 답을 찾아가는 중이다.

매주 QA 엔지니어, PM, 개발자가 모여서 그 주에 들어온 제보들을 함께 들여다보고 아이디에이션을 한다. 아이디어 목록에서 이번 주에 할 것과 지난주에 못 한 것을 점검하고 우선순위를 맞춘다. 할 일은 쏟아지는데 리소스는 한정돼 있다. 권한 처리나 보안 기능처럼 당장 계약에 영향을 주는 것들과, 답변 품질을 조금씩 올리는 것들 사이에서 매주 선택을 한다.


발표를 마무리하면서 누군가 물었다. “엔터프라이즈 AI 제품에서 가장 어려운 게 뭐예요?” 나는 잠깐 생각했다. 어렵다는 건 제어가 안 된다는 뜻이다. 엔터프라이즈는 기본적으로 확실성을 원한다. 그런데 AI는 기본적으로 불확실하다. 이 간극을 수치로 좁혀가는 것. 그리고 분명히 만족한 사람들이 있었는데 갑자기 딜이 안 됐을 때, 그게 우리 제품의 문제인지 아닌지를 받아들이는 것. 그 두 가지가 아직도 풀리지 않는 숙제다.

우리는 아직 성공하지 않았다. 첫 고객에서의 성공 방정식이 다른 고객에게도 통하는가를 지금 보고 있다. LLM이 빠르게 발전하는 시대에 우리가 만드는 격차가 계속 유효한가를 매달 확인한다. 그 답을 찾아가는 과정이 1에서 10이다.

이 자리에서 나눈 이야기들이 비슷한 고민을 하고 있는 누군가에게 닿기를 바란다. 성공 사례가 아니라 진행 중인 여정으로.


이 글은 Wanted HiFive 2026에서 클라썸의 발표를 듣고 정리한 기록입니다.