‣
데이터브릭스가 $62b(86조원)의 가치로 $8.6b(12조원) 투자 유치에 성공했습니다. 이는 OpenAI가 10월에 투자받은 $6.6b보다 큰 금액이자 스타트업 펀딩 역사를 통틀어서도 굉장히 큰 금액이기 때문에, 상장적인 의미가 있다고 보여집니다.
Databricks is Raising $10B Series J Investment at $62B Valuation - Databricks
데이터브릭스는 쉽게 설명해서 데이터 관리 플랫폼입니다. (제가 저번에 데이터 창고라고 말씀을 드렸었는데) 정확하게는 데이터의 저장은 클라우드에서 일어나고, 데이터브릭스는 클라우드 위에서 데이터를 쉽게 처리하고 관리할 수 있는 서비스를 제공합니다. 즉 데이터브릭스의 등장으로 스토리지(저장)은 클라우드에 맡기고, 컴퓨팅(처리)는 데이터브릭스가 맡는 형태로 역할의 분리가 일어났습니다.
데이터를 분산해서 처리할 필요가 있다고 느낀 UC버클리 교수진들이 이러한 생각을 바탕으로 아파치 스파크(Apache Spark)라고 하는 오픈소스 데이터 관리 프레임워크를 개발하였고, 이를 계속 발전시키다가 결국 회사를 만든 것이 바로 데이터브릭스입니다. 따라서 데이터브릭스는 분산 처리에 특화되어 있는 만큼 머신러닝에 필요한 데이터 관리에 딱 맞는 소프트웨어라는 특징이 있습니다.
특히 데이터브릭스는 ‘데이터 레이크’라는 형식으로 데이터를 관리하는데, 이는 주로 ‘비정형 데이터’에 특화되어 있는 형식입니다 (반대로 스노우플레이크는 ‘데이터 웨어하우스’라는 형태인데, 이는 ‘정형 데이터(ex 표 데이터)’에 특화되어 있습니다). 따라서 LLM이 비정형 데이터와 합이 잘 맞기 때문에 데이터브릭스가 스노우플레이크보다 조금 더 각광을 받고 있다고 이해할 수 있습니다.
중요한건 데이터브릭스와 AI의 합이 아주 잘 맞다는 부분입니다. 기업들이 LLM을 이용하고 싶지만 어떻게 해야할지 모르는 애매한 상황에서, 데이터브릭스는 기업에 최적화된 LLM 솔루션을 제공하고자 움직이고 있습니다. 대표적으로 기업에 최적화된 LLM을 제작해주던 Mosaic ML이라는 회사를 인수해서 고객사가 맞춤형 LLM을 제작할 수 있도록 돕고 있으며, 자체적으로 LLM을 만들어서 오픈소스로 공개하기도 했습니다. 즉 이전까지는 데이터브릭스가 AI를 돌리기 바로 전 단계까지의 솔루션을 제공하는 업체였다면, 이제는 AI를 돌리는 단계까지 한발자국 더 나아간 것이라고 이해할 수 있습니다.
사람들이 자기 데이터의 가치를 깨닫게 된 건 맞습니다. 저도 그 가치는 분명히 있다고 봐요. 지금 세상은 두 개의 평행 우주가 공존한다고 생각합니다. 하나는 인터넷 전체를 긁어모아(웹 크롤) 인간 역사상의 모든 텍스트를 다 학습하는, 공개된(open) 세계의 LLM입니다. 여기에 초점을 맞추면, 이 모델들은 모든 언어를 이해하고 추론 능력을 갖출 수 있죠.
그런데 또 다른 우주는 기업 내부에 있는 방대한 데이터입니다. 회사에 입사하면 NDA(기밀유지 계약) 같은 걸 쓰게 되잖아요? 그 데이터들은 철저히 사내 기밀로 보호돼서, 현재 우리가 얘기하는 LLM들은 그걸 모른다는 겁니다. 어떤 회사에서 쓰는 3글자 약어(약칭) 같은 것도 전혀 모르죠. Mosaic ML은 이런 기업 내부의 “지루해 보이지만 실제로는 중요한 데이터”를 다루는 LLM을 만드는데 특화되어 있었고, Databricks는 이미 그 데이터를 관리할 인프라가 있었습니다. 우린 데이터와 영업력을 갖췄지만, ‘맞춤형 LLM을 만들’ 능력이 부족했거든요. Mosaic ML은 반대로 데이터나 영업 조직은 없지만, 그런 맞춤 모델을 만드는 노하우가 있었죠.
“회사들이 이걸 전혀 안 하고 손 놓고 있을까?”라고 물으신다면, 그렇진 않습니다. 오히려 모두가 하고 싶어 해요. 2007년 iPhone이 처음 나왔을 때, 모든 회사가 “우리도 iPhone 앱 만들어야 해!”라고 했던 것과 비슷해요. 나중에 알고 보니, 플래시라이트 앱을 100개 만들 필요는 없었죠. 결국 “우리만이 가진 특별한 데이터와 가치는 뭔가?”로 돌아오게 됩니다.
결국 AI의 키는 데이터를 얼마나 잘 관리하느냐에 달려있는데, 팔란티어는 데이터 관리 능력이 비교적 없는 레거시 기업을 상대로 컨설팅+소프트웨어를 제공하면서 이들을 사로잡는데 성공했다면, 데이터브릭스는 그래도 데이터를 어느정도 관리해오던 기업들에게 데이터를 AI와 결합하여 더욱 잘 활용할 수 있도록 도구를 제공하는 회사라고 볼 수 있겠습니다. 이 생각이 맞다면 팔란티어와 더불어서 오랜 기간동안 청바지 역할을 하게 될 중요한 회사가 될 수 있다고 생각합니다.
Q. 클라우드 업체가 데이터브릭스를 위협할 수도 있지 않을까?
지금까지 클라우드 업체와 데이터브릭스(+스노우플레이크)는 서로 공생관계였습니다. 데이터브릭스의 수요가 늘어나는 만큼 클라우드의 사용량 또한 늘어났기 때문이며, 실제로 마이크로소프트의 애저(Azure)가 데이터브릭스를 많이 밀어줘서 데이터브릭스 매출의 50프로 정도가 애저향으로부터 나왔다고 합니다 (애저 안에서 데이터브릭스가 기능으로 제공되고 있습니다).
하지만 최근들어 관계가 미묘해지고 있는 것이 클라우드 업체도 데이터 관리 플랫폼의 역할을 점점 자기 것으로 만들고 싶어하는 모습이며, 마이크로소프트가 Fabric이라는 데이터브릭스와 비슷한 서비스를 출시해서 공격적으로 영업 중입니다. 하지만 데이터브릭스는 성능적인 차원에서 자신있어하는 모습이며, 자신들의 고객 대부분은 여러개의 클라우드를 동시에 사용하기 때문에 한 클라우드에 종속된 데이터 관리 플랫폼을 이용하기 어렵다고 이야기합니다. 따라서 스토리지(클라우드)와 컴퓨팅(데이터 관리)이 분리되었고, 고객들 대부분이 여러개의 클라우드를 이용하는 현 상황에서는 데이터브릭스의 입지가 더욱 단단해지고 있다는 것이 데이터브릭스의 주장입니다.
생각해보면 팔란티어도 자체 클라우드와 LLM 없이도 주도권을 가지고 있는데, 데이터브릭스도 유사한 길을 따라가지 않을까 싶습니다.