후기 및 회고록/컨퍼런스 및 교육 후기

[DataBricks] Databricks Data Intelligence Day 한국 이벤트 2025 (25.04.29)

Jerry_JH 2025. 8. 1. 15:17
728x90
반응형

25.04.29에 갔다온 컨퍼런스에 대한 회고록 같은 후기를 적으려고 합니다. 

DataBricks가 얼마나 대단한 기업인지, 어떤 기술을 가지고 있었는지 처음 보고 나서 충격받았던 기억이 납니다. 

아무튼 후기 시작.


2025년 3월, 프로젝트 끝나고 인도네시아에서 한국 복귀해서 요즘은 어떤 기술이 유행인지 동향을 살펴볼려다가 링크드인에서 DataBricks 컨퍼런스를 한다는 피드를 보고 신청했습니다. 

 

솔직히 이때 까지만 해도 프로젝트에서 Spark를 썼으면서 DataBricks 회사는 모르고 있었습니다. ;; 

아무튼 4/2 신청을 해서 잊을만할 때쯤, 등록이 최종 확정 되었다는 메일을 받을 수 있었습니다. 

메일 받자말자 바로 연차사용


Databricks Data Intelligence Day 한국 이벤트 2025 행사는 하루만 진행을 하고, 10시부터 5시까지 진행을 하였습니다.

여러 기업들이 후원 혹은 참여를 참였고, 아는 기업들도 많고 처음 보는 기업들도 많이 볼 수 있었습니다.

 

여러 주제로 컨퍼런스를 진행하였고, 같은 시간에 여러 주제에 대해서 다른 방에서 따로 이야기를 하기에, 원하는 주제를 미리 정하여 골라서 들을 수 있었습니다.   

 

해당 행사 미리 신청한 인원에 대해서만 참여가 가능하기에 입장할 때, 아래와 같이 이름표를 나눠줍니다. 

이벤트를 참여할 때, 이름표의 QR코드가 필요했기에, 계속 차고 다녀야 했습니다. 

이름표에는 이름, 직위, 회사가 적혀있습니다.

 

 


9시 50분부터 시작인데 9시쯤 도착하여 미리 부스를 돌아보았습니다.

데이터브릭스의 영업부터하여 AWS, 메가존 등 거물급들이 데이터브릭스를 사용한다는 것에 좀 놀랐습니다.

 

또한 DATADYNAMICS, Cloocus, ada 기업들이 부스를 차려서 각종 이벤트랑 선물을 나눠주면서 홍보를 하고 있었고, 

 

TROCCO랑 BESPIN GLOBAL도 부스가 있었습니다. 

기억 남는 부스 설명에 대해서 적으면 아래와 같습니다. 

 

### TROCCO

유일하게 부스에서 외국인이 계셔서 관심이 계속 갔었습니다. 그래서 설명을 들어보았는데, 

일본에서 시작한 스타트업으로 저번달부터 한국과 인도를 대상으로 서비스를 시작했다고 합니다. DataBricks를 이용하여 이기종 DB 간의 데이터 파이프라인을 손쉽고 쉽게 만드는 방법에 대해서 설명을 해주셨습니다.

 

### BESPIN GLOBAL

알기 쉽게 설명을 잘해주셔서 금방 이해를 할 수 있었고, 저희 회사도 도입을 했으면 좋겠다는 생각이 들어서 많이 기억에 남습니다.

기존의 LLM 서비스를 회사 내부에 심어서 회사 내부의 여러 문서들을 학습시킵니다.

그리고 그 LLM을 가지고 여러 활용을 할 수 있게 서비스를 제공해 주는 솔루션이었습니다.

 

예를 들어, 사원이 입사를 해서 필요하거나 궁금한 것이 있었을 때, 자료를 찾는 것이 아니라 GPT 한테 물어보는 것처럼 내부의 LLM에게 물어봐서 빠르게 정보를 얻을 수 있습니다. 

우리 회사도 가이드를 할 때, 이런 게 있었으면 좋겠다는 생각을 많이 했었습니다. PDF로 된 몇 백장의 가이드 파일을 검색해서 정보를 얻는 방식이 상당히 비효율적이고, 오래된 방식이기 때문에 개선이 필요하긴 했습니다.   

 

또한 옵션을 이용해서 LLM이 제공하는 정보를 내부의 학습한 정보에서만 할 건지, 혹은 외부의 정보도 같이 사용을 할 것인지 설정할 수 있습니다. (보안 측면)

현재 여러 공단 혹은 대기업도 사용 중에 있으며, 설치도 내부에 직접 설치하거나 Saas 형태로도 가능하다고 합니다. 

 

 

부스에서는 LIGHTNING TALK 라고 작은 컨퍼런스장도 있었습니다. 메인 컨퍼런스는 아니지만,

각 부스들의 회사에 대해서 가볍게 15분 정도 짧은 발표를 들을 수 있었습니다.

발표를 잘 듣기 위해 발표자의 마이크와 연결된 이어폰도 같이 제공을 해주어, 주변의 소음과 상관없이 잘 들을 수 있었습니다.


컨퍼런스 행사 시작 (오전)

본격적인 행사는 9시 50분부터 환영사로 시작을 했습니다.

환영사는 데이터 브릭스 KOREA의 강형준 지사장님이 하셨습니다.

아래의 이미지와 같이 Track1,2,3 로 3개의 컨퍼런스장을 만들어서 각기 다른 주제로 컨퍼런스를 진행하였습니다.  

저렇게 큰 기업들이 DataBricks를 이미 사용하고 있다는 점에서 놀라웠습니다.

 

지사장님 다음으로는 

Databricks의 필드 엔지니어링 Nick Eayrs 부사장님이 발표를 이어서 해주셨습니다.

(자리마다 전용 이어폰이 있어서 통역사분이 통역하시는 말씀을 실시간으로 들을 수 있습니다.)

부사장님은 Databricks가 어떤 솔루션을 가지고 있는지 대략적인 설명을 해주셨습니다.

저는 이 과정에서 대단히 많은 충격을 받았습니다.

 

정리하면 이렇습니다.

 

DataBricks은 복잡성을 간소화하려고 많은 노력을 하였고, 실제로 여러 과정을 간소화하는 데 성공하였습니다.

또한 모든 데이터를 통합하여 카탈로그 한 후 자연어로 검색하여 원하는 데이터를 빠르게 찾을 수도 있으며,

Cursor 같은 AI 어시스턴트가 있어서 데이터 엔지니어에게 지원을 해줄 수도 있습니다. (코드 제안, 묘사, 데이터 묘사에 대해)

그리고 코드를 모르는 비즈니스 팀도 자연어로 질문을 하여 답변을 받아볼 수도 있습니다.

 

[ 데이터 수집 ]

소스와 타깃에 대한 커넥터에 코딩을 할 필요가 없습니다.

어디에 연결을 할 것인지 소스와 타깃만 정의해 주면 시스템이 알아서 해줍니다.

 

[ 분석과 BI를 위한 데이터 인텔리전스 ]

데이터브릭스 내부의 DW를 소장하고 있으며, 비용대비 퍼포먼스가 굉장히 차별되면 내부 기능이 많다고 한다. 

 

Genie, gpt처럼 내부의 챗봇이 있어서, 질문을 해서 답변을 얻을 수도 있고,

코딩 및 구현 등의 여러 작업도 서포트를 해준다. 

그래서 외부팀은 IT팀에게 요청을 할 필요가 없고, AI를 통해서 직접 수정을 할 수 있다.

또한 해당 AI는 구매사를 위한 AI모델로 커스텀마이징도 가능하다.

 

 처음에 설명을 들었을 때는 이제 저런 걸 목표로 개발을 한다는 거겠지?라고 생각하였으나, 
이미 구현, 테스트 단계까지 끝나서 오픈한 거였다. ETL 솔루션 회사의 일원으로서 굉장히 큰 충격이었고, 초급 개발자의 업무가 AI에게 이미 대체가 되었다는 느낌을 제대로 받았었다.

 

 

 

그 뒤로는 글로벌 부사장 금융서비스 리더 Junta Nakai 님의 기조연설을 들었고, 

한국에 경제 성장에 대한 이야기를 주로 해주셨던 것 같다.

기억에 남는 건한국 주식시장에 대해서 저평가가 되어있다고 이야기를 하셨다. 

 

 다음은 KT 전략 사업컨설팅부문장 정우진 님의 연설을 들었더니, 점심시간이 되었다.

 

점심은 호텔 측에서 준비를 해주었는데, 역시 소문대로 밥하나는 기가 막히게 맛있었다. 

(하나하나 다 아껴먹고 싶었다.)

 


컨퍼런스 행사 (오후) 

오후는 Track1,2,3에 맞춰서 원하는 강의를 들으러 다녔다. 

 

## 데이터 플랫폼 현대화 그리고 카탈로그 

레이크하우스(데이터 파운데이션)에 대한 설명을 들었고, 

원래는 정형 데이터와 비정형 데이터가 혼합이 안되어 따로 처리를 한다는 것을 DataBricks는 이걸 레이크하우스라는 곳을 통해 한 곳에 넣을 수 있었고, 이곳을 통해 사용자가 원하는 BI 랑 AI를 제공한다.

 

## Python UDF.

발표를 너무 재미있게 하셔서 제일 기억에 남는 주제였다. (추후 링크드인까지 찾아가서 친추했다..)

소프트웨어 엔지니어 권혁진 님. Spark에 큰 공을 세우신 분

-> 발표 내용은 대부분 기술적인 내용이라 제대로 적은 게 맞는지 모르겠습니다. (반박 시 님말이 맞음)

  

Spark에서는 못쓰는 python 기능이 많아서 python UDF를 사용하셨고,

Spark만 이용하여 SQL을 사용하면 Row by row로 성능이 안 좋다. (배치 처리가 아니기에)

그래서 Pandas UDF로 극복을 하였고, Pandas UDF는 이미 Apache arrow 쓰고 있어서 성능을 크게 개선할 수 있었다.

 

Pandas는 numpy기반이라, 벡터라인 실행이 가능하지만, 단, Vectorized 정규화에서 추가적인 성능개선이 필요해 보인다.

 

*추가로 찾아본 내용

 Pandas UDF = Spark + Apache Arrow + Pandas 
Spark는 데이터 프레임을 Arrow 포맷으로 변환해서 Python 워커로 보내고, Pandas에서 벡터 연산으로 처리한 후 다시 Arrow 포맷으로 Spark에 결과를 반환하는 구조입니다.
이로 인해 기존 row-by-row UDF에 비해 데이터 직렬화와 전송 속도, 실행 성능이 크게 개선됩니다

 

## 데이터 인텔리전스를 활용한 데이터엔지니어링

예전에는 Spark를 사용할 때, 많은 파라미터들에 대해 어떻게 최적의 튜닝을 할까 가 지식이었다면, 

지금은 이것에 대한 서비스가 나와서 의미가 없다. 

또한 오픈소스라서 계속 내용이 변경되어 오래된 내용은 필요가 없다.

 

해당 솔루션은 유니티 카탈로그화를 하여 자동으로 소스에서 타깃까지 실시간으로 데이터를 추적하여 디버깅을 편하게 할 수 있도록 도움을 준다.

또한 Predictive Optimization 기술을 통해 옵티마이저를 어떻게 하는지? 성능이 어떤 게 제일 좋은지 자동화를 해준다.

심지어 Hadoop의 어떤 컬럼을 파티션으로 해야 될지에 대한 의사결정도 도와준다.

 

그 외 다양한 옵션들 

 

1. 접근제어 옵션

- 민감한 데이터를 외부에 안 보내도 되며 내부의 플랫폼에서 해결이 가능한다.

 

2. 지능형 데이터 가시성 옵션

- 사용되지 않는 테이블 수 등 지능형으로 볼 수 있는 대시보드를 제공한다.

 

이 모든 걸 하나의 플랫폼에서 구매하고 관리할 수 있다는 장점이 있다.

 

 그 외 크래프톤, 중고나라의 컨퍼런스 발표도 들었다. 


시간 가는 줄도 모르고 마지막 발표까지 다 듣고 나왔는데, 

이번 컨퍼런스를 통해서 DataBricks에 대해서 좀 자세히 알게 된 것 같아서 괜찮았고, 

인도네시아에서 고생고생 하면서 다 삽질했던 것들이 만약에 DataBricks를 사용했다면 시간절약이 빠르게 되었을 것 같았다. 

(물론 자본 생각 없이 기술력이랑 솔루션만 가져온다면)

 

원래는 지금 사용 중인 솔루션을 python으로 변경하는 프로젝트를 진행하려고 했으나, 이번 컨퍼런스를 통해 굳이?라는 생각이 많이 들었고, 다른 기업들처럼 DataBricks를 이용하여 새로운 비즈니스를 만드는 것이 더 효율이 좋을 것 같다는 생각을 했다. 

 

이때 당시에는 교육을 못 들어서 아쉬웠지만, 실제로 체험까지 해보았으면 더 좋았을 것 같다. 

(추후 7/16 교육을 받았다.)

728x90
반응형