Tesla와 Ford가 구현하는 MLOps

올해 테슬라는 AI 분야에서 혁신을 향해 달리고 있습니다. FSD(Full Self Driving, 완전자율주행) 모델의 데이터 개선과 자율주행 택시 서비스 Robotaxi가 대표적인 예인데요.

이렇게 AI가 자동차 산업에서 특히 더 각광받는 이유는, 자율주행이라는 꿈을 현실로 구현해줄 기술이기 때문일 것입니다. 자율주행이라는 목표에 가까워지려면 AI 모델을 지속적으로 학습, 평가, 배포해야겠죠. 이때 필요한 것이 바로 MLOps입니다.

그래서 이번 아티클에선 자동차 산업에서 MLOps가 어떻게 도입되었는지를 살펴보려합니다.

방금 소개한 Tesla, 그리고 100년이 넘는 역사를 자랑하는 Ford의 MLOps 구현 사례를 가져왔는데요. 자동차 산업의 대표적인 두 기업이 어떻게 MLOps를 도입했는지 살펴본다면 MLOps가 실제로 어떻게 활용되는지 더 깊게 이해할 수 있을 겁니다.

Tesla가 MLOps를 도입할 수밖에 없었던 이유

(출처: Tesla)

Tesla의 Autopilot은 딥러닝 모델로 센서 및 카메라 데이터를 해석해 주행을 보조하는 레벨 2 수준의 기술입니다.

자율주행에도 레벨이 있다?

자율주행은 국제 표준(SAE 기준)에 따라 레벨 0부터 레벨 5까지 총 6단계로 나뉩니다. 레벨 0~2는 운전자를 보조하는 단계이며, 레벨 3부터는 시스템이 주행의 주도권을 가지는 자율주행 단계로 정의되고 있습니다. 가장 높은 수준인 레벨 5는 모든 상황에서 차량이 스스로 주행하는 완전자율주행 수준을 의미합니다.

실제 주행 환경에서 실시간으로 데이터를 해석하고 결정을 내려야 하다보니 아래와 같은 요구사항이 필요했는데요.

딥러닝 모델이 실제 주행 환경에서 안정적으로 동작되도록 지속 학습
Tesla 차량에서 수집된 대규모 데이터를 관리하고 처리
자율주행 시스템에 대한 안전 규정 준수

이를 모두 충족하는 것이 바로 MLOps입니다. 그래서 Tesla는 MLOps를 도입할 수밖에 없었죠. 그리고 위 요구사항은 자율주행 시스템을 개발하는 조직이라면 대부분 해당된다고 볼 수 있습니다.

Tesla가 구현한 MLOps

그렇다면 Tesla는 MLOps를 어떻게 구현했을까요? 3가지 영역으로 나눠서 살펴보겠습니다.

데이터 파이프라인

대규모 주행 데이터를 관리하기 위해 Tesla는 Apache Kafka와 TFX(TensorFlow Extended)로 확장가능한 데이터 및 모델 학습 파이프라인을 구축했다고 합니다.

실시간 데이터 스트림을 받아서 저장하고 처리할 수 있는 Kafka의 장점과 프로덕션 수준의 MLOps 플랫폼 구축이 가능한 TFX의 장점을 취하고자 했던 것으로 보이는데요.

이렇게 구축한 파이프라인은 아래와 같이 구성될 수 있을 것입니다.

Kafka가 다양한 소스로부터 Raw 데이터를 받아서 저장
데이터가 일정량 쌓이거나 특정 주기마다 TFX 파이프라인 시작
데이터를 모델 학습에 사용될 수 있도록 특징 추출(Feature extraction) 등 처리

모델 학습 및 평가

(출처: TensorFlow)

Tesla는 딥러닝 모델의 대규모 분산 학습 환경을 구축하기 위해 Kubernetes와 TensorBoard를 활용했다고 합니다.

확장가능성과 안정성이 장점인 컨테이너 오케스트레이션 툴 Kubernetes로 모델 학습 인프라를 관리하고, 실험(Experiment) 추적과 모델 디버깅, 데이터 시각화가 가능한 TensorBoard로 모델 평가 및 시각화 시스템을 구축한 것으로 예상되는데요.

ML 모델 학습 또는 추론 코드를 패키징한 컨테이너 이미지
TensorBoard 컨테이너 이미지

위 주요 컴포넌트를 Kubernetes 환경에 배포한다면 안정적이고 확장가능한 모델 학습 및 평가 시스템을 운영할 수 있습니다.

모델 배포

Tesla은 OTA(Over The Air) 업데이트로 AI 모델을 차량에 배포하는 전략을 사용했는데요. 그래서 학습 후 개선된 모델을 차량에 일괄적으로 직접 배포할 수 있습니다.

OTA 방식은 모든 차량이 서비스센터 방문 없이도 인터넷이 연결된 환경에서 최신 모델 업데이트를 내려받을 수 있도록 도와주는 기술로, 안정적인 모델 배포에 핵심 역할을 수행합니다.

비단 차량뿐만 아니라, IoT 센서나 스마트 장비 등의 엣지 디바이스에 ML 모델이나 소프트웨어를 업데이트할 때에도 OTA가 자주 사용되는데요.

그래서 OTA는 Edge AI 구현과도 밀접하게 연관되어 있습니다. (Edge AI에 대해 궁금하다면 Aiden’s Lab에서 다룬 지난 글을 확인해보세요.)

이렇게 Tesla는 효율성과 안정성을 최우선으로 한 기술 스택으로 MLOps를 구현한 것이라고 볼 수 있습니다.

Ford의 MLOps 도입 과정

다음으로 알아볼 사례의 주인공은 Ford입니다. Ford는 1903년 설립되어 현재는 레벨 2~3 수준의 자율주행 기술을 개발한 기업인데요. Tesla와 달리 100년 넘게 운영된 기업인 만큼, ML 모델 개발에 뛰어들면서 전통적인 기존 환경에서 한계를 느꼈다고 합니다.

특히 조직 차원에서 아래와 같은 문제가 있었다고 하는데요.

팀마다 중복되는 ML 작업이 있어 리소스가 이중으로 소모
전사 차원에서 공통된 ML 패턴이나 툴의 부재

무엇보다 Ford의 기존 인프라는 ML을 위한 것이 아니었기에 개선이 필요했다고 합니다.

Ford에게 필요했던 MLOps 플랫폼

500

그래서 Ford는 Mach1ML이라는 MLOps 플랫폼을 구축하게 됩니다.

AI/ML 개발과 배포, 확장을 쉽게한다는 목적 아래, MDK(MLOps Development Kit)를 통해 프로덕션 환경에서 사용 가능한 ML 파이프라인을 구축할 수 있는 환경을 조성한 것인데요. GCP와 온프레미스 HPC(High Performing Computer) 환경을 모두 지원하는 플랫폼이었죠.

초기 Mach1ML은 Kubeflow 기반으로 설계되었습니다. 즉, 컨테이너 오케스트레이션 환경에서 Google의 Vertex AI 기반으로 ML 워크플로우를 수행한 것인데요.

하지만 이로 인해 2가지 문제점이 발생했습니다.

플랫폼을 사용하려면 Kubeflow를 알아야 했기 때문에 학습 곡선이 높았고,
Vertex AI 도입으로 인해 Google Cloud에 락인되어 다른 툴과의 통합이 어려워진 것입니다.

그래서 Ford는 안정적인 오케스트레이션 기능을 지원하고 빠른 도입이 가능한 솔루션을 모색하는데요. 그렇게 찾은 대안은 Airflow였습니다.

(출처: Astronomer)

Apache Airflow는 Python 기반의 워크플로우 관리 툴로, DAG(방향성 비순환 그래프) 방식을 지원하여 널리 사용되는 툴인데요.

Ford가 Mach1ML 플랫폼을 Airflow 기반으로 구축함으로써 얻은 이점은 다음과 같습니다.

낮은 진입장벽
- Docker와 같은 이미 널리 알려진 툴만으로 구동 가능
- 공통 작업에 대한 오퍼레이터(작업을 수행하는 클래스 단위)가 이미 존재함
- Python 기반으로 개발되었으므로 작업이나 DAG를 이해하기 쉬움
높은 커스터마이징 가능성
- BigQuery, Vertex AI, Cloud Run, HPC 등과 연동 가능
- 특수한 케이스에 대한 커스텀 오퍼레이터 개발 가능
- ML 워크플로우뿐만 아니라 ETL, 데이터 파이프라인, 작업 스케줄링에도 활용 가능

즉, Ford는 이미 대규모 인력을 보유한 상태였기 때문에 ML 개발을 효과적으로 진행하기 위해서는 개발 환경에 대한 진입장벽을 낮추면서 툴 도입 리소스를 최소화할 필요가 있던 것입니다. 전통적인 자동차 제조업체 입장에서 AI/ML 개발 경쟁에 뒤처지지 않기 위한 노력이었던 것으로 보입니다.

마무리

100년의 역사를 지닌 Ford, 그리고 대표적인 AI 기반 기업 Tesla는 기업의 성격만큼이나 MLOps를 구현한 과정과 방식도 달랐습니다.

이 두 기업의 사례를 통해 MLOps를 실제 자동차 산업에 적용한 다양한 방식을 살펴볼 수 있었는데요. 그 과정에서 MLOps의 실제 적용에 대해 더 깊이 이해할 수 있었습니다.

방식은 서로 달랐지만 결국 MLOps를 통해 해결하고자 하는 문제는 동일했고, 이를 정리하면 아래와 같습니다.

어떻게 데이터를 모을 것인가
어떻게 모델을 학습하고 평가할 것인가
어떻게 모델을 안정적으로 배포할 것인가

그리고 MLOps는 DevOps로부터 파생된 개념인 만큼, DevOps가 추구하는 ‘팀 간의 공통된 언어로 시스템을 지속적으로 개선’하는 문화를 지향하고 있음을 확인할 수 있었습니다.

여러분은 이번 글을 읽고 어떤 생각이 드셨나요?

그럼 저는 다음 아티클에서 더 흥미롭고 유익한 주제를 들고 돌아오겠습니다.

감사합니다.😸

참고 자료

✨이번 아티클은 어떠셨나요?

이번 글의 주제에 대해 어떻게 생각하는지 알려주세요! 더 나은 아티클을 전달해드리기 위해 아래 폼에서 짧은 피드백을 받고 있어요.

👉 피드백 보내기 (1~2분 소요)

여러분들의 소중한 의견은 Aiden’s Lab에 큰 힘이 됩니다!

🔭Aiden's Lab

최근 게시글

SLO 대시보드로 효과적인 옵저버빌리티 시작하기