테슬라 자율주행 AI

[딥러닝] 테슬라가 딥러닝과 데이터로 만드는 자율주행의 미래

레드우드 2021. 4. 21. 16:05

먼저 인공신경망의 구조에 대해서 간단히 알아보면, 다수의 퍼셉트론으로 구성되는데 이 말보다는 인공신경세포라는 말을 사용한다. 엣지는 층과 층 사이를 연결하고 인공세포 사이에는 엣지가 존재하지 않는다. 인공신경망은 데이터를 통해 학습하는 인공지능의 기술이다. 

이 인공신경세포에는 입력(Input), 은닉(Hidden), 출력(Output)의 순서로 구성되어 있다. 입력층은 인공신경망에 입력되는 "데이터"이고, 은닉층은 엣지(인공신경세포를 상호 연결)에 따라 정보를 전파하고 출력층은 출력 값이 산출된다. 딥 러닝은 2015년에 제프리 힌튼, 얀 르쿤, 요슈아 벤지오 교수가 "Deep Learning" 이라는 이름으로 논문을 썼다. 은닉층은 데이터를 재구성하는 역할을 하는데, 인공신경세포 수가 늘어날수록 예측 성능이 향상된다. 

 

인공신경망의 학습은 손실이 최소화되는 엣지의 가중치를 찾는 것인데, 고등학교에서 배운 이차함수를 예로 들면 최솟값이 나오는 a, b, c의 값을 찾는 것인데 인공신경망의 가중치는 보통 수백만개가 넘기 때문에 매우 복잡하다. 따라서 최솟값은 근삿값을 구하는 방법이 일반적이다. 

 

그러면 여기에서 등장하는 것이 빅 데이터인데 빅 데이터는 학습을 기반하는 인공지능의 급격한 발전을 일으켰다. 과거의 데이터라는 개념은 과학적 관측, 실험 결과 등이 대부분이었는데 인터넷, 컴퓨터 등이 발달하면서 본격적으로 데이터가 누적되었다. 여기에서 가장 핵심적인 개념은 방대한 양의 데이터를 분석하여 유의미한 결과를 만들어내는 것이다. 특히 딥 러닝은 빅 데이터를 학습하여 패턴을 인식하고 미래를 예측하는 기술로 인정받는 것이다. 그 기술의 선두기업이 "테슬라" 이다. 

 

딥러닝 박사 중 한명인 앤드류 응(Andrew NG)교수는 "딥러닝이 로켓의 엔진이라면, 데이터는 로켓의 연료"라고 표현했다. 딥러닝은 일종의 도구라서 성능의 편차는 확보 가능한 데이터의 질과 양에서부터 발생한다. 많은 데이터를 보유한 중급 인공지능(AI)개발자가 적은 데이터를 보유한 고급 인공지능 개발자보다 더 좋은 시스템을 개발할 가능성이 높다고 언급했다. 압도적인 1위의 데이터를 보유하고, 그 격차를 더 빠르게 넓히고 있는 테슬라가 가장 좋은 시스템을 만들 수밖에 없는 것이다. 

 

지금의 인공지능은 데이터를 수급하고, 가공하는 기술이 가장 중요하다. 이것은 '레이블링' '태깅' 이라는 용어로 표현되는데 사람의 수작업이 필요하다. 또한 데이터 수집은 개인정보보호법, 위치정보보호법 등 관련 법과 제도를 준수해야 한다. 

 

여기에서 등장하는 개념은 심층신경망이다. 인공신경망에 심층(Deep)의 개념을 더한 것으로 다수의 은닉층이 구성된다. 다수의 은닉층을 구성한다면 더 정교한 예측을 기대할 수 있다. 일반적인 신경망이라면 초기 가중치가 매우 중요하겠지만, 심층으로 갈수록 그 중요성은 더욱 높아진다. 훨씬 복잡하기 때문이다. 

 

이 외에도 다양한 딥러닝 방법으로 전 세계의 많은 기업들이 새로운 사업 모델을 찾고 있고 테슬라는 자율주행 시스템, 뉴럴링크 등 모든 사업에 딥러닝을 사용하여 AI 플랫폼 기업으로 만들고 있다. 딥러닝은 많은 데이터가 필요하고, 지속적인 학습이 필요하는 등 다양한 한계에 노출되어 있는데 테슬라는 이미 수십억, 수백억 마일의 데이터를 보유하고 있고 더 많은 데이터를 만들기 위해 테스터를 늘리고 있다. 이미 세계1위의 데이터를 보유한 테슬라가 더 많은 데이터를 모으게 되고, 매년 50% 이상 자동차 판매량이 늘어나면서 그 데이터는 기하급수적으로 늘어난다는 의미가 된다. 

 

인공신경망(NN)이라는 것은 수백만개의 모수를 갖는 수학적인 함수인데 매우 정밀한 분류를 위해서는 심층 신경망을 사용해야 한다. 예를 들어, 고속도로나 사람이 없는 곳에서는 큰 데이터가 필요 없기 때문에 어느 누구나 만들 수 있지만 복잡한 도심에서는 작은 변수 하나하나 전부 고려해야 하기 때문이다. 사고가 일어나지 않을 확률이 99.9999....% 로 9의 전쟁을 하고 있다. 

 

테슬라는 8대의 카메라와 센서로 데이터를 수집하는데 딥러닝에 활용되기 전까지 많은 가공을 거친다. 이런 과정을 '데이터 전처리'라고 하는데 많은 시간과 비용이 소모된다. 가장 중요한 것은 데이터를 분류하는 것이다. 분류한 후 인공신경망의 입력으로 활용하기 위해 데이터를 정제(가공) 한다. 

 

여기에서 또 중요한 점은 어떤 데이터를 사용할지, 데이터 전처리를 어느정도 수준까지 수행할 지에 대한 기준은 해당 분야의 전문가가 파악하고 질적으로 정제된 데이터를 확보한다. 아까도 얘기했듯이 "딥러닝이 로켓의 엔진이라면 데이터는 엔진에 투입되는 연료"이기 때문에 연료에 해당되는 데이터는 가장 중요하다. 

 

그 데이터도 가치가 있는 데이터가 존재한다. 딥러닝이 의미있는 결과를 보여주는 경우는 입력 데이터에 상응하는 출력 데이터가 라벨링(Labelling)되어 있는 데이터 셋에만 적용이 가능하다. 단순히 데이터만으로 학습하는 것이 아니라 데이터에 유의미한 라벨을 붙인 데이터가 딥러닝에 활용이 가능하다는 것이다. 

데이터에 라벨을 붙이는 것은 결국 비용과 직결된다. 한 사람이 수작업으로 하나의 물체 당 10초의 시간이 걸린다면 백만 개의 물체에 라벨을 붙이기 위해서는 한 사람이 116일을 쉬지 않고 일을 해야 한다. 어떤 회사(테슬라)가 이러한 이미지 데이터를 1억장을 구축할 경우 인건비에 녹아든 데이터는 높은 가치가 있을 수밖에 없다. 이런 데이터를 무료로 개방한다는 것은 어렵고, 그만큼의 비용을 받아야 할 것이다. 테슬라가 소프트웨어를 제공한다는 것은 그런 의미라 볼 수 있다. 

 

현실에서는 수많은 변수의 이미지가 존재하기 때문에, 그것을 데이터로 전송받아 수작업으로 수정한다. 테슬라의 AI 전문가가 라벨을 붙이는 과정에 대해 설명한 적이 있다. 

이처럼 자동차와 자전거는 보통 따로 인식을 하기 때문에 2대의 차량으로 인식하지만, 이 데이터를 받아 새로운 라벨링 과정을 거쳐 하나의 자동차로 인식하게끔 수정한다. 이렇게 데이터를 정제하는 것을 '라벨링 혹은 태깅' 이라고 한다. 라벨링은 기계로 대체하기 어렵기 때문에 대부분 인력을 활용한다. 라벨링을 하는 것이 곧 그 기업이 구현하려는 인공지능의 목표가 된다. 결국, 이제 시작되는 데이터를 활용한 딥러닝이 언젠가는 범용 인공지능으로 커질 것이다. 범용 인공지능이란 것은 사람처럼 다양한 임무를 해결할 수 있는 범용 지능을 구현한 시스템이다. 

테슬라는 자율주행을 시작으로 엄청난 인력과 기술력으로 AI,데이터,에너지 플랫폼 기업이 된다. 그 변화의 초기시장을 우리는 일론 머스크라는 사람을 통해 간접적으로 경험하고 있는 것이다. 그들이 하는 말을 이해할 수 있는 1%의 인간이 되도록 노력해야 한다. 

 

그렇기 때문에 현재 2조 달러의 딥러닝 시장규모가 2030년이 넘어가면 30조달러라는 어마어마한 규모가 된다. 테슬라는 오는 7월에 AI day를 통해 그 미래를 공개할 것이고, 시장은 대부분 이해하지 못할 것이다. 투자는 최소 5년에서 길게는 수십년을 바라봐야 한다. 분기가 아니다. 

 

데이터 인공지능 플랫폼 기업

에너지 플랫폼 기업

전기자동차 시장의 선두기업

스타링크와 전기자동차를 연결하여 혁신적인 통신 서비스를 제공할 기업

세상을 바꾸기 위해 노력하는 일론 머스크와 테슬라 팀이 있는 기업

자율주행(FSD) 시스템을 통한 구독경제를 만들어갈 기업

 

가짜 뉴스와 가짜 정보가 판을 치는 지금, 세상은 아직 변화를 받아들이지 못하고 있는데 그 혁신과 현실에서의 괴리에 투자기회가 존재한다.