Google은 금요일에 로봇이 쓰레기 처리와 같은 작업을 이해하도록 도와주는 새로운 인공지능 모델을 발표했습니다. 로봇 트랜스포머 2 (RT-2)는 인터넷에서 얻은 정보와 이미지로 학습된 비전-언어-행동 모델로, Google은 블로그 글에서 이를 밝혔습니다.
💡구글의 로봇 산업 진출이 주는 시사점
현재 많은 업무가 온라인으로 전환되어 편의성이 증가하였지만, 아직도 일부 오프라인 업무는 인간의 노력이 필요한 상태입니다. 이러한 산업의 자동화는 로봇이 담당하게 될 것입니다.
4차 산업혁명이 진행되고 있지만, 로봇이 인간의 업무를 대체하는 수준은 아직 도래하지 않았습니다. 하지만 다음 산업혁명에서는 로봇이 업무를 대체하는 주요 역할을 할 것으로 전망됩니다.
구글이 아직 실현되지 않은 로봇 산업에 리더로 진출하게 된다면, 알파벳의 비전과 가능성은 더욱 밝아질 것입니다. 이를 통해 구글은 로봇 기술의 발전과 산업 혁신에 주도적인 역할을 할 수 있을 것으로 기대됩니다.
결국 다음 인기 섹터이자 장기투자 가치가 높은 섹터는 로봇관련 산업입니다.
*미국 로봇 관련 주 : Google, iRobot, ISRG, Cognex
*구글 로봇 RT-2 명령어 및 움직임 예시
📗 구글 로봇 RT-2의 차별점과 구동원리
📄웹 기반 비전-언어 데이터로 학습
Google DeepMind의 연구는 비전-언어 모델을 직접적으로 로보틱 제어에 통합하여 일반화 및 신생 의미적 추론을 개선하는 것을 목표로 합니다. 웹 기반 언어 및 비전-언어 데이터의 도움으로 하나의 포괄적으로 훈련된 모델을 만들어 로봇 관찰을 작업에 연결하는 방법을 목표로 합니다.
그들은 로봇 궤적 데이터와 인터넷에서 수행된 대규모 시각적 질문 응답 연습을 사용하여 최첨단 비전-언어 모델을 함께 세밀하게 조정하는 것을 제안합니다. 다른 방법과 대조적으로, 로봇 작업을 텍스트 토큰으로 표현하고 이를 자연어 토큰처럼 직접 모델의 훈련 세트에 통합하는 간단하고 다목적인 방법을 제안합니다.
📄비전-언어-액션 (VLA) 모델 소개와 학습데이터 활용
연구자들은 비전-언어-액션 모델 (VLA)을 연구하고, 구글 로봇 RT-2는 이러한 모델 중 하나를 구현한 것입니다. 엄격한 테스트(6,000개의 평가 실험)를 통해 RT-2가 인터넷 규모의 훈련을 통해 다양한 신생 기술을 습득하고 이 기술로 우수한 로봇 정책을 구현할 수 있었다는 것을 확인할 수 있었습니다.
구글 로봇 트랜스포머 2(RT-2)를 공개했는데, 이는 웹에서 가져온 텍스트와 이미지로 훈련된 트랜스포머 기반 모델로, 로봇 작업을 직접 수행할 수 있도록 설계되었습니다. 이 모델은 Robotics Transformer 모델 1의 후속 모델로서, 로봇 작업을 나타내기 위해 로봇 동작을 텍스트 토큰으로 변환하고 온라인에서 제공되는 대규모 비전-언어 데이터와 함께 가르칩니다. 모델의 추론은 텍스트 토큰을 로봇 동작으로 변환한 후 피드백 루프를 통해 제어됩니다. 이로써 비전-언어 모델의 일반화, 의미적 이해 및 추론 능력을 일부 로봇 정책 학습에 전이시킬 수 있습니다.
Google DeepMind의 주요 기여는 구글 로봇 RT-2로, 웹 규모 데이터에서 훈련된 거대한 비전-언어 모델을 조정하여 일반화 가능하고 의미론적인 로봇 규칙으로 사용하는 모델입니다. 실험에서는 최대 55B의 매개변수로 학습된 모델을 사용하여 로봇 동작 명령이 포함된 공개 데이터를 활용하였습니다. 6,000개의 로봇 평가를 통해 RT-2가 객체, 장면 및 지시에 걸쳐 일반화의 상당한 발전을 보여주며 웹 규모 비전-언어 사전 훈련에서 기인한 다양한 신생 능력을 나타내는 것을 입증했습니다.
✔ 정리
Google DeepMind는 웹 규모 데이터와 로보틱 데이터를 통합하여 비전-언어-액션(VLA) 모델을 훈련시키는 과정을 발표했습니다. 이 모델들은 로봇 궤적 데이터를 활용하여 로봇 작업을 생성하고, 이 작업들은 텍스트로 토큰화되어 훈련됩니다. 연구자들은 웹 규모의 비전-언어 사전 훈련을 통해 일반화 성능과 신생 능력을 향상시키는 기술을 증명하고, 매우 효과적인 로봇 정책을 도출해냄을 보였습니다. 이 기술은 로봇 학습 분야에서 다른 분야의 개선점을 활용하고자 하는 전략적인 위치에 있다고 합니다.
*텔레그램: QuantProTel *트위터: QuantProTeam