AI는 로봇이 몸 전체로 물체를 조작하도록 돕습니다.


MIT Manipulation Planning 01 press 0

MIT 연구진은 로봇이 손가락 끝이 아닌 손 전체를 사용하여 물체를 조작하는 복잡한 계획을 개발할 수 있는 인공 지능 기술을 개발했습니다. 이 모델은 표준 노트북을 사용해 약 1분 만에 효과적인 계획을 세울 수 있다. 여기서 로봇은 큐브를 180도 회전시키려고 합니다. 이미지: 연구원 제공.

작성자: Adam Zewe | MIT 뉴스

크고 무거운 상자를 계단 위로 들고 싶다고 상상해 보십시오. 손가락을 펴고 양손으로 상자를 집어든 다음 팔뚝으로 상자를 잡고 가슴에 균형을 맞추면서 몸 전체를 사용하여 상자를 조작할 수 있습니다.

인간은 일반적으로 몸 전체를 다루는 데 능숙하지만 로봇은 이러한 작업에 어려움을 겪습니다. 로봇의 경우 상자가 착용자의 손가락, 팔, 몸통의 어떤 지점에 닿을 수 있는 각 지점은 로봇이 추론해야 하는 접촉 이벤트를 나타냅니다. 수십억 건의 잠재적인 접촉 이벤트로 인해 이 작업을 계획하는 것은 빠르게 어려워집니다.

이제 MIT 연구원들은 접촉이 많은 조작 계획으로 알려진 이 프로세스를 단순화하는 방법을 찾았습니다. 그들은 많은 접촉 이벤트를 더 적은 수의 결정으로 압축하는 스무딩(Smoothing)이라는 AI 기술을 사용하여 간단한 알고리즘이라도 로봇에 대한 효과적인 처리 계획을 신속하게 식별할 수 있도록 합니다.

아직 초기 단계이지만 이 방법을 사용하면 손가락 끝으로만 잡을 수 있는 대형 로봇 팔 대신 ​​팔이나 몸 전체를 사용하여 물체를 조작할 수 있는 소형 모바일 로봇을 공장에서 사용할 수 있습니다. 이를 통해 에너지 소비를 줄이고 비용을 절감할 수 있습니다. 또한 이 기술은 온보드 컴퓨터만 사용하여 환경에 빠르게 적응할 수 있기 때문에 화성이나 태양계의 다른 천체 탐사 임무에 파견되는 로봇에 유용할 수 있습니다.

“이것을 블랙박스 시스템으로 생각하기보다 모델을 사용하여 이러한 유형의 로봇 시스템의 구조를 활용할 수 있다면 이러한 결정을 내리고 접촉이 풍부한 솔루션을 생성하는 전체 절차를 가속화할 수 있는 기회가 있습니다. 계획”이라고 전기 공학 및 컴퓨터 과학(EECS) 대학원생이자 이 기술에 관한 논문의 공동 저자인 HJ Terry Suh는 말합니다.

논문에 Suh와 함께 공동 선임 저자인 Boston Dynamics AI Institute의 로봇공학자인 Tao Pang PhD ’23; Lujie Yang, EECS 대학원생; 수석 저자인 Russ Tedrake, EECS, 항공, 우주 및 기계 공학의 Toyota 교수이자 CSAIL(컴퓨터 과학 및 인공 지능 연구소) 회원입니다. 이 연구는 이번 주 IEEE Transactions on Robotics에 게재되었습니다.

학습에 대해 학습

강화 학습은 로봇과 같은 에이전트가 목표에 가까워지면 보상을 받으며 시행착오를 통해 작업을 완료하는 방법을 배우는 기계 학습 기술입니다. 연구원들은 시스템이 시행착오를 통해 세상에 대한 모든 것을 배워야 하기 때문에 이러한 유형의 학습에는 블랙박스 접근 방식이 필요하다고 말합니다.

이는 로봇이 특정 방식으로 물체를 이동하는 가장 좋은 방법을 학습하려는 접촉이 많은 조작 계획에 효과적으로 사용되었습니다.

MIT Manipulation Planning 02 press

이 그림에서 시뮬레이션된 로봇은 접촉이 많은 세 가지 조작 작업(공 수동 조작, 접시 들어올리기, 특정 방향으로 펜 조작)을 수행합니다. 이미지: 연구원 제공.

그러나 손가락, 손, 팔, 신체를 사용하여 물체와 상호 작용하는 방법을 결정할 때 로봇이 추론해야 하는 잠재적인 터치 포인트가 수십억 개 있을 수 있으므로 이 시행착오 접근 방식에는 많은 계산이 필요합니다.

“강화 학습은 실제로 정책을 학습하기 위해 시뮬레이션 시간으로 수백만 년을 소비해야 할 수도 있습니다”라고 Suh는 덧붙입니다.

반면, 연구자가 시스템에 대한 지식과 로봇이 수행하기를 원하는 작업을 사용하여 물리학 기반 모델을 구체적으로 설계하는 경우 해당 모델은 이 세계에 대한 구조를 통합하여 보다 효율적으로 만듭니다.

그러나 접촉이 많은 조작 계획에 있어서는 물리 기반 접근 방식이 강화 학습만큼 효과적이지 않습니다. 서와 팡은 그 이유가 궁금했다.

그들은 상세한 분석을 수행한 후 스무딩(Smoothing)이라는 기술을 사용하면 강화 학습이 매우 잘 작동한다는 사실을 발견했습니다.

물체를 조작하는 방법을 결정할 때 로봇이 내릴 수 있는 많은 결정은 전체적인 계획에서는 중요하지 않습니다. 예를 들어, 손가락이 물체와 접촉하는지 여부에 관계없이 손가락을 극미하게 조정하는 것은 그다지 중요하지 않습니다. 평활화된 평균은 중간 결정과 중요하지 않은 결정 중 많은 부분을 제거하고 몇 가지 중요한 결정을 남깁니다.

강화 학습은 많은 터치 포인트를 암시적으로 테스트한 다음 결과의 가중 평균을 계산하여 평활화를 수행합니다. 이 정보를 기반으로 MIT 연구원들은 유사한 유형의 평활화를 수행하는 간단한 모델을 설계하여 핵심 로봇-객체 상호 작용에 집중하고 장기적인 동작을 예측할 수 있도록 했습니다. 그들은 이 접근 방식이 복잡한 계획을 생성하는 데 강화 학습만큼 효과적일 수 있음을 보여주었습니다.

“문제에 대해 조금 더 알면 더 효율적인 알고리즘을 설계할 수 있습니다.”라고 Pang은 말합니다.

성공적인 조합

평활화는 결정을 크게 단순화하지만 나머지 결정을 검색하는 것은 여전히 ​​어려운 문제일 수 있습니다. 그래서 연구원들은 로봇이 내릴 수 있는 모든 가능한 결정을 빠르고 효율적으로 검색할 수 있는 알고리즘과 모델을 결합했습니다.

이 조합을 사용하면 표준 노트북에서 계산 시간이 약 1분으로 단축되었습니다.

그들은 먼저 펜을 원하는 구성으로 움직이거나, 문을 열거나, 접시를 집는 등의 작업을 로봇 손에 부여하는 시뮬레이션에서 접근 방식을 테스트했습니다. 각각의 경우 모델 기반 접근 방식은 강화 학습과 동일한 성능을 달성했지만 시간은 매우 짧았습니다. 그들은 실제 로봇 팔의 하드웨어에서 모델을 테스트했을 때 비슷한 결과를 보았습니다.

“전신 조작을 허용하는 동일한 아이디어는 인간의 손을 능숙하게 사용하는 계획에도 적용됩니다. 이전에는 대부분의 연구자들이 강화학습이 오른손잡이에게 적합한 유일한 접근법이라고 말했지만, Terry와 Tao는 강화학습에서 평활화(무작위화)라는 핵심 아이디어를 취함으로써 방법을 만들 수 있음을 보여주었습니다. 보다 전통적인 계획 방법도 효과가 있습니다. 아주 잘. “라고 테드레이크는 말합니다.

그러나 그들이 개발한 모델은 현실 세계에 대한 단순한 근사치를 기반으로 하기 때문에 떨어지는 물체와 같은 매우 역동적인 움직임을 처리할 수 없습니다. 예를 들어 느린 처리 ​​작업에는 효과적이지만 로봇이 쓰레기통에 캔을 던지는 계획을 세울 수는 없습니다. 앞으로 연구원들은 이러한 매우 역동적인 움직임을 다룰 수 있도록 기술을 개선할 계획입니다.

“모델을 주의 깊게 연구하고 해결하려는 문제를 실제로 이해한다면 분명히 얻을 수 있는 몇 가지 이점이 있습니다. 블랙박스를 넘어서는 작업을 수행하면 이점이 있습니다.”라고 Suh는 말합니다.

이 연구는 부분적으로 Amazon, MIT Lincoln Laboratory, Nationwide Science Basis 및 Ocado Group의 자금 지원을 받습니다.

MIT

MIT

MIT 뉴스



Supply hyperlink

일부 포스팅은 쿠팡 파트너스와 같은 제휴 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

Leave a Comment