로봇이 열린 세계를 더 잘 이해할 수 있도록 언어를 사용


MIT F3RM 15

F3RM(로봇 조작을 위한 기능 필드)을 통해 로봇은 자연어를 사용하여 개방형 텍스트 프롬프트를 해석하여 기계가 익숙하지 않은 개체를 조작하는 데 도움을 줍니다. 시스템의 3D 기능 필드는 창고와 같이 수천 개의 개체가 포함된 환경에서 유용할 수 있습니다. 이미지 제공: 연구원.

알렉스 쉽스(Alex Shipps) | 미츠세일

당신이 해외에 있는 친구를 방문하고 냉장고 안을 들여다보면서 무엇이 훌륭한 아침 식사가 될지 알아보고 있다고 상상해 보십시오. 처음에는 그에게 많은 품목이 이상해 보였고 각각은 낯선 포장과 용기에 담겨 있었습니다. 이러한 시각적 차이에도 불구하고 각각의 용도를 이해하고 필요에 따라 선택하기 시작합니다.

익숙하지 않은 물체를 조작하는 인간의 능력에서 영감을 받아 MIT CSAIL(컴퓨터 과학 및 인공 지능 연구소) 그룹은 F3RM(Function Fields for Robotic Manipulation)을 설계했습니다. F3RM은 2D 이미지와 3D 장면의 기본 모델 기능을 결합하여 도움을 주는 시스템입니다. 로봇은 근처의 물체를 식별하고 파악합니다. F3RM은 인간의 개방형 언어 신호를 해석할 수 있으므로 창고나 집과 같은 수천 개의 물체가 포함된 실제 환경에서 유용한 방법을 제공합니다.

F3RM은 로봇이 자연어를 사용하여 열린 텍스트 프롬프트를 해석할 수 있는 기능을 제공하여 기계가 객체를 조작하는 데 도움을 줍니다. 결과적으로 기계는 인간의 덜 구체적인 요청을 이해하면서도 원하는 작업을 완료할 수 있습니다. 예를 들어, 사용자가 로봇에게 “키가 큰 머그잔을 집으세요”라고 요청하면 로봇은 해당 설명에 가장 잘 맞는 항목을 찾아 집을 수 있습니다.

“현실 세계에 실제로 일반화할 수 있는 로봇을 만드는 것은 믿을 수 없을 정도로 어렵습니다.”라고 국립과학재단(Nationwide Science Basis) 산하 인공지능 및 기본 상호작용 연구소와 MIT CSAIL의 박사후 연구원인 Ge Yang은 말합니다. “우리는 이를 수행하는 방법을 정말로 알고 싶었습니다. 따라서 이 프로젝트를 통해 우리는 단 3~4개의 객체에서 MIT Stata Center에서 발견한 모든 객체에 이르기까지 공격적인 수준의 일반화를 추진하려고 합니다. “우리는 이전에 본 적이 없더라도 물체를 잡고 배치할 수 있기 때문에 로봇을 우리만큼 유연하게 만드는 방법을 배우고 싶었습니다.”

“거기에 무엇이 있고 어디에 있는지” 알아보기

이 방법은 로봇이 불가피하게 혼란스럽고 예측 불가능한 대규모 주문 처리 센터에서 품목을 픽업하는 데 도움이 될 수 있습니다. 이러한 창고에서 로봇은 일반적으로 식별해야 하는 재고에 대한 설명을 제공받습니다. 고객 주문이 올바르게 배송되도록 로봇은 포장의 변형에 관계없이 제공된 텍스트를 개체와 일치시켜야 합니다.

예를 들어, 주요 온라인 소매업체의 주문 처리 센터에는 수백만 개의 품목이 포함될 수 있으며 그 중 상당수는 이전에는 로봇이 발견하지 못했던 품목입니다. 이러한 규모로 작동하려면 로봇이 다양한 요소의 기하학적 구조와 의미를 이해해야 하며, 그 중 일부는 작은 공간에 위치합니다. F3RM의 고급 의미론적 및 공간 인식 기능을 통해 로봇은 물체를 찾아 컨테이너에 넣은 다음 포장을 위해 보내는 데 더욱 효율적이 될 수 있습니다. 궁극적으로 이는 공장 작업자가 고객 주문을 보다 효율적으로 배송하는 데 도움이 될 것입니다.

“F3RM을 사용하는 사람들을 종종 놀라게 하는 한 가지는 동일한 시스템이 실내 및 건물 규모에서도 작동하고 로봇 학습 및 대형 지도를 위한 시뮬레이션 환경을 구축하는 데 사용될 수 있다는 것입니다.”라고 Yang은 말합니다. “그러나 이 작업을 더욱 확장하기 전에 먼저 이 시스템이 정말 빠르게 작동하도록 하고 싶습니다. “이 방법으로 우리는 보다 역동적인 로봇 제어 작업에 이러한 유형의 표현을 실시간으로 사용할 수 있으므로 보다 역동적인 작업을 처리하는 로봇이 이를 인식에 사용할 수 있습니다.”

MIT 팀은 다양한 장면을 이해하는 F3RM의 능력이 도시 및 가정 환경에서 유용할 수 있다고 지적합니다. 예를 들어, 이 접근 방식은 맞춤형 로봇이 특정 품목을 식별하고 픽업하는 데 도움이 될 수 있습니다. 이 시스템은 로봇이 물리적으로나 지각적으로 주변 환경을 파악하는 데 도움이 됩니다.

“David Marr는 시각적 인식을 ‘무엇이 있고 어디를 봐야 하는지’를 아는 문제로 정의했습니다.”라고 수석 저자이자 MIT 전기 및 컴퓨터 공학 부교수이자 CSAIL 수석 조사관인 Phillip Isola는 말합니다. “최근 기초 모델은 자신이 보고 있는 내용을 매우 잘 파악하고 있습니다. 수천 개의 개체 범주를 인식하고 이미지에 대한 자세한 텍스트 설명을 제공할 수 있습니다. 동시에, 복사장은 장면에서 사물이 어디에 있는지를 매우 잘 표현하게 되었습니다. “이 두 가지 접근 방식을 결합하면 3D에서 무엇이 어디에 있는지에 대한 표현을 만들 수 있으며, 우리 작업에서 보여주는 바는 이 조합이 3D에서 물체를 조작해야 하는 로봇 작업에 특히 유용하다는 것입니다.”

‘디지털 트윈’ 만들기

F3RM은 셀카봉으로 사진을 찍으며 주변을 이해하기 시작한다. 탑재된 카메라는 다양한 자세로 50장의 이미지를 촬영해 2D 이미지를 촬영해 3D 장면을 구축하는 딥러닝 방식인 신경방사선장(NeRF)을 구축할 수 있다. 이 RGB 사진 콜라주는 주변 환경을 360도 표현하는 형태로 환경의 “디지털 트윈”을 생성합니다.

매우 상세한 신경 방사선 필드 외에도 F3RM은 의미 정보로 형상을 보강하는 기능 필드를 생성합니다. 이 시스템은 시각적 개념을 효율적으로 학습하기 위해 수억 장의 이미지를 학습한 기본 비전 모델인 CLIP을 사용합니다. F3RM은 셀카봉으로 촬영한 이미지에서 2D CLIP 기능을 재구성함으로써 2D 기능을 3D 표현으로 효과적으로 향상시킵니다.

계속 열어두세요

몇 가지 시연을 받은 후 로봇은 이전에 한 번도 본 적이 없는 물체를 잡기 위해 기하학과 의미론에 대해 알고 있는 지식을 적용합니다. 사용자가 텍스트 쿼리를 제출하면 로봇은 잡을 수 있는 공간을 검색하여 사용자가 요청한 물건을 집을 수 있을 가능성이 가장 높은 사람을 식별합니다. 각 잠재적 옵션은 메시지와의 관련성, 로봇이 훈련받은 데모와의 유사성, 충돌 발생 여부를 기준으로 점수가 매겨집니다. 그런 다음 가장 높은 점수를 받은 그립이 선택되어 실행됩니다.

인간의 개방형 요청을 해석하는 시스템의 능력을 입증하기 위해 연구원들은 로봇에게 디즈니 ‘빅 히어로 6’의 캐릭터인 베이맥스를 집어 올리도록 요청했습니다. F3RM은 만화 슈퍼히어로 장난감을 집어 들도록 직접 훈련받은 적이 없었지만 로봇은 공간 인식과 기본 시각 및 언어 기능을 사용하여 어떤 물체를 잡고 어떻게 집어들지 결정했습니다.

F3RM을 사용하면 사용자는 로봇이 다양한 언어 세부 수준에서 어떤 개체를 처리할지 지정할 수 있습니다. 예를 들어 금속컵과 유리컵이 있다면 사용자는 로봇에게 ‘유리컵’을 달라고 요청할 수 있다. 로봇이 두 개의 유리컵을 보고 그 중 하나는 커피로 가득 차 있고 다른 하나는 주스로 가득 차 있다면 사용자는 “커피가 담긴 유리컵”을 요청할 수 있습니다. 기능 필드에 포함된 기본 모델 기능을 통해 이러한 수준의 개방적인 이해가 가능합니다.

“컵 가장자리를 따라 집는 방법을 보여주면 그 지식을 그릇, 계량컵, 테이프 롤과 같이 유사한 기하학적 구조를 가진 물건을 집는 데 쉽게 전달할 수 있습니다. 로봇의 경우 이러한 수준의 적응성을 달성하는 것은 상당히 어려운 일이었습니다.”라고 CSAIL 소속 MIT 박사 과정 학생이자 공동 선임 저자인 William Shen은 말합니다. “F3RM은 기하학적 이해와 인터넷 규모 데이터로 훈련된 기본 모델의 의미를 결합하여 소수의 시연만으로 이러한 수준의 공격적인 일반화를 가능하게 합니다.”

Shen과 Yang은 MIT 교수이자 CSAIL 수석 연구원인 Leslie Pack Kaelbling과 학부생 Alan Yu 및 Jansen Wong을 공동 저자로 하여 Isola의 감독하에 논문을 작성했습니다. 이 팀은 부분적으로 Amazon.com Companies, 국립 과학 재단, 공군 과학 연구실, 해군 연구 다학제 대학 이니셔티브 사무국, 육군 연구실, MIT-IBM Watson Laboratory 및 MIT의 지원을 받았습니다. 지능 검색. 이들의 작업은 2023년 로봇 학습 컨퍼런스에서 발표될 예정입니다.

MIT

MIT

MIT 뉴스



Supply hyperlink

일부 포스팅은 쿠팡 파트너스와 같은 제휴 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

Leave a Comment