在機(jī)器人技術(shù)的前沿探索中,一項(xiàng)關(guān)于透明物體抓取的重大突破近日由地瓜機(jī)器人攜手中國(guó)科學(xué)院自動(dòng)化研究所多模態(tài)人工智能系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室共同宣布。他們的研究成果——MODEST單目透明物體抓取算法,成功入選即將于2025年舉行的IEEE機(jī)器人與自動(dòng)化國(guó)際會(huì)議(ICRA 2025)論文名錄,標(biāo)志著該技術(shù)在國(guó)際舞臺(tái)上的認(rèn)可。
透明物體,如水杯、試管乃至窗戶,雖廣泛存在于我們的日常生活中,但其獨(dú)特的折射與反射特性卻給機(jī)器人的視覺(jué)感知帶來(lái)了巨大挑戰(zhàn)。在常規(guī)的RGB圖像中,透明物體往往因缺乏鮮明的紋理而難以與背景區(qū)分,同時(shí),現(xiàn)有的商用深度相機(jī)也難以精確捕捉這些物體的深度信息,導(dǎo)致機(jī)器人在處理這類物體時(shí)捉襟見(jiàn)肘。
為了攻克這一難題,地瓜機(jī)器人與中科院自動(dòng)化所的研究團(tuán)隊(duì)聯(lián)合推出了MODEST框架。這一創(chuàng)新性的多任務(wù)框架專注于透明物體的單目深度估計(jì)與語(yǔ)義分割,通過(guò)巧妙的語(yǔ)義和幾何融合模塊,結(jié)合特征迭代更新策略,顯著提升了深度估計(jì)與語(yǔ)義分割的準(zhǔn)確性,特別是在抓取成功率和系統(tǒng)泛化性上實(shí)現(xiàn)了質(zhì)的飛躍。
MODEST算法框架作為通用抓取模型的前置增強(qiáng)模塊,其即插即用的特性無(wú)需依賴額外的傳感器,僅憑單張RGB圖像即可實(shí)現(xiàn)對(duì)透明物體的精準(zhǔn)抓取。這一特性使得MODEST在智能工廠、實(shí)驗(yàn)室自動(dòng)化以及智慧家居等多個(gè)領(lǐng)域具有廣泛的應(yīng)用前景,不僅降低了設(shè)備成本,還顯著提升了機(jī)器人對(duì)透明物體的操作能力。
MODEST的核心在于其針對(duì)透明物體的深度估計(jì)能力。通過(guò)設(shè)計(jì)的語(yǔ)義和幾何結(jié)合的多任務(wù)框架,MODEST能夠準(zhǔn)確獲取透明物體的深度信息,并結(jié)合基于點(diǎn)云的抓取網(wǎng)絡(luò)實(shí)現(xiàn)抓取操作。這一過(guò)程相當(dāng)于在通用抓取網(wǎng)絡(luò)前增加了一個(gè)專門(mén)針對(duì)透明物體的增強(qiáng)模塊,從而大幅提升了抓取的精準(zhǔn)度和成功率。
MODEST模型的整體架構(gòu)由編碼、重組、語(yǔ)義幾何融合和迭代解碼四個(gè)模塊組成。輸入的單目RGB圖像首先經(jīng)過(guò)基于ViT的編碼模塊處理,隨后被重組為多尺度特征,分別對(duì)應(yīng)分割和深度兩個(gè)分支。在融合模塊中,這兩組特征被混合并增強(qiáng),通過(guò)多次迭代逐步更新特征,最終獲得準(zhǔn)確的分割結(jié)果和深度預(yù)測(cè)。
為了驗(yàn)證MODEST算法的有效性,地瓜機(jī)器人將其遷移至真實(shí)機(jī)器人平臺(tái)進(jìn)行了透明物體抓取實(shí)驗(yàn)。實(shí)驗(yàn)平臺(tái)由UR機(jī)械臂和深度相機(jī)組成,在MODEST算法的精準(zhǔn)感知基礎(chǔ)上,采用GraspNet進(jìn)行抓取位姿的生成。實(shí)驗(yàn)結(jié)果顯示,MODEST算法在真實(shí)平臺(tái)上表現(xiàn)出了良好的魯棒性和泛化性,能夠在各種透明物體上實(shí)現(xiàn)穩(wěn)定且精準(zhǔn)的抓取。