人工智能的五個(gè)核心領(lǐng)域

更新日期：2024年10月10日 05時(shí)10分12秒來源：高職招生網(wǎng)

　　國際機(jī)器人專家馬歇爾·赫伯特認(rèn)為，機(jī)器人的研究主要分為五個(gè)領(lǐng)域：機(jī)器人的硬件構(gòu)造及控制;機(jī)器人的感知;機(jī)器學(xué)習(xí);自主性;人機(jī)交互。

　　以下為國際知名機(jī)器人專家、美國卡耐基梅隆大學(xué)機(jī)器人研究所所長馬歇爾·赫伯特教授的演講實(shí)錄，題目為“人工智能的前沿技術(shù)與實(shí)例分析”。

　　大家下午好!很高興能來這里，謝謝能給我做這個(gè)演講的機(jī)會(huì)。

　　今天，我將要介紹卡內(nèi)基梅隆大學(xué)機(jī)器人研究所中進(jìn)行的研究的主要方向。我希望能讓大家了解我們研究的關(guān)鍵方向和嘗試解決的核心挑戰(zhàn)。首先，我將說明機(jī)器人學(xué)，尤其是機(jī)器人學(xué)的應(yīng)用，指的是什么。基本上，我們嘗試著眼于工作、科學(xué)和生活的所有領(lǐng)域中機(jī)器人學(xué)的應(yīng)用。

　　現(xiàn)場機(jī)器人學(xué)，這個(gè)領(lǐng)域中機(jī)器人代替人類完成危險(xiǎn)或困難的工作，像建筑、采礦、農(nóng)業(yè)等等。建筑業(yè)中，機(jī)器人和人類合作實(shí)現(xiàn)更快更好的建筑任務(wù)。我的演講之后Bourne將詳細(xì)介紹這一部分。運(yùn)輸和物流業(yè)中，自動(dòng)駕駛汽車等設(shè)備在改善交通運(yùn)輸。醫(yī)療機(jī)器人領(lǐng)域，機(jī)器人和人類一起工作。還有基礎(chǔ)設(shè)施監(jiān)控領(lǐng)域。我們考察所有這些機(jī)器人應(yīng)用。

　　讓我展示一些例子。這是從事采礦和設(shè)施部署的自動(dòng)駕駛卡車。這是可以組裝和拆卸物體的操作系統(tǒng)。這是另一個(gè)大型項(xiàng)目，完成飛機(jī)檢查、噴漆和去漆任務(wù)，這些任務(wù)需要非常大的機(jī)器人相互協(xié)作。這是一個(gè)更加復(fù)雜的機(jī)器人，具有操作、局部運(yùn)動(dòng)、感知等功能，可以完成在這種環(huán)境中的復(fù)雜任務(wù)。以上例子向大家展示了我們?yōu)榱祟I(lǐng)域中多種多樣的應(yīng)用場景建造的機(jī)器人系統(tǒng)。

　　今天我希望能讓大家對我們?yōu)榱私⑦@樣的機(jī)器人系統(tǒng)而進(jìn)行的研究有一個(gè)認(rèn)識。這些研究可以被分為這些類別。

　　在底層，我們關(guān)心機(jī)器人的硬件構(gòu)造，以及如何進(jìn)行控制，這部分稱為動(dòng)作(action)。在現(xiàn)實(shí)中，機(jī)器人的硬件構(gòu)造只是我們研究的一小部分。其他大部分研究中我們關(guān)心機(jī)器人的智能，而不只是機(jī)器人的硬件結(jié)構(gòu)。這包括了機(jī)器人的感知(perception)，也就是機(jī)器人利用傳感器感知和理解環(huán)境的能力;機(jī)器學(xué)習(xí)(learning)，即從數(shù)據(jù)中學(xué)習(xí)模型的能力，機(jī)器人可以學(xué)會(huì)如何移動(dòng)、觀察、決策;自主性(autonomy)，即自主決策和對環(huán)境做出反應(yīng)的能力;最后，是人機(jī)交互(human interaction)。

　　很多機(jī)器人需要處理的問題都是和人而不是和機(jī)器人相關(guān)的。它們需要理解人類行為，并和人類進(jìn)行交互。這是機(jī)器人學(xué)中發(fā)展最快的研究領(lǐng)域之一。我將展示在以上這些領(lǐng)域中我們基礎(chǔ)研究的主要方向。

　　一、機(jī)器人運(yùn)動(dòng)部分，即機(jī)器人的硬件構(gòu)造和控制

　　我們主要關(guān)注三個(gè)主要的領(lǐng)域。

　　第一個(gè)是讓機(jī)器人可以和人類一樣完成非常復(fù)雜和精細(xì)的操作。

　　這個(gè)例子是機(jī)器人展示一個(gè)沒有應(yīng)用價(jià)值的操作，但是它展示了這個(gè)操作的難度。這個(gè)任務(wù)需要對機(jī)器人控制和硬件的物理性質(zhì)有極高的理解。這些關(guān)于機(jī)器人精細(xì)操作的研究是一個(gè)很大的研究領(lǐng)域。

　　第二個(gè)領(lǐng)域是設(shè)計(jì)能在困難的環(huán)境中完成任務(wù)的機(jī)器人。

　　這是我們仿生機(jī)器人實(shí)驗(yàn)室(BioRobotics Lab)中的一項(xiàng)研究，一個(gè)可以像蛇一樣運(yùn)動(dòng)的蛇形機(jī)器人。這個(gè)機(jī)器人可以像蛇一樣運(yùn)動(dòng)，完成一些復(fù)雜任務(wù)。這項(xiàng)技術(shù)可以用于環(huán)境檢查、制造業(yè)、救援等場景中，機(jī)器人可以進(jìn)入一些十分復(fù)雜的環(huán)境中。最近墨西哥城地震后，這個(gè)機(jī)器人參與了對損毀建筑的搜救工作。這個(gè)領(lǐng)域的研究有很多應(yīng)用。在這個(gè)領(lǐng)域的研究中，如果我們可以設(shè)計(jì)出非常精妙的機(jī)器人結(jié)構(gòu)，我們就可以制造出非常多有趣的機(jī)器人，它們可以應(yīng)用到很多領(lǐng)域當(dāng)中。

　　想象一下，如果縮小機(jī)器人的尺寸，小到它可以進(jìn)入人類的身體當(dāng)中，就可以造出這款機(jī)器人。背景中的搏動(dòng)是心臟的跳動(dòng)，這個(gè)機(jī)器人正在心臟上方爬行。上方的圖像是機(jī)器人的相機(jī)看到的場景。我希望這對大家來說并不是太血腥。這是我們對機(jī)器人學(xué)研究的看法的一個(gè)例子。

　　我們從多自由度機(jī)械結(jié)構(gòu)這些基本概念出發(fā)，將它們應(yīng)用到各種各樣的應(yīng)用場景當(dāng)中，最后建成完整的系統(tǒng)。這款機(jī)器人已經(jīng)得到了商業(yè)化應(yīng)用，并已經(jīng)獲得了在手術(shù)中應(yīng)用的許可。匹茲堡大學(xué)的一個(gè)團(tuán)隊(duì)已經(jīng)使用這款機(jī)器人完成十分復(fù)雜的手術(shù)，如癌癥組織的切除。這款機(jī)器人可以在不進(jìn)行切割的情況下完成手術(shù)，這是手術(shù)技術(shù)很大的進(jìn)步。以上就是我們工作的第二部分，設(shè)計(jì)具有精妙結(jié)構(gòu)的機(jī)器人，來完成現(xiàn)在完全無法完成的任務(wù)。比如在不切割的情況下進(jìn)行手術(shù)，搜救，檢查等等，這些任務(wù)現(xiàn)之前是無法完成的。

　　機(jī)器人運(yùn)動(dòng)中的第三個(gè)研究領(lǐng)域是機(jī)器人的模塊化，和機(jī)器人的重新組裝。

　　這在實(shí)際中是在機(jī)器人研究中取得進(jìn)展的一項(xiàng)主要障礙。像在制造業(yè)中，為了某個(gè)特定應(yīng)用場景設(shè)計(jì)機(jī)器人時(shí)，需要花費(fèi)大量成本和努力來對機(jī)器人進(jìn)行設(shè)計(jì)和編程。完成之后，如果需要對機(jī)器人生產(chǎn)的產(chǎn)品進(jìn)行一個(gè)很小的改動(dòng)，整個(gè)系統(tǒng)都需要進(jìn)行成本很高的重新設(shè)計(jì)和安裝，顯然這是不符合可持續(xù)性要求的。除非有大量的資源和人力，這并不是一個(gè)合理的方式。解決方案和軟件設(shè)計(jì)中的設(shè)計(jì)模式類似。在軟件開發(fā)中，我們可以從軟件庫和模塊開發(fā)十分復(fù)雜的應(yīng)用程序。我們希望從機(jī)器人模塊出發(fā)實(shí)現(xiàn)類似的事情。

　　這些紅色的部件都是機(jī)器人的一個(gè)模塊，包括了硬件和軟件。當(dāng)我們將它們連接到一起時(shí)，它們可以互相通訊。可以對它們進(jìn)行十分快速的編程，所以可以以很快的速度搭建機(jī)器人系統(tǒng)。這是一場**，正如60年前軟件行業(yè)放棄從頭編寫程序的工作模式，開始從軟件庫和模塊開始構(gòu)建軟件一樣。這其中的挑戰(zhàn)是模塊不再只是軟件，而也是硬件。這是一個(gè)應(yīng)用的例子。

　　這段視頻展示了在不到30分鐘的時(shí)間內(nèi)搭建一臺全功能的物體操作機(jī)器人并對他進(jìn)行編程。這就相當(dāng)于從現(xiàn)有的模塊開始快速完成編程。此前這對于機(jī)器人來說是不可能的，因?yàn)闄C(jī)器人的硬件結(jié)構(gòu)。這也是我們關(guān)心的一個(gè)大的領(lǐng)域。將這些想法和其他一些想法結(jié)合(其中一些之后Bourne會(huì)在機(jī)器人協(xié)作制造業(yè)中為大家介紹)，我們建立了一個(gè)新的高級機(jī)器人制造研究院。這個(gè)研究院關(guān)心如何更加靈活地使用機(jī)器人，比如如何快速重組機(jī)器人系統(tǒng)，讓機(jī)器人和人緊密協(xié)作。以上是機(jī)器人硬件結(jié)構(gòu)和控制領(lǐng)域。

　　二、智能機(jī)器人的感知、理解環(huán)境的能力

　　我們在機(jī)器人感知領(lǐng)域有一個(gè)很大的團(tuán)隊(duì)，關(guān)注4個(gè)大的核心方向。第一個(gè)是環(huán)境理解和物體識別。這是一個(gè)自動(dòng)駕駛的例子。左邊是輸入視頻，右邊則是對視頻內(nèi)容的理解，每個(gè)不同的物體和區(qū)域用不同的顏色標(biāo)出。為了能讓機(jī)器人做出智能的決策，對環(huán)境有著盡可能詳細(xì)的理解十分關(guān)鍵。

　　你們可能對深度學(xué)習(xí)技術(shù)十分熟悉。過去幾年中，這項(xiàng)技術(shù)是**性的，而且正在快速發(fā)展，多虧了神經(jīng)網(wǎng)絡(luò)，機(jī)器學(xué)習(xí)，深度學(xué)習(xí)技術(shù)。這項(xiàng)技術(shù)的一個(gè)關(guān)鍵問題是它需要非常多的數(shù)據(jù)進(jìn)行訓(xùn)練。而在有些人期望的場景中，如交通信號或者區(qū)分這個(gè)物體和那個(gè)物體，設(shè)計(jì)這個(gè)系統(tǒng)的方法很有限，而且很難擴(kuò)展，很難真正的適用于實(shí)際場景。我們想做的是使用非常少的樣本訓(xùn)練出識別的系統(tǒng)。例如，當(dāng)我在能識別這個(gè)物體之前，我不需要看關(guān)于這個(gè)物體的上百萬個(gè)樣本。我只要看過這個(gè)物體一次，今后就能認(rèn)出它。怎么在計(jì)算機(jī)視覺，在感知中做到這些，是我們的一個(gè)主要研究方向，也是一個(gè)現(xiàn)在面臨的主要挑戰(zhàn)。

　　之前我們講的識別環(huán)境，理解環(huán)境是感知的第一個(gè)關(guān)鍵領(lǐng)域。下面我要講述的另一個(gè)關(guān)鍵領(lǐng)域是時(shí)空重建。時(shí)空重建意味著，你能通過一系列傳感器數(shù)據(jù)，盡可能精確的重建出世界模型。這里的例子，用的是三維點(diǎn)云，這實(shí)際上是一座橋，有一個(gè)飛行器從橋下以一個(gè)自然的速度飛過。

　　這里的挑戰(zhàn)是，重建精確世界模型的系統(tǒng)需要越簡單越好，越便宜越好，越小型越好。用一個(gè)價(jià)值百萬的非常復(fù)雜的傳感器系統(tǒng)來做這些是沒什么應(yīng)用價(jià)值的，而這里用的是一個(gè)非常便宜的無人機(jī)計(jì)算出來的。這是另一個(gè)自動(dòng)駕駛的例子。

　　自動(dòng)駕駛中的一個(gè)關(guān)鍵問題是在沒有GPS的情況下，只從傳感器數(shù)據(jù)，實(shí)時(shí)的，盡可能精確的進(jìn)行定位和建圖。這是一個(gè)汽車以大約100km/h的速度在匹茲堡的街道上行駛的例子，結(jié)合激光數(shù)據(jù)和視覺數(shù)據(jù)，進(jìn)行一次非常精確的重建工作。這是一項(xiàng)最新技術(shù)的例子。這家無人機(jī)以60km/h的速度運(yùn)行，這里的重建是實(shí)時(shí)的，在飛行中重建出了當(dāng)時(shí)的3D環(huán)境。

　　上面是我們的60km/h速度的實(shí)時(shí)3D場景重建技術(shù)，它被用在無人機(jī)控制中。和靜態(tài)3D場景重建相比，更具挑戰(zhàn)性的是動(dòng)態(tài)場景的重建。場景是動(dòng)態(tài)的，動(dòng)態(tài)指的是場景里的物體是運(yùn)動(dòng)的。這里花費(fèi)了我們很多的精力。這是一個(gè)全世界獨(dú)有的設(shè)備，叫做全景工作室(Panoptic Studio)。

　　圖里面的你能看到的每一個(gè)黑色小點(diǎn)都是一個(gè)攝像頭，在這個(gè)穹頂當(dāng)中有500個(gè)攝像頭同時(shí)對場景進(jìn)行觀測。這是一個(gè)示例場景，現(xiàn)在有很多東西都在運(yùn)動(dòng)，我們有這個(gè)場景的500個(gè)不同視角的同步觀測結(jié)果。從這些觀察數(shù)據(jù)中，我們不僅能重構(gòu)出這個(gè)場景的三維結(jié)構(gòu)，還能構(gòu)建出更細(xì)節(jié)的東西，場景中物體的瞬時(shí)動(dòng)作。這里面的每一個(gè)軌跡都是場景中每一個(gè)特征的運(yùn)動(dòng)軌跡?？梢钥闯?，我們重建的非常的精確，場景中的任何物體都被構(gòu)建了出來。******** Oculus的Oculus VR就是受這項(xiàng)技術(shù)啟發(fā)開發(fā)的。

　　以上我們展示的是固定在實(shí)驗(yàn)室中的固定攝像頭。我們還可以使用來自網(wǎng)上的視頻。這是一系列拍攝城市的視頻。他們可以來自汽車、公共設(shè)施。我們要做的是將所有的這些數(shù)據(jù)整合成一個(gè)完整的世界模型。我們不但能三維重建環(huán)境，還能三維重建任何在環(huán)境中運(yùn)動(dòng)的物體。這可以看出我們可以通過整合傳感器數(shù)據(jù)，重建出很精確的模型。這是我們的第二個(gè)關(guān)鍵領(lǐng)域。

　　第三個(gè)關(guān)鍵領(lǐng)域是對人的理解。我之前提到了，機(jī)器人學(xué)中一個(gè)非常大的領(lǐng)域是和人進(jìn)行交互。為了能與人交互，系統(tǒng)必須能理解人，理解人是如何運(yùn)動(dòng)的，理解人的面部表情，我在看向什么地方，理解人的意圖，理解人的內(nèi)部狀態(tài)等等。一個(gè)重要的動(dòng)作是理解面部特征，這是一個(gè)例子，實(shí)時(shí)跟蹤，視頻中只顯示了一部分的特征。

　　事實(shí)上他會(huì)跟蹤更多的信息，跟蹤幾乎所有的面部肌肉運(yùn)動(dòng)，從這里面我們就能提取出人的情感，人的意圖。這個(gè)例子是在導(dǎo)航過程中，觀察駕駛員并推測駕駛員的狀態(tài)。這是我這里的基本思想，理解面部表情。說說關(guān)于這項(xiàng)工作的兩件事。第一點(diǎn)是這項(xiàng)技術(shù)所需的主要突破是推進(jìn)在底層使用的學(xué)習(xí)技術(shù)中使用的優(yōu)化算法。第二點(diǎn)是這項(xiàng)技術(shù)是來自另一個(gè)做面部矩陣(Facial Matrix)的公司(最近被********收購了)，所以這項(xiàng)技術(shù)在不久將來很快就能加進(jìn)各位的********平臺中。

　　理解面部表情是理解人的一個(gè)重要部分，但是另一個(gè)重要部分是理解人的姿態(tài)和動(dòng)作。如果機(jī)器人和我一起走，我希望它能理解我的所有動(dòng)作，我是怎么運(yùn)動(dòng)的。這是另一個(gè)工作。這是我們最新的一個(gè)叫OpenPose的軟件，現(xiàn)在它世界中各種各樣的場合都有所應(yīng)用。這個(gè)工作是同時(shí)跟蹤多數(shù)的目標(biāo)的姿態(tài)。一旦你做到了這點(diǎn)，就可以做很多很多應(yīng)用。對于自動(dòng)駕駛的汽車，你能夠檢測到諸如行人在做什么的細(xì)節(jié);對于家庭機(jī)器人，它可以理解人是怎么運(yùn)動(dòng)的，怎么和機(jī)器人進(jìn)行交互的。

　　然而這還是不夠。如果你想要知道人在做什么，你需要理解人的手是怎么運(yùn)動(dòng)的，是如何和環(huán)境進(jìn)行交互的。我們在人的每根獨(dú)立的手指與環(huán)境交互的尺度上理解更多人動(dòng)作的細(xì)節(jié)。你可以想象，現(xiàn)在系統(tǒng)能夠通過人操縱物體的過程，理解人在做什么，能夠從細(xì)節(jié)上理解制造業(yè)的操作中人與物體的交互過程。以上第三個(gè)感知的關(guān)鍵領(lǐng)域，讓機(jī)器能理解人。

　　第四部分是傳感器。為了做到上面提到的技術(shù)，我們需要傳感器。我需要攝像頭，3D傳感器，RGBD傳感器來給我足夠好的數(shù)據(jù)來支持上述的各項(xiàng)技術(shù)。眾所周知，伴隨著智能機(jī)行業(yè)，消費(fèi)性電子行業(yè)的發(fā)展，我們在攝像頭，深度傳感器的數(shù)據(jù)質(zhì)量上取得了長足的進(jìn)步。我們現(xiàn)在有非常好的攝像頭，非常好的深度傳感器，例如Kinect，realsense。從表面上看，傳感器問題已經(jīng)被解決了，我們有很好的傳感器能用。然而實(shí)際上并不是這樣的。事實(shí)上在現(xiàn)實(shí)中的機(jī)器人應(yīng)用中，當(dāng)我們需要他們時(shí)，這些傳感器并不能在我們需要的場景中使用。

　　首先，在我們希望使用這些傳感器的實(shí)際場合中，有非常復(fù)雜的照明和光線條件。我們還要能處理觀測難度高的透明的物體，如金屬制的反光物體。我們想能處理重要的物流或零售應(yīng)用。我們需要能處理各種極難處理的物體，這些物體是透明的，表面還會(huì)反射出人的倒影。

　　在室外自動(dòng)駕駛場景中，我們要處理非常困難的逆光場景。在這些所有的條件下(例如壞天氣下雨下雪，室外場景)在這些所有條件下，現(xiàn)有的傳感系統(tǒng)基本上都會(huì)失效。任何現(xiàn)有的RGBD傳感器，像Kinect或realsense，在這些場景里都會(huì)失效。這些真實(shí)世界的環(huán)境條件就是我們想要處理的條件。

　　很多的大家知道的解決方案像激光掃描設(shè)備(例如Velodyne)，他們的問題是依賴于機(jī)械，很大，很復(fù)雜。而像Kinect這樣的則在這些條件下表現(xiàn)的不好。為了搭建魯棒的機(jī)器人系統(tǒng)，我們需要更好的傳感器。這是我們面對的一個(gè)主要挑戰(zhàn)。我們花費(fèi)了大量的精力在傳感器技術(shù)中。

　　基本思路是如何精巧地構(gòu)建透射出去的光線和觀測反射回來的光線?；镜南敕ㄊ窃噲D區(qū)分出什么光是我們關(guān)心的，什么光是我們不關(guān)心的。如果你試圖透過塵土或者雨觀察，有一部分光會(huì)被灰塵反射、折射，這些光我們是不關(guān)心的，我們關(guān)心的是場景反射回的光。

　　所以這項(xiàng)工作的關(guān)鍵就是，我們要嘗試設(shè)計(jì)一個(gè)能區(qū)分這兩部分光的系統(tǒng)。這是一個(gè)叫Episcan的傳感器。它的工作原理十分簡單，一個(gè)非?？煽康募す獍l(fā)射器和一個(gè)相機(jī)非常仔細(xì)地同步到一起。這樣它可以將光和目標(biāo)物體的深度信息從環(huán)境中其他的干擾反射中區(qū)分出來。這是我們的一個(gè)例子，傳感器試圖獲取燈的數(shù)據(jù)。

　　如果是通常的攝像機(jī)效果是這樣的。所有的東西都被燈光掩蓋住了。而我們的傳感器可以做到看見臺燈的內(nèi)部細(xì)節(jié)，盡管我們投射的能量的強(qiáng)度并沒有左邊那么強(qiáng)，而且我們能夠得到這個(gè)臺燈的三維形狀，即使在存在強(qiáng)光干擾的情況下。這里是另外一個(gè)例子，測量戶外環(huán)境的三維數(shù)據(jù)。

　　我們沒有辦法用Kinect或者realsense等等來測量。最重要的部分是，這一類工作致力于開發(fā)在所有情況下都能展示清晰結(jié)構(gòu)和形狀的流明攝像機(jī)，無論室內(nèi)還是室外，無論物體什么類別。這種在所有情形下都能工作的檢測能力是很重要的。讓我們來看看我們在其他領(lǐng)域所做的事情。剛才所講的呢就是感知的領(lǐng)域，理解環(huán)境、重構(gòu)環(huán)境，包含了存在任意的移動(dòng)，理解人的行為和其他比較麻煩的分析。

　　三、機(jī)器學(xué)習(xí)

　　這里要注意的是我們不可能顯式地對機(jī)器人編程，我們能做的，是從數(shù)據(jù)中學(xué)習(xí)，以及從數(shù)據(jù)中學(xué)會(huì)如何對環(huán)境做出反饋。這是我們工作的重心。基本想法是要賦予機(jī)器人孩童那樣從經(jīng)歷中學(xué)習(xí)的能力?？客嫠：团c環(huán)境互動(dòng)，孩童學(xué)會(huì)了如何抓東西。這就是我們在機(jī)器學(xué)習(xí)中想要做類似的事。

　　這不意味著你要讓一個(gè)機(jī)器人從零開始學(xué)習(xí)，而是說如果我們能夠?qū)W習(xí)一些策略，學(xué)習(xí)如何反饋環(huán)境，我們能夠讓機(jī)器人適應(yīng)力更強(qiáng)，對變換的環(huán)境更適應(yīng)，同時(shí)讓他們從錯(cuò)誤中吸取教訓(xùn)。這就是這類研究的基本想法。

　　讓我們來看一些例子。這是一個(gè)學(xué)習(xí)如何抓取物品的例子。這里我們讓機(jī)器人花了七百小時(shí)來嘗試抓取物品，有時(shí)成功，有時(shí)失敗，總共嘗試了有5萬次左右。如果你嘗試得足夠多，你就有了足夠多的成功和失敗的案例，你就能從中學(xué)習(xí)到如何對一個(gè)特定輸入采取行動(dòng)的策略。

　　從這張圖能看到我們失敗和成功的案例。然后我們就學(xué)會(huì)了如何抓取物體?，F(xiàn)在屏幕上的物品是之前機(jī)器人沒有見過的，但是機(jī)器人卻知道如何通過之前的訓(xùn)練來判斷如何抓取他們。

　　這篇論文：

　　(Lerrel Pinto and Abhinav Gupta,Supersizing Self-supervision:Learning to Grasp from 50K Tries and 700 Robot Hours)

　　在2016年的IEEE ICRA會(huì)議上獲得了最佳論文獎(jiǎng)?，F(xiàn)在我們看到了如何從經(jīng)歷中學(xué)習(xí)。

　　但是現(xiàn)在更令人興奮的是能夠?qū)W習(xí)一些更復(fù)雜的策略。就拿這個(gè)例子來說，只是學(xué)習(xí)了抓東西，而沒有學(xué)如何把東西拿穩(wěn)，如何穩(wěn)定地操控。事實(shí)上我們可以走的更遠(yuǎn)。這里我們讓機(jī)器人學(xué)習(xí)如何抵抗逆境，從而學(xué)會(huì)如何把東西抓穩(wěn)。這就跟小孩子如何學(xué)會(huì)判斷怎么抓，哪個(gè)方向更穩(wěn)是一樣的。這就是利用物理互動(dòng)和對抗來學(xué)習(xí)更多復(fù)雜的策略。

　　現(xiàn)在為止講了操控和抓取的例子。另外一個(gè)我想提一下的是，多任務(wù)學(xué)習(xí)。在這里機(jī)器人除了能抓取，還能推，或者戳一個(gè)物體。所以一個(gè)研究領(lǐng)域就是如何跨任務(wù)地學(xué)習(xí)，掌握多種技能。剛才講的都是操控相關(guān)的，你也可以學(xué)一些飛行之類的技能。這是個(gè)學(xué)習(xí)飛行的系統(tǒng)。

　　和剛才講的抓取一樣，這個(gè)也是靠不斷嘗試和犯錯(cuò)來學(xué)習(xí)飛行策略的，利用深度學(xué)習(xí)的方法來學(xué)習(xí)策略。等到無人機(jī)學(xué)習(xí)了很多成功失敗之后，它便能僅僅利用搜集和學(xué)習(xí)到的數(shù)據(jù)真正自主飛行了。這些學(xué)到的復(fù)雜技能向我們展示了學(xué)習(xí)的強(qiáng)大之處。這些便是機(jī)器人系統(tǒng)的另一個(gè)重要部分。重申一下，我們的目標(biāo)不是讓機(jī)器人從零開始，我們的目的是讓機(jī)器人從數(shù)據(jù)中學(xué)習(xí)從而更有適應(yīng)性，更靈活。

　　四、自主性，自己決策的能力

　　這里有一個(gè)十年前的例子——DARPA挑戰(zhàn)賽。在第一個(gè)自動(dòng)駕駛的公開賽中，我們當(dāng)時(shí)獲得了冠軍，這個(gè)隊(duì)伍后來到Google公司參與無人車研發(fā)，開啟了整個(gè)無人車領(lǐng)域的工業(yè)和研究的發(fā)展。這個(gè)例子里展示的自主性就是自動(dòng)駕駛。自動(dòng)駕駛其實(shí)開始于很久以前。

　　這是1986年，也就是三十多年前的例子，一個(gè)在CMU開發(fā)的叫做NavLab的系統(tǒng)。車上面有基本的計(jì)算系統(tǒng)，還有個(gè)超大的攝像頭，用藍(lán)色方框標(biāo)出的是一個(gè)激光雷達(dá)，應(yīng)該是第一個(gè)用于自動(dòng)駕駛的激光雷達(dá)。這算是Velodyne的祖先，也是現(xiàn)在很多自動(dòng)駕駛雷達(dá)的前身。它可以提供60×256的距離測量能力。如圖便是這個(gè)三十年前的自動(dòng)駕駛的視頻。

　　這是利用神經(jīng)網(wǎng)絡(luò)的自動(dòng)駕駛，以攝像頭拍攝的圖片為輸入，輸出控制方向的行為。這算是現(xiàn)在用于自動(dòng)駕駛的模仿學(xué)習(xí)，深度學(xué)習(xí)的初代版本。這是激光雷達(dá)看到的深度圖像。這也是一個(gè)證明時(shí)代科技發(fā)展的案例，從三十年前到現(xiàn)在。如果你們曾經(jīng)抱怨計(jì)算資源不夠，GPU不夠，這是當(dāng)時(shí)在NavLab系統(tǒng)內(nèi)部的情況，我們使用的是工作站來運(yùn)行。

　　講了一些歷史之后，我們現(xiàn)在又在做些什么呢?我們現(xiàn)在基本在關(guān)注三個(gè)主要的挑戰(zhàn)。

　　第一個(gè)挑戰(zhàn)是自動(dòng)駕駛現(xiàn)在不能實(shí)現(xiàn)安全的駕駛，比如不會(huì)碰撞，不會(huì)發(fā)生事故。我們想要的是讓駕駛的過程很自然，我們想生成自然的、能夠?yàn)槠渌{駛員理解并合作的駕駛習(xí)慣。

　　第二個(gè)難點(diǎn)是要能讓模型把握環(huán)境的細(xì)節(jié)，這對于在擁堵環(huán)境下的自動(dòng)駕駛尤為重要。有許多的行人、許多復(fù)雜的反應(yīng)，不僅需要知道物體在哪里，還要知道環(huán)境中物體的可能意圖和行為，比如預(yù)測行人或者其他車輛的活動(dòng)、行為和相互作用。

　　最后，利用其他數(shù)據(jù)和其他車輛交流，也是一個(gè)重要的領(lǐng)域。我們整合盡可能多的數(shù)據(jù)和信息用于自主決策。這些就是在自主性中我們要關(guān)注的三個(gè)主要的領(lǐng)域。

　　五、機(jī)器人和人類的互動(dòng)

　　能夠和人類互動(dòng)是在機(jī)器人和其擴(kuò)展領(lǐng)域中很關(guān)鍵的課題。我們關(guān)注的是深入理解人類行為，特別是人類的意圖。比如我把手像現(xiàn)在這樣移動(dòng)，你應(yīng)該能猜到我要拿鼠標(biāo)，我們大腦有一個(gè)內(nèi)部的模型知道我的行為和意圖。第一個(gè)要做的就是如何構(gòu)建這樣一個(gè)理解人類的模型，特別是能夠預(yù)測意圖和行為的模型。第二個(gè)要做的事如何利用這個(gè)預(yù)測模型與人互動(dòng)，這和一些機(jī)器人合作的方式和技術(shù)有關(guān)。

　　我這里舉個(gè)例子，一個(gè)讓機(jī)器人系統(tǒng)和人類控制合作的極端條件下的例子，把人類的意圖和系統(tǒng)控制相結(jié)合。這是匹茲堡大學(xué)的癱瘓病人，她不能移動(dòng)自己的手和腳，完全沒有行動(dòng)能力。你能看到她擁有一個(gè)和她大腦相連的機(jī)械手臂，能夠接收大腦的信號，并根據(jù)信號來控制手臂。這個(gè)腦部連接技術(shù)是之前被使用過的，這個(gè)技術(shù)的問題在于她僅僅能比較粗略地控制手臂，不可能用大腦信號來做一些非常精確的操作。即使病人經(jīng)過了訓(xùn)練，她也不能夠成功完成有用的任務(wù)，因?yàn)槟銢]辦法達(dá)到人類本身的控制水平。

　　這里的想法就是利用我之前所講的所有東西。先有一個(gè)視覺系統(tǒng)來捕捉和理解整個(gè)場景，加上一個(gè)意圖識別系統(tǒng)來理解人的意圖。就像我開始這樣移動(dòng)，可能是要抓起這個(gè)鼠標(biāo)，這個(gè)系統(tǒng)對人的意圖會(huì)有一些概率的預(yù)測。給定意圖之后，系統(tǒng)就能控制手臂、執(zhí)行任務(wù)。

　　極端的來說，一個(gè)人在想他要抓鼠標(biāo)，然后系統(tǒng)知道了這一意圖并且執(zhí)行了任務(wù)。這是一種對來自大腦信號的控制和人工智能的控制的獨(dú)特的整合。

　　接下來是一個(gè)視頻的展示。右邊是完全來自大腦信號的機(jī)械手臂控制，左邊是整合了大腦信號和人工智能系統(tǒng)的手臂控制，也就是剛才講的意圖識別，場景理解等。右邊的情況下她不能抓取目標(biāo)物體，而左邊她可以順利完成。僅僅是這個(gè)簡單的抓取，對純大腦信號來說都是不可能的，卻在與人工智能系統(tǒng)的整合后變得可能了。這就是我在開頭所說的，我們真正感興趣的是我們以前不可能有的新技能，做這么多操作以前對這個(gè)病人來說是不可能的，這就是我說的賦予人新技能的機(jī)器人技術(shù)。

　　不過，抓一個(gè)東西顯然不是非常讓人興奮的操作。這里有一個(gè)更難的，對純大腦信號完全不可能的操作，開門就是一個(gè)這樣的例子。這里是整合了大腦信號和智能系統(tǒng)(這里是病人的頭部和大腦植入物體)。她即將使用整合了大腦信號和意圖識別等的系統(tǒng)來開門。這是一個(gè)聽起來不難但實(shí)際很難的操作，因?yàn)樗藘煞N不同的運(yùn)動(dòng)，將旋轉(zhuǎn)和平移如此精確地同時(shí)執(zhí)行，純粹的大腦信號控制是不可能做到的。

　　剛才講的分別是一個(gè)極端的例子和不那么極端的例子。讓我用這些技術(shù)整合起來的系統(tǒng)來結(jié)束這個(gè)話題。當(dāng)我們擁有了這么多科學(xué)技術(shù)，我們需要把它們整合成一個(gè)完整的系統(tǒng)，我目前為止講的都只是其中的成分之一，感知，學(xué)習(xí)等等。很多工作落在一些基本的事件上。這些圖片展示了一些完整系統(tǒng)，采礦業(yè)，農(nóng)業(yè)，制造業(yè)，以及探測業(yè)(一個(gè)非常大且重要的方面)。我們在不同的設(shè)備上做了很多工作，在國家機(jī)器人工程中心(在CMU)，在這里我們能夠用剛才講到的來做一個(gè)更大的機(jī)器人系統(tǒng)。

　　我們來看看這些實(shí)際的機(jī)器人系統(tǒng)的主要挑戰(zhàn)又有什么。很重要的一點(diǎn)便是安全性和信任。在經(jīng)典的軟件系統(tǒng)和經(jīng)典的工程系統(tǒng)，我們建立了良好的測試、驗(yàn)證證明這些系統(tǒng)的框架，有一些正規(guī)化的、公式化的驗(yàn)證軟件。

　　問題是，我們?nèi)绾卧O(shè)計(jì)正規(guī)化的驗(yàn)證框架，驗(yàn)證那些不僅僅是由軟硬件組成的系統(tǒng)，而是基于數(shù)據(jù)學(xué)習(xí)的系統(tǒng)。因?yàn)楝F(xiàn)在一個(gè)系統(tǒng)的表現(xiàn)不僅僅取決于軟硬件的正確運(yùn)行，也依賴于那些用來學(xué)習(xí)的數(shù)據(jù)。更難辦的是，如何去評估一個(gè)適應(yīng)時(shí)間改變的系統(tǒng)。

　　基于觀察的數(shù)據(jù)能夠隨著時(shí)間改變自己表現(xiàn)的系統(tǒng)，我們?nèi)绾卧u估這些復(fù)雜的有不同方向用處的系統(tǒng)，這些就是我們在建立系統(tǒng)時(shí)主要關(guān)注的一些領(lǐng)域，這是一個(gè)新興的致力于打造可信賴機(jī)器人的領(lǐng)域。這是一些我們的大項(xiàng)目的圖片，和驗(yàn)證軟件一樣，驗(yàn)證機(jī)器人系統(tǒng)。

　　我們需要有事實(shí)依據(jù)來驗(yàn)證證明系統(tǒng)的表現(xiàn)，從而使系統(tǒng)具有可預(yù)測的、能被人類所信賴和利用的表現(xiàn)。這是一個(gè)很小的例子，有一個(gè)人在與非常危險(xiǎn)的工作環(huán)境互動(dòng)，當(dāng)然是在保證安全的情況下，從而我們能更好觀測系統(tǒng)的表現(xiàn)，得到一個(gè)可信賴的系統(tǒng)。這是另外一個(gè)無人機(jī)的例子。

　　對于自動(dòng)的系統(tǒng)來說，適應(yīng)所有環(huán)境顯然是很困難的，所以我們需要有一個(gè)內(nèi)省或者叫做自我評估的系統(tǒng)，讓系統(tǒng)能夠自己評價(jià)自己的表現(xiàn)，然后在系統(tǒng)即將陷入困境、失敗之前采取正確措施。比如你在開車，突然你被大霧包圍，你立刻就能知道你的視覺系統(tǒng)肯定會(huì)失效。

　　我們需要賦予機(jī)器人同樣的能力，讓機(jī)器人能自我評估，并且在知道其表現(xiàn)會(huì)受影響的情況采取正確措施。這便是這一類工作的思想所在。

　　在圖中這里例子里，左邊的視頻是無人機(jī)的單目圖像，右邊是從無人機(jī)單眼攝像得到的三維圖像，最右邊是代表了可能失敗的概率，越高代表概率越大。無人機(jī)一邊飛行一邊檢測自己的飛行表現(xiàn)，就像你開車時(shí)能知道視野如何，自己開車的表現(xiàn)會(huì)如何。這是我們在理解、衡量以及增強(qiáng)一個(gè)自動(dòng)系統(tǒng)時(shí)關(guān)注的一方面。

　　更普遍來講，我們致力于建立自主系統(tǒng)的集成科學(xué)。它帶給我們正規(guī)化的工具和方法，把之前說的那些技術(shù)成分整合進(jìn)在現(xiàn)實(shí)應(yīng)用中能被真正信賴的系統(tǒng)。以上就是我想和大家分享的。主要關(guān)注一些基礎(chǔ)的研究和方向，動(dòng)作、感知、機(jī)器學(xué)習(xí)、自主性以及和人的交互，以及在技術(shù)集成領(lǐng)域的一些主要挑戰(zhàn)，如何把技術(shù)成分融合成實(shí)際應(yīng)用的系統(tǒng)。我的演講就到此結(jié)束。

網(wǎng)上報(bào)名

文中圖片素材來源網(wǎng)絡(luò)，如有侵權(quán)請聯(lián)系644062549@qq.com刪除

轉(zhuǎn)載注明出處：http://www.haoleitv.com

人工智能的五個(gè)核心領(lǐng)域

相關(guān)推薦