什么是意識?如何產生意識?
這個困擾了人類幾千年的問題,此前似乎只屬于哲學家和詩人的討論范疇,但在今天已經越來越成為人工智能創(chuàng)業(yè)者們必須面對的問題。
【資料圖】
從谷歌程序員驚呼AI覺醒,到輿論對人工智能繪畫的熱議——這個2022年的年末,一場關于AI的全民大討論再度開啟,機器意識的“奇點”似乎又一次在向我們招手。
本期險峰聊聊,我們請到了心識宇宙的創(chuàng)始人陶芳波博士,大家一起聊聊機器意識,聊聊AI的現(xiàn)狀和未來。
01 什么是意識?如何產生?
被譽為“最硬核AI題材科幻作品”的《西部世界》,給出了這樣一種猜想。
劇中,土豪們建立了一座類似元宇宙的主題樂園,同時創(chuàng)造了一群AI仿生人作為NPC接待員,游客們每天從外面的世界來園區(qū),在仿生人的陪伴下完成各種劇情路線的沉浸式體驗,以滿足人類最底層的欲望和感官刺激。
然而,既然樂園的最大樂趣在于游客可以“為所欲為”,自然也就沒人會遵守原定的故事線,但AI的程序是已經設定好的,面對游客越來越多超出預設的“隨機行為”,大量bug也隨之出現(xiàn)。
最終,一位名叫德洛麗絲的AI接待員成功“覺醒”,產生了自主意識,后續(xù)的劇情也由此展開。
整個《西部世界》的故事構架,都源于一個著名心理學概念——二分心智(Bicameralism)。
簡單來說,它假設人的大腦分為AB兩個部分:一半大腦的A部分儲藏的記憶和經驗,另一半B則主管行為。
直覺上,我們會認為「意識」先于A側腦區(qū)產生,然后下達指令驅動B側大腦做出動作。
然而在「二分心智」理論看來,事實卻并非如此。
舉個例子,一些癲癇病人在切除了連接左右腦的部分組織后, 病情雖會緩解, 但也會出現(xiàn)一些奇怪的癥狀。
比如,當接受到一個「微笑」指令的時候,病人會按照醫(yī)生的要求微笑,但當問起他為什么微笑,病人卻會給出一些其他的理由,比如“我覺得醫(yī)生的眼鏡很好笑”,或者“我今天很高興”之類。
換言之,他并不會認為自己是被要求微笑才微笑——這說明人腦其實是在身體做出某個動作之后,才會“編出”一個故事對自身行為合理化。因此,意識的產生不僅先于行為,也同樣先于邏輯與思考。
究其原因,人類大腦進化其實是一個不斷疊加的過程。
最先形成的是腦干(爬蟲腦),負責心跳呼吸這些最原始的生理活動;其次進化出的是小腦(舊腦),也叫邊緣系統(tǒng),包括海馬回、杏仁核、丘腦等;最后產生的才是處理邏輯、語言與記憶的大腦皮質(即新腦或認知腦)。
因此,二分心智其實是一個極簡版的腦模型,大腦皮層之于邊緣系統(tǒng),就像是樂園管理者之于AI接待員,前者下達指令,而后者遵循指令(盡管如而前文所述,這種“控制”關系其實并不存在)。按照劇中的假設,既然意識先于大腦皮質產生,當兩者間的鏈接被切斷(即“二分心智崩潰”),“覺醒”也便由此誕生。
當然,二分心智和黑暗森林一樣,都只是基于一定科學原理的科幻假設,現(xiàn)實世界要更復雜得多,比如意識產生并不只來自于邊緣系統(tǒng),但這個簡化版的理論已經足夠直觀的說明:過去那些我們制造出來的AI,無論訓練得多么完美,都一定不會誕生自主意識。
02 全腦模擬:機器意識誕生的一種可能
在2017年之前,所有AI模型本質上都在做一件事,就是模仿大腦皮質中的神經回路。
比如人臉識別,它的前半段是卷積神經網絡,主要是用類似視覺神經的方式處理一些光信號,后半段則是一個類似新皮層的判斷器,尋找與之匹配的物體。
這個過程非常像人眼接收到光線后,再通過大腦皮質進行判斷。
但是,無論是模擬「認知腦區(qū)」的機器視覺,亦或是模擬「語言腦區(qū)」的語言語義識別,都還只是停留在對「大腦皮質」層面上的模擬——而我們已經知道,意識(或者說智能)并不單獨來自于那里。
三年前我從美國回來,在阿里巴巴創(chuàng)立神經符號實驗室,就是受到Bengio啟發(fā),想挖掘一下機器智能究竟可以提升到什么維度。當時我研究了很多腦科學、AI、甚至宗教方面的書籍和論文,慢慢認識到意識之所以復雜,因為它不僅是一個技術工具,而是一個由大量不同層面的信息結構組合在一起,進化了億萬年后才誕生的「結果」。
當系統(tǒng)足夠復雜時,就會在宏觀上呈現(xiàn)出一些微觀上無法表達的現(xiàn)象——比如人腦中其實是找不到一個專門負責產生「意識」的區(qū)域。那么「我」是怎么產生的?這是一個來自生物潛意識里的概念,每個人每天會圍繞「我」產生很多「念頭」(宗教里也叫做動念)。
認知科學里有個詞叫Global Workspace(全局工作站),認為全局工作站里有很多thought(即念頭)不斷產生和流動。比如你跟別人聊天,腦海中一下會產生5個念頭,而你在思考后會從中選擇一個表達出來。
這些「念頭」控制著大腦內部不同的低維意識,盡管我們尚不知道它來自何處,但「我」會調動大腦皮質里感知、認知、視覺、語言等不同腦區(qū)來為它服務。
腦區(qū)本身只是信息成分,如果沒有「念頭」和思維機制,也無法像人一樣思考。
總之,人腦的整體性,比單一的大腦皮質要復雜得多,只依靠模擬大腦皮層部分區(qū)域的單一神經網絡模型,無論做得多大都無法呈現(xiàn)真正的人類意識。
而要想最終創(chuàng)造出數(shù)字生命,就必須從全腦的角度去模擬它。
這個結論在2019年還很不被技術派認可,那時主流觀點認為人工智能只靠深度學習已經足夠了——站在行業(yè)發(fā)展的角度看也很正常,因為深度學習自己也曾經歷過類似的過程。
早在1970年代,行業(yè)內占統(tǒng)治地位還是「專家系統(tǒng)」學派,也叫做符號主義,符號主義認為人類是通過概念和符號理解世界,而不是靠視覺信號,那不如就做一個超級大的概念圖,一層層的分下去,AI需要什么判斷信息就去圖譜里找。
神經網絡學派在當時還被符號主義視為“異類”,拿經費、發(fā)論文都很困難,直到2012年AlexNet在ImageNet大賽上奪冠,證明了神經網絡算法的巨大潛力,深度學習才真正翻身成為正統(tǒng)。
這也是人工智能發(fā)展的規(guī)律之一:邊緣理論總是要不斷挑戰(zhàn)并打破主流。
令人欣慰的是,隨著今天神經網絡的潛力挖掘越來越困難,大家的認識也慢慢發(fā)生一些變化,一個標志性事件是Facebook AI research創(chuàng)始人、圖靈獎獲得者Yann LeCun,在今年6月寫了一篇70頁的技術文章,認為只有創(chuàng)造出一臺完整的數(shù)字大腦,AI才能具有真正的人類意識——很高興看到越來越多行業(yè)內的頂尖專家開始持有相同觀點。
03 大模型:機器意識的基座
2022年AI概念的再度火爆,很大程度上有賴于一批現(xiàn)象級AI內容生成工具的誕生,比如Stable Diffusion,MidJourney,Stability.ai 等等。
它們可以在30秒內生產出一張真假難辨的1080p照片級圖像,亦或是一幅極高審美水準的繪畫作品,Diffussion Model的表現(xiàn)大大超過了之前的GAN和VAE,效果好得令人驚嘆。
(圖:一幅著名的數(shù)字油畫,由MidJourney的AI生成,在今年引發(fā)了巨大爭議)
剛才提到,2017年是AI發(fā)展的一個重要節(jié)點,那一年Google Brain發(fā)表了一篇名為《Attention Is All You Need》的論文,首次提出了自然語言處理模型 Transformer(轉換器模型),解決了AI的序列轉換問題,可以將數(shù)據從一維字符(比如文字)轉換為二維數(shù)組(比如圖像)。
在2017年之前,研究機器視覺和語言語義的實質上是兩撥人,彼此之間也沒什么可聊的,但在Transformers誕生后,任何可以被序列化的信號都能夠找到對應的輸入或輸出。
而我們知道,文字、圖片、聲音、蛋白質、氨基酸,包括DNA,本質上都是一段段的序列參數(shù)——這樣一來,等于所有的AI算法就可以被Transformers統(tǒng)一起來了。
后來OpenAI在此基礎上造出了大名鼎鼎的GPT-3,也由此將AI帶入了「大模型」時代。
區(qū)別于以往單一功能的AI,大模型(即通用模型)是一套通用解決方案——它既可以畫畫,也可以寫作,還可以敲代碼,只需要給AI提供一定數(shù)量的特定數(shù)據進行訓練,就可以得到一個質量極高的輸出結果。
這其實也更符合我們對于「智能」的認知,事實上不僅僅是人類,大多數(shù)動物的智能也非常通用,遠遠超過目前的任何機器或AI。
那么大模型是如何實現(xiàn)通用智能的呢?它其實是把海量信息壓縮成序列參數(shù),在壓縮過程中完成對信息結構的理解,也就是我們常說的「抽象」。
這就很像人腦認識世界的過程,比如一個小孩生下來,如果沒有老師教,他首先能要做的就是觀察周圍,從這個世界獲得信號,我們說學習的本質就是壓縮和抽象信號,然后把這些信號轉化成神經元可以承載的信息。
本質上,大模型就是把AI已經壓縮、抽象好的信息,通過文字或圖像的方式展現(xiàn)出來。
然而我想說的是,盡管大模型已經足夠驚艷,但它依然無法誕生出機器意識。
因為這個壓縮+抽象的過程,本質還是在模擬大腦皮層的運作,但腦皮層并不只是人類所獨有,狗、大象、鯨魚都有,結構也都差不多,所以這些動物也能很好地理解周圍環(huán)境,但它們卻無法具備人類一樣的意識。
一個簡單例子是,大模型不具備長期記憶力,比如你和LaMDA說了一件今天發(fā)生的趣事,它會給你一個反饋,但等你第二天再提起時,它是記不住的。
而記憶是什么?是「我」對于「你」的認知,我和你之間的每次對話,都是在延展我對你的了解、加深我們之間的關系。
比如兩個老友重逢,一見面她可能會說你最近又瘦了,你可能會問她和上次提到的新男友相處得如何,而這些大模型都是沒有的。
大模型會“理解”上下文,但這種“理解”更像是一種基于算法的預測,它不會理解與正在對話的「你」到底是什么樣的人,更不要說像人一樣以「我」來驅動思維系統(tǒng)。
最近深度學習的創(chuàng)始人Yoshua Bengio和Yann LeCun也都表達了類似的觀點,認為大家可能對大模型的期待過高了,單純通過堆疊數(shù)據達到人類的智能水平是不切實際的。
不過在我看來,大模型依然是AI發(fā)展史上非常重要的一環(huán),它是構成機器意識的底座和基石。今天谷歌、微軟都把自己的大模型作為對外服務的產品,只需要花錢購買即可,此外也有很多開源免費的大模型產品。
這些都是屬于創(chuàng)業(yè)公司的機會,相當于省去了幾千萬美金+幾個月訓練成本,各行業(yè)的創(chuàng)業(yè)者都可以把大模型作為底座,推廣到不同的垂類場景中,由此產生出大量新的創(chuàng)新價值。
這也是我們正在做的事情——在大模型之上 top down 構建出一個數(shù)字大腦,它分為不同的腦區(qū),有常識系統(tǒng)、感知系統(tǒng),記憶系統(tǒng)等等;我們最核心的技術就是讓這些腦區(qū)之間實現(xiàn)動態(tài)串聯(lián),把一個個「念頭」分發(fā)到不同的腦區(qū),讓AI虛擬人可以產生一定的自主性。
04 AI距離自主意識還有多遠?
以自動駕駛作類比的話,機器意識目前大概位于L1和L2之間,其中有一些可能已經達到L2水平了。
但要C端用戶真正感覺AI像一個「數(shù)字生命」,可能需要達L3或L4的水平,就是要能像人一樣實現(xiàn)「自然的交互」,它具體包含幾個部分:
第一,是要有「開放域」的對話能力。
比如你和一個智能音箱聊天,遇到回答不上來的問題,它會說我不聽懂,于是對話就終止了,但我們知道人和人交流不是這樣的——只有開放域的交互才會讓人覺得自然,而不是只能在特定場景下對話。
第二,是對于語義背后動機的真實理解。
比如說你對AI說,“我好想畫一幅畫”——這時你是想讓AI幫你畫一幅畫?還是你自己想畫,需要AI建議你畫什么?還是僅僅想表達一種情緒?
這些對動機的精確解讀,非常依賴AI對用戶個人的了解,而這一切又非常依賴于AI是否能夠記住用戶之前說了什么,以及基于這些記憶產生新的認知和判斷。
第三是「主體性」,就是說AI要能夠主動去撩你。
現(xiàn)在的AI都是對話的應答方,你問它才回答,真正的AI應該是你回到家,對它說播放音樂,它說好的,但我聽出你的聲音很累,今天你過的怎么樣?
其實很多時候,我們都不是想要主動發(fā)起某個話題,而只是想在聊天中獲得一些情緒價值。
這種一切的發(fā)起都是AI內心世界的反應,是內源型的AI最大的不同。外源AI可以成為一個很好的服務者或者說工具,但只有內源AI才能陪伴獨立的個體生命。
第四,是可以「動態(tài)進化」。
大模型本質是一個通用信息提取器,面對同一個輸入,輸出就不會變化,但人的觀念是會改變的,所以我們會在不同腦區(qū)設計一套思維機制是影響虛擬人行為。
比如你可以一直給它灌輸,哪些行為對的,面對某個問題應該怎么去思考,就像影響身邊的朋友一樣,AI也會慢慢被改變,變成不同類型的人格。
上述這些功能,未來都可以通過對全腦的模擬慢慢實現(xiàn)。
其實回顧整個AI的進化主線也非常清晰簡單,就是在不同層面和不同尺度模擬人腦。
最開始我們研究如何模擬神經元,然后是從神經元到神經回路(比如卷積網絡),慢慢有了大模型,開始模擬整個腦皮層,下一步就是模擬整個大腦的結構——從微觀、中觀到宏觀,現(xiàn)在人類的AI技術就處于第三階段向第四階段邁進的過程中。
未來的某一天,人類很可能會像造物主一樣,創(chuàng)造出和我們一樣智慧水平的數(shù)字生命,這將從社會層面重塑人類文明底座;那時可能90%的智慧體都不再是人類而是AI,整個社會結構也會隨之改變,人類文明也會進入一個全新的階段。
作為一線從業(yè)者,我們對于技術變革速度的感受會更直觀一些:不出意外的話,那一天會比大多數(shù)人想象的更快到來。