(相關(guān)資料圖)
全世界都在談?wù)揅hatGPT將帶來(lái)顛覆性的技術(shù)革命,但人工智能訓(xùn)練師李杰卻一點(diǎn)也激動(dòng)不起來(lái)。
為了完成單價(jià)4分錢的計(jì)件工作,李杰和幾十個(gè)人坐在一間擺設(shè)如同初代網(wǎng)吧的屋子里,每天對(duì)著電腦劃拉鼠標(biāo)幾千次。
他的職責(zé)是為訓(xùn)練人工智能模型準(zhǔn)備“飼料”,將大量的文字、語(yǔ)音、圖像打上標(biāo)記——“眼珠”、“四川話”、“綠化帶”。只有被標(biāo)注過(guò)的數(shù)據(jù),才能被人工智能模型識(shí)別,訓(xùn)練出它的分辨能力。
李杰做得最多的是道路圖片標(biāo)注,亦即給道路圖片上的物體標(biāo)注好名稱、顏色等詳細(xì)信息,業(yè)內(nèi)俗稱“拉框”。
效率高的時(shí)候,他一天可以拉2000-3000個(gè)框,按照一個(gè)框4分錢計(jì)算,他一個(gè)月能賺三千塊左右。對(duì)于職校畢業(yè)、身在西北縣城的青年來(lái)說(shuō),這份收入還過(guò)得去。
同樣的場(chǎng)景也出現(xiàn)在非洲的肯尼亞。該國(guó)首都內(nèi)羅畢有30多名工人,成為了ChatGPT的數(shù)據(jù)標(biāo)注員,他們每天工作9個(gè)小時(shí),閱讀150-200段文字,并標(biāo)注出其中包含性、暴力與仇恨言論的內(nèi)容。由于每天閱讀大量極具沖擊力的文字,有人會(huì)因?yàn)橐欢蚊鑼?xiě)而做上一周噩夢(mèng)。
這些工人能獲得每小時(shí)1.32美元的稅后收入,如果完成既定的任務(wù),時(shí)薪可以上升至1.44美元,并有大約70美元的獎(jiǎng)金,相當(dāng)于一個(gè)月掙2500元—3000元人民幣,比當(dāng)?shù)匾话闼{(lán)領(lǐng)工作強(qiáng)些。
在人工智能產(chǎn)品卷起巨浪的時(shí)候,從肯尼亞、烏干達(dá)再到印度、中國(guó),水下還有一群不被看見(jiàn)的“人工智能訓(xùn)練師”,在簡(jiǎn)陋的工作環(huán)境下,以最簡(jiǎn)單的技能,與最前沿的技術(shù)產(chǎn)生了聯(lián)系。
伺候人工智能
李杰對(duì)人工智能的理解,是手機(jī)上的智能語(yǔ)音助手,“就好像蘋(píng)果的Siri”。
他在職校念電子商務(wù),同學(xué)大多去了電商公司當(dāng)客服,他時(shí)常聽(tīng)到同學(xué)對(duì)工作的抱怨。相較之下,數(shù)據(jù)標(biāo)注的工作枯燥,卻也純粹,他只需要按部就班地完成任務(wù)、“可以在辦公室吹空調(diào),也沒(méi)什么難度,就是有點(diǎn)費(fèi)眼睛”。
給汽車進(jìn)行“拉框”,一張圖片就要重復(fù)數(shù)次類似操作
在2021年版的《人工智能訓(xùn)練師國(guó)家職業(yè)技能標(biāo)準(zhǔn)》中,對(duì)該職業(yè)的能力特征描述是“具有一定的學(xué)習(xí)能力、表達(dá)能力、計(jì)算能力;空間感、色覺(jué)正常”,普遍受教育程度寫(xiě)的是“初中畢業(yè)”。言外之意,這是一份幾乎零門(mén)檻的職業(yè)。
年過(guò)50歲的郭梅,原本在山西當(dāng)?shù)氐拿旱V上班,“抬頭是山,低頭是煤”。離開(kāi)煤礦之后,她長(zhǎng)時(shí)間找不到工作,最后成為數(shù)據(jù)標(biāo)注基地中的一名員工,每天要拉兩千個(gè)以上的框。“我從來(lái)沒(méi)有想過(guò)自己會(huì)和無(wú)人駕駛、人工智能有關(guān)系。”
除了“拉框”,李杰也會(huì)接到語(yǔ)音標(biāo)注的項(xiàng)目,通常是甲方采集到的不同地域、不同人群的語(yǔ)音,李杰必須戴上耳麥,仔細(xì)地辨認(rèn)出每一個(gè)聲音的含義。
一天下來(lái),他要聽(tīng)來(lái)自幾百個(gè)陌生人在不同場(chǎng)景下的發(fā)言,可能是伴隨著車流聲、喇叭聲的中年男人在馬路上大聲質(zhì)問(wèn),可能是講著廣東普通話的阿姨對(duì)著麥克風(fēng)發(fā)出指令,有時(shí)候,他甚至?xí)?tīng)到臟話。
這些聲音被李杰一一轉(zhuǎn)錄成準(zhǔn)確的文字,有時(shí)還需要打上說(shuō)話人的性別、情緒等更細(xì)分的標(biāo)簽,最后教會(huì)人工智能模型理解人類的語(yǔ)言,用于智能客服、智能音箱、地圖導(dǎo)航等產(chǎn)品中。
人工智能的三大基石是數(shù)據(jù)、算力與算法,數(shù)量越多質(zhì)量越高的數(shù)據(jù),往往越能夠訓(xùn)練出更“聰明”的模型。
人工智能的主流方向是深度學(xué)習(xí)。在過(guò)去,由人來(lái)告訴機(jī)器,貓身上都有哪些特征,機(jī)器根據(jù)這些特征判斷一個(gè)物體是不是貓;深度學(xué)習(xí)則是通過(guò)“喂養(yǎng)”大量不同貓的圖片,機(jī)器就能自行歸納出貓的特征。這就需要大量經(jīng)人工標(biāo)注的圖片,俗話說(shuō),有多少智能,就得付出多少人工。
數(shù)據(jù)標(biāo)注領(lǐng)域有過(guò)一個(gè)神話——ImageNet項(xiàng)目。這個(gè)項(xiàng)目數(shù)據(jù)庫(kù)擁有超過(guò)1400萬(wàn)張已被標(biāo)注的圖片,其中識(shí)別出的物體種類超過(guò)20000種——包括120個(gè)不同品種的狗。
項(xiàng)目源于斯坦福大學(xué)的人工智能專家李飛飛。2009年,業(yè)內(nèi)普遍研究方向都是模型與算法,她另尋蹊徑,改進(jìn)數(shù)據(jù)質(zhì)量。如今,ImageNet已經(jīng)是世界上最大的圖像識(shí)別數(shù)據(jù)庫(kù),被用于成千上萬(wàn)個(gè)人工智能研究項(xiàng)目和實(shí)驗(yàn)。
而在ImageNet項(xiàng)目背后,是來(lái)自167個(gè)國(guó)家的5萬(wàn)名數(shù)據(jù)標(biāo)注員,他們足足花了三年時(shí)間才完成了全部圖片的標(biāo)注。
李杰算是圖片標(biāo)注的老手了,通常發(fā)給他的數(shù)據(jù)包內(nèi)通常會(huì)有數(shù)百?gòu)埐坏鹊牡缆放臄z照片,李杰需要按照項(xiàng)目方的要求,對(duì)道路上的車輛、行人、綠化帶等物體標(biāo)注。另外還有一種常見(jiàn)的標(biāo)注任務(wù),則是標(biāo)注道路的車道線。
這種數(shù)據(jù)標(biāo)注要求特別多,“框框不能超過(guò)也不能小于,更不能漏點(diǎn),一出錯(cuò)誤驗(yàn)收不合格就得重新拉”。這些數(shù)據(jù)的最大流向是用于自動(dòng)駕駛的機(jī)器學(xué)習(xí),要確保駕駛安全,通常需要提供數(shù)以百萬(wàn)計(jì)的標(biāo)注數(shù)據(jù)對(duì)人工智能加以訓(xùn)練——背后則是無(wú)數(shù)在電腦前點(diǎn)擊鼠標(biāo)、敲擊鍵盤(pán)的李杰們。
互聯(lián)網(wǎng)版富士康
貴陽(yáng),大數(shù)據(jù)之城。
在距離貴陽(yáng)市中心約50公里的惠水縣百鳥(niǎo)河數(shù)字小鎮(zhèn),有一家擁有超過(guò)500名數(shù)據(jù)標(biāo)注員的公司夢(mèng)動(dòng)科技——其中的一半人,是附近盛華職業(yè)學(xué)院的學(xué)生。
大三學(xué)生鄭成安在夢(mèng)動(dòng)科技實(shí)習(xí),公司里的全職員工只有十來(lái)個(gè)人,管理層也是學(xué)校里的老師,“上課就是上班,老師就是經(jīng)理”。
他很熱愛(ài)這份工作,數(shù)據(jù)標(biāo)注給了他生活多一種選擇。他在上高職之前甚至沒(méi)碰過(guò)電腦,現(xiàn)在卻可以憑借一份電腦前的兼職,一個(gè)月能拿到1500元以上的收入。
鄭成安所在的惠水縣,在貴陽(yáng)88個(gè)縣區(qū)中經(jīng)濟(jì)水平排在中游,2020年時(shí)的GDP為139.16億元,農(nóng)村常住居民人均可支配收入12924元——相當(dāng)于每月1000元出頭。
有時(shí)候?yàn)榱硕鄴暌恍┥钯M(fèi),碰上緊急的項(xiàng)目,鄭成安會(huì)主動(dòng)加班。他清楚地知道,標(biāo)注員的工作很難一直做下去,他暗自下定目標(biāo),要成為管理標(biāo)注員的人。
像貴陽(yáng)這樣的城市,中國(guó)不止一個(gè)。
數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的誕生最早可以追溯到2005年。當(dāng)時(shí),著名計(jì)算機(jī)視覺(jué)專家、人工智能專家朱純松從美國(guó)回到了故鄉(xiāng)湖北鄂州,創(chuàng)辦了蓮花山研究院,籌建據(jù)稱是當(dāng)時(shí)世界上最早的大數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。
在深度學(xué)習(xí)成為人工智能主流之后,日益增長(zhǎng)的互聯(lián)網(wǎng)大數(shù)據(jù)成為了人工智能的最好養(yǎng)分。
據(jù)數(shù)據(jù)公司IDC統(tǒng)計(jì),全球每年生產(chǎn)的數(shù)據(jù)量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%都是原始數(shù)據(jù)數(shù)據(jù)。這些在經(jīng)過(guò)清洗和標(biāo)注后,變成標(biāo)準(zhǔn)化格式數(shù)據(jù),才能被人工智能所理解。
作為勞動(dòng)密集型產(chǎn)業(yè),數(shù)據(jù)標(biāo)注企業(yè)更多地選在三四線城市落地,地方政府無(wú)論是為了扶貧或是搭上互聯(lián)網(wǎng)的順風(fēng)車,都能與互聯(lián)網(wǎng)公司們一拍即合。
2018年,位于太原的山西轉(zhuǎn)型綜合改革示范區(qū)就與百度達(dá)成合作,打造了號(hào)稱“全國(guó)范圍內(nèi)人員和產(chǎn)值規(guī)模最大的單體數(shù)據(jù)標(biāo)注基地”,基地占地面積超1萬(wàn)平米,已經(jīng)引進(jìn)了至少35家數(shù)據(jù)標(biāo)注公司,超過(guò)2000名數(shù)據(jù)標(biāo)注員。
在新疆和田,有4000人在當(dāng)?shù)氐臄?shù)字經(jīng)濟(jì)產(chǎn)業(yè)園從事數(shù)據(jù)標(biāo)注工作,和田地區(qū)更是拋出了“數(shù)據(jù)標(biāo)注產(chǎn)業(yè)之都”和10萬(wàn)人數(shù)據(jù)標(biāo)注就業(yè)基地的目標(biāo)。
在河南,數(shù)百家數(shù)據(jù)標(biāo)注公司從無(wú)到有;在濟(jì)南,山東第一個(gè)數(shù)據(jù)標(biāo)注基地,已經(jīng)容納了1500名“人工智能訓(xùn)練師”;在新三板上市的數(shù)據(jù)堂,也在保定、合肥,分別建立了容納數(shù)百名數(shù)據(jù)標(biāo)注員同時(shí)工作的基地。
而數(shù)據(jù)標(biāo)注員身上的標(biāo)簽是“互聯(lián)網(wǎng)民工”、“賽博流水線”。而對(duì)于絕大多數(shù)身在其中的人而言,一個(gè)互聯(lián)網(wǎng)版的富士康,已經(jīng)是當(dāng)下不可多得的選擇。
“教會(huì)徒弟,餓死師傅”
當(dāng)數(shù)據(jù)標(biāo)注成為“風(fēng)口”,淘金者也隨之而來(lái)。
2017年,周華偶然在朋友口中得知,做數(shù)據(jù)標(biāo)注能賺錢,剛剛創(chuàng)業(yè)失敗的他,決定再賭一把。
他算過(guò)一筆賬,一名數(shù)據(jù)標(biāo)注員一個(gè)月的產(chǎn)值能到7000元,除掉3000元的工資和質(zhì)檢、場(chǎng)地設(shè)備等費(fèi)用,還能賺1500元。“如果招100個(gè)人,一個(gè)月就賺15萬(wàn)元?!?/strong>
他找來(lái)合作伙伴,采購(gòu)電腦、確定場(chǎng)地,又迅速地招聘了一批沒(méi)有學(xué)歷、工作經(jīng)驗(yàn)要求的數(shù)據(jù)標(biāo)注員,緊鑼密鼓地接單。
此時(shí)的數(shù)據(jù)標(biāo)注產(chǎn)業(yè),趕上人工智能創(chuàng)業(yè)潮。根據(jù)前瞻產(chǎn)業(yè)研究院統(tǒng)計(jì),數(shù)據(jù)標(biāo)注公司從2014年開(kāi)始不斷增加,并在2017年達(dá)到高峰,當(dāng)年數(shù)據(jù)標(biāo)注相關(guān)融資事件達(dá)到9起,到2021年4月,已經(jīng)有有18家公司獲得融資,投融資事件39起。
數(shù)據(jù)標(biāo)注行業(yè)有三種不同的公司,一種是大型互聯(lián)網(wǎng)公司內(nèi)部的數(shù)據(jù)標(biāo)注部門(mén),處理公司內(nèi)部的數(shù)據(jù);一種是像數(shù)據(jù)堂這類有自己基地的數(shù)據(jù)標(biāo)注公司,他們有獨(dú)立承接訂單的能力,甚至外包給第三方;數(shù)量最多的則是以工作室形態(tài)存在的小公司,他們通常只能在眾包平臺(tái)上接單,或者第三方中介公司轉(zhuǎn)過(guò)來(lái)的層層分包的訂單——在平臺(tái)上,他們或被稱為“公會(huì)”、“團(tuán)隊(duì)”。
周華的工作室便屬于最后一種,當(dāng)時(shí)主要依賴百度眾測(cè)的平臺(tái)訂單,平臺(tái)上會(huì)分發(fā)各類任務(wù),在行業(yè)內(nèi)稱為“放題”,包括數(shù)據(jù)采集、圖片標(biāo)注、文本標(biāo)注等。據(jù)百度眾測(cè)的數(shù)據(jù),平臺(tái)上有2500萬(wàn)的注冊(cè)用戶。
但百度眾測(cè)上的單并不是都能到周華的手里。有時(shí)候他必須主動(dòng)承接一些二手乃至三手的訂單,那些掌握渠道的公司則可以賺取差價(jià)。
同樣和他一樣撞上風(fēng)口的,還有當(dāng)時(shí)還是創(chuàng)業(yè)公司的星塵數(shù)據(jù)。
星塵數(shù)據(jù)的創(chuàng)始人章磊,在華爾街、硅谷工作10年,曾在投資平臺(tái)CircleUp擔(dān)任資深數(shù)據(jù)科學(xué)家。2017年回國(guó)時(shí),他本想繼續(xù)在投資領(lǐng)域創(chuàng)業(yè),嘗試打造一個(gè)投研機(jī)器人——通過(guò)對(duì)大量公司年報(bào)、招股書(shū)等金融文檔的學(xué)習(xí),輔助投資人決策。當(dāng)時(shí)國(guó)內(nèi)的數(shù)據(jù)標(biāo)注往往往往只能機(jī)械化地完成客戶需求,這種“新穎”的數(shù)據(jù)標(biāo)注要求,業(yè)內(nèi)難以實(shí)現(xiàn)。章磊卻看到了機(jī)會(huì)。
他創(chuàng)辦的星塵數(shù)據(jù),號(hào)稱為客戶量身打造數(shù)據(jù)標(biāo)注方案。這家位于北京三里屯的公司,早在2018年1月就完成1000萬(wàn)元人民幣的Pre-A輪融資,最新在去年8月又完成了5000萬(wàn)人民幣的A輪融資,如今更多是做“數(shù)據(jù)標(biāo)注平臺(tái)”的生意——他們會(huì)去競(jìng)標(biāo)大公司給出的數(shù)據(jù)標(biāo)注訂單,再分包給類似一些小型的“數(shù)據(jù)工廠“,周華是他們的其中一個(gè)合作伙伴。
2005年成立的海天瑞聲,在此次生成式人工智能風(fēng)潮中更是“賺麻了”。這家在業(yè)內(nèi)以語(yǔ)音數(shù)據(jù)標(biāo)注著稱的公司,21年在科創(chuàng)板成功上市,今年一月以來(lái),股價(jià)從每股60元左右暴漲到了每股超過(guò)200元。
海天瑞聲最早從語(yǔ)音標(biāo)注項(xiàng)目起家
畢竟對(duì)于國(guó)內(nèi)眾多研發(fā)人工智能的大廠而言,基礎(chǔ)的數(shù)據(jù)標(biāo)注是剛需,卻不可能永遠(yuǎn)自己來(lái)做。那么只要有訂單,無(wú)論是周華這樣的工作室,還是海天瑞聲、星塵數(shù)據(jù)這樣的大公司,都能賺個(gè)盆滿缽滿。并非所有入局者都能有周華的運(yùn)氣,周華就知道不少同行,因?yàn)橛唵稳狈Α⒔Y(jié)算周期長(zhǎng),公司早早退場(chǎng)。
當(dāng)然,隨著GPT-4和文心一言的陸續(xù)出場(chǎng),人工智能正“升級(jí)換代”,數(shù)據(jù)標(biāo)注行業(yè)也伴隨著新的變化。
人工智能研究者們已經(jīng)開(kāi)始嘗試向機(jī)器“喂養(yǎng)”未標(biāo)注的數(shù)據(jù)與部分標(biāo)注數(shù)據(jù),亦即“半監(jiān)督學(xué)習(xí)”,而不依賴于人工標(biāo)注的自監(jiān)督學(xué)習(xí)與數(shù)據(jù)標(biāo)注,也在業(yè)界開(kāi)始出現(xiàn)實(shí)踐。
去年6月底,美國(guó)加州圣馬特奧縣的特斯拉辦公室,多名特斯拉員工在一次會(huì)議中被告知,他們被裁員了。最終被裁員的200人中,大多數(shù)都是數(shù)據(jù)標(biāo)注員。特斯拉目前正在開(kāi)發(fā)的計(jì)算機(jī)Dojo,就采用自監(jiān)督學(xué)習(xí)技術(shù),用于訓(xùn)練人工智能模型,對(duì)數(shù)據(jù)標(biāo)注的需求正越來(lái)越低。
騰訊、阿里、字節(jié)跳動(dòng)等一眾大廠,也都在研發(fā)自監(jiān)督學(xué)習(xí)的算法,甚至有些數(shù)據(jù)標(biāo)注公司也都已經(jīng)有60%內(nèi)容來(lái)自于機(jī)器的自動(dòng)化標(biāo)注。
李杰聽(tīng)過(guò)一個(gè)說(shuō)法,數(shù)據(jù)標(biāo)注員是“人工智能的老師”,是他和同事們?nèi)諒?fù)一日的拉框,教會(huì)了人工智能理解人類世界。
但他從沒(méi)想過(guò),當(dāng)人工智能時(shí)代真正到來(lái)的那一天,取代他們的,恰恰會(huì)是自己曾經(jīng)的學(xué)生。
(為保護(hù)隱私,文中人物均為化名)
參考資料:
TIME《OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic》財(cái)經(jīng)《火爆“智能”下的慘淡“人工”》第一財(cái)經(jīng)《人工智能背后的“人工”:誰(shuí)在訓(xùn)練AI?》
關(guān)鍵詞: