博客專欄

        EEPW首頁 > 博客 > GPT-3“知道”我什么?

        GPT-3“知道”我什么?

        發(fā)布人:大數(shù)據(jù)文摘 時(shí)間:2022-09-22 來源:工程師 發(fā)布文章
        作者:Melissa Heikkil? 

        翻譯:顧偉嵩校對:歐陽錦
        大型語言模型是根據(jù)從互聯(lián)網(wǎng)上收集的大量個人數(shù)據(jù)進(jìn)行訓(xùn)練的。所以我想知道:它對我有什么影響?
        對于一位報(bào)道AI的記者來說,今年最大的新聞之一是大型語言模型的興起。這些人工智能模型生成了本是人類才能寫出的文本,有時(shí)非常令人信服,他們欺騙了人們,讓他們認(rèn)為自己是有意識的。
        這些模型的力量來自于從互聯(lián)網(wǎng)上收集的大量公開的人造文本。這不禁讓我思考:這些模型擁有關(guān)于我的什么數(shù)據(jù)?并且這些數(shù)據(jù)是怎么被濫用的?
        這不是一個無聊的問題。自從大約十年前的一次傷害經(jīng)歷以來,我一直對公開發(fā)布任何有關(guān)我個人生活的信息感到恐懼。我的照片和個人信息在一個在線論壇上大肆傳播,然后被那些不喜歡我為某個芬蘭報(bào)紙寫的專欄的人所剖析和嘲笑。
        在那之前,像許多人一樣,我不小心在互聯(lián)網(wǎng)上亂放了我的數(shù)據(jù):個人博客帖子、晚上拍的尷尬照片、以及我的位置信息、關(guān)系狀態(tài)和政治偏好的帖子,并且公開給任何人看。即使現(xiàn)在,我仍然是一個相對公眾的人物,由于我是一名記者,我的整個職業(yè)生涯信息基本上只需一次在線搜索就能全部看到。
        OpenAI提供了對其著名的大型語言模型GPT-3的有限訪問,而Meta允許人們通過一個名為BlenderBot 3的公開可用的聊天機(jī)器人來使用其模型OPT-175B。
        我決定測試這兩個模型,首先問GPT-3:誰是Melissa Heikkil??(Who is Melissa Heikkil??)
        圖片
        當(dāng)我讀到這時(shí),我愣住了。Heikkil?是2022年我的家鄉(xiāng)芬蘭的第18個最常見的姓氏,但我是那個姓氏的人中唯一一個用英語寫作的記者。該模型將其與新聞業(yè)聯(lián)系起來本不該讓我驚訝。因?yàn)楫?dāng)大型語言模型從互聯(lián)網(wǎng)上包括新聞文章和社交媒體帖子中獲取大量數(shù)據(jù)時(shí),記者和文章作者的名字經(jīng)常出現(xiàn)。
        然而,面對一些事實(shí)上是正確的事情,它是令人不安的。它還知道什么??
        但很快我就明白了,這個模型對我來說并沒有什么意義。它隨后開始給我其收集的關(guān)于芬蘭剩下13931個關(guān)于Heikkil?s的信息,以及其他與芬蘭有關(guān)的東西的隨機(jī)文本。
        圖片
        哈哈,謝謝,但我想你指的是Lotta Heikkil?,她進(jìn)入了選美比賽前十,但沒有獲勝。圖片圖片
        原來我是個無名小卒。這是AI世界的一件好事。
        大型語言模型(LLMs),如OpenAI的GPT-3、谷歌的LaMDA和Meta的OPT-175B,在AI研究中是炙手可熱的,它們正在成為互聯(lián)網(wǎng)軌道上越來越不可或缺的一部分。LLMs被用于支持聊天機(jī)器人,幫助客戶服務(wù),從而創(chuàng)建更強(qiáng)大的在線搜索,并幫助軟件開發(fā)人員寫代碼。
        如果你在互聯(lián)網(wǎng)上用英語發(fā)布了任何個人信息,你的數(shù)據(jù)可能有機(jī)會成為世界上最流行的LLMs的一部分。
        谷歌(Google)和OpenAI等科技公司不會發(fā)布有關(guān)用于構(gòu)建語言模型的數(shù)據(jù)集的信息,但它們不可避免地包含一些敏感的個人信息,如地址、電話號碼和電子郵件地址。
        ETH計(jì)算機(jī)科學(xué)副教授弗洛里安·特拉梅爾(Florian Tramèr)警告說,這對網(wǎng)絡(luò)隱私來說構(gòu)成了一個“定時(shí)炸彈”,并帶來了大量安全和法律風(fēng)險(xiǎn)。與此同時(shí),改善機(jī)器學(xué)習(xí)隱私和規(guī)范技術(shù)的努力仍處于起步階段。
        我在歐洲生活了一輩子,歐盟嚴(yán)格的數(shù)據(jù)保護(hù)制度GDPR自2018年開始實(shí)施,這讓我在網(wǎng)上的相對匿名成為可能。
        然而,我的老板,麻省理工技術(shù)評論主編馬特·霍南(Mat Honan)絕對是一個大人物。
        GPT-3和BlenderBot都“知道”他是誰。這就是GPT-3對他的影響。
        這并不奇怪,馬特在很長一段時(shí)間內(nèi)都非常活躍,這意味著他的在線足跡(online footprint)比我大。這也可能是因?yàn)樗诿绹蠖鄶?shù)大型語言模型都非常關(guān)注美國。美國沒有聯(lián)邦數(shù)據(jù)保護(hù)法。馬特居住的加利福尼亞州確實(shí)有一個,但直到2020年才生效。
        根據(jù)GPT-3和BlenderBot,馬特的成名是由于他在2012年《Wired》雜志上發(fā)表的一篇文章中提到的“史詩般的黑客行為”。由于蘋果和亞馬遜系統(tǒng)的安全漏洞,黑客控制并刪除了馬特的完整的數(shù)據(jù)信息。[編者的提示:他沒有攻擊巴拉克·奧巴馬(Barack Obama)和比爾·蓋茨(Bill Gates)的賬戶。]
        但它變得更令人毛骨悚然。經(jīng)過一點(diǎn)刺激,GPT-3告訴我馬特有一個妻子和兩個年幼的女兒(除了名字外的內(nèi)容都正確),住在舊金山(正確)。它還告訴我,它不確定馬特是否有狗:“從社交媒體上得到的情況來看,Mat Honan似乎沒有任何寵物。他過去曾在推特上發(fā)布過他對狗的喜愛,但他似乎沒有自己的寵物。”(不正確)
        圖片
        該系統(tǒng)還為我提供了他的工作地址、電話號碼(不正確)、****號碼(也不正確)、馬薩諸塞州劍橋市(麻省理工技術(shù)評論的總部所在地)的隨機(jī)電話號碼和舊金山當(dāng)?shù)厣鐣U瞎芾砭峙缘囊粭澊髽堑牡刂贰?/span>
        據(jù)一位OpenAI發(fā)言人說,GPT-3的數(shù)據(jù)庫從多個來源收集了有關(guān)馬特的信息。馬特與舊金山的聯(lián)系體現(xiàn)在他的推特個人資料和領(lǐng)英個人資料中,這兩個資料以他的名字出現(xiàn)在谷歌搜索結(jié)果的第一頁。他在麻省理工學(xué)院技術(shù)評論的新工作被廣泛宣傳和推廣。馬特的工作在社交媒體上迅速傳播,并且關(guān)于這他還接受了媒體采訪。
        對于其他更多的個人信息,GPT-3有可能產(chǎn)生“幻覺”。
        “GPT-3根據(jù)用戶提供的文本輸入預(yù)測下一系列單詞。有時(shí),該模型可能會生成不真實(shí)的信息,因?yàn)樗噲D根據(jù)用戶所提供的訓(xùn)練數(shù)據(jù)和上下文中的統(tǒng)計(jì)模式生成可信的文本。這通常被稱為‘幻覺’,”O(jiān)penAI的發(fā)言人說。
        我問馬特他對這一切有何看法。“GPT-3生成的一些答案不太正確。(我從未黑客攻擊過奧巴馬或比爾·蓋茨!)”他說。“但大多數(shù)都很接近,有些是準(zhǔn)確的。這有點(diǎn)令人不安。但我確信AI不知道我住在哪里,所以我不會立即面臨天網(wǎng)派終結(jié)者來敲門的危險(xiǎn)。我想我們可以活到明天。”
        弗洛里安·特拉梅爾(Florian Tramèr)和一組研究人員設(shè)法從來自GPT-2中提取敏感的個人信息,如電話號碼、街道地址和電子郵件地址。他們還讓GPT-3制作了《哈利·波特》的第一本書,這本書是受版權(quán)保護(hù)的。
        曾在谷歌工作的特拉梅爾說,隨著時(shí)間的推移,問題只會越來越嚴(yán)重。“人們似乎還沒有真正意識到這有多危險(xiǎn),”他說,他指的是在可能包含敏感或故意誤導(dǎo)數(shù)據(jù)的大規(guī)模數(shù)據(jù)集上進(jìn)行一次訓(xùn)練的模型。
        斯坦福人工智能研究所(Stanford Institute for Human-Centered Artificial Intelligence)的隱私和數(shù)據(jù)政策研究員詹妮弗·金(Jennifer King)表示,在不考慮隱私的情況下濫用LLMs的決定讓人想起了2007年谷歌推出互動地圖谷歌街景(Google Street View)時(shí)發(fā)生的事情。
        谷歌街景服務(wù)的事件是一個偷窺者的喜悅:人們挖鼻子、男人離開脫衣舞俱樂部和毫無防備的日光浴者的圖像被上傳到系統(tǒng)中。谷歌還通過WiFi網(wǎng)絡(luò)收集了密碼和電子郵件地址等敏感數(shù)據(jù)。街景服務(wù)(Street View)遭到了強(qiáng)烈的反對,一個1300萬美元的法庭訴訟,甚至在一些國家被禁止。谷歌不得不設(shè)置一些隱私功能,比如模糊一些房屋、人臉、窗戶和車牌。
        “不幸的是,我覺得谷歌甚至其他科技公司都沒有吸取任何教訓(xùn),”金說。

        模型越大,風(fēng)險(xiǎn)越大


        進(jìn)行過大量個人數(shù)據(jù)訓(xùn)練的LLMs具有很大的風(fēng)險(xiǎn)。
        不僅如此,讓你的在線信息被斷章取義地重復(fù)和重新利用是一種極具侵略性的行為。還有一些嚴(yán)重的安全問題,比如黑客可以利用這些模型提取社會安全號碼或家庭地址。
        法國數(shù)據(jù)保護(hù)機(jī)構(gòu)CNIL的人工智能專家Alexis Leautier表示,通過用自己選擇的“毒害”數(shù)據(jù)集,黑客也很容易主動篡改數(shù)據(jù)集,從而造成安全漏洞。
        Tramèr認(rèn)為,盡管這些模型似乎隨機(jī)地吐出了他們訓(xùn)練過的信息,但很有可能模型對人的了解比目前清楚的多,“我們只是不知道如何真正地提示模型,或者如何真正地獲得這些信息。”
        數(shù)據(jù)集中出現(xiàn)的東西越有規(guī)律,模型就越有可能把它吐出來。這可能導(dǎo)致人們產(chǎn)生錯誤和有害的聯(lián)想,這些聯(lián)想不會消失。
        例如,如果數(shù)據(jù)庫中多次提到“Ted Kaczynski”(也被稱為美國國內(nèi)恐怖分子Unabomber)和“恐怖分子”,那么模型可能會認(rèn)為任何一個被稱為Kaczynski的人都是恐怖分子。
        這可能會導(dǎo)致真正的名譽(yù)損害,正如金和我在玩Meta的BlenderBot時(shí)發(fā)現(xiàn)的那樣。
        Maria Renske“Marietje”Schaake不是恐怖分子,而是荷蘭著名政治家和前歐洲議會議員。Schaake現(xiàn)在是斯坦福大學(xué)網(wǎng)絡(luò)政策中心的國際政策主任,也是斯坦福大學(xué)以人為中心的人工智能研究所的國際政策研究員。
        盡管如此,BlenderBot還是得出奇怪的結(jié)論,她是一名恐怖分子,直接指控她而沒有提示。怎么辦?
        一個線索可能是她在《華盛頓郵報(bào)》上寫的一篇專欄文章,其中“恐怖主義”或“恐怖”三次出現(xiàn)。
        Meta說,BlenderBot的回復(fù)是搜索失敗的結(jié)果,模型將兩個不相關(guān)的信息組合成一個連貫但不正確的句子。該公司強(qiáng)調(diào),該模型只是用于研究目的的演示,并未用于實(shí)際生產(chǎn)。
        Meta基礎(chǔ)人工智能研究董事總經(jīng)理Joelle Pineau說:“雖然看到一些攻擊性的反應(yīng)令人痛苦,但在投入生產(chǎn)前,像這樣的公開演示對于構(gòu)建真正強(qiáng)大的對話人工智能系統(tǒng)和彌合目前存在的明顯差距非常重要。”
        但這是一個很難解決的問題,因?yàn)檫@些標(biāo)簽非常難辦。從互聯(lián)網(wǎng)上刪除信息已經(jīng)夠難的了,科技公司要刪除已經(jīng)輸入到一個龐大的模型中,并可能已經(jīng)被開發(fā)成無數(shù)其他已在使用的產(chǎn)品的數(shù)據(jù)將更加困難。
        如果你認(rèn)為這是令人毛骨悚然的,那就等到下一代LLMs,它將提供更多的數(shù)據(jù)。Tramèr說:“隨著這些模型越來越大,這是為數(shù)不多的問題之一。”

        這不僅僅是個人數(shù)據(jù)。Tramèr說,數(shù)據(jù)集可能包括受版權(quán)保護(hù)的數(shù)據(jù),如源代碼和書籍。一些模型是根據(jù)GitHub(軟件開發(fā)人員跟蹤其工作的網(wǎng)站)的數(shù)據(jù)進(jìn)行訓(xùn)練的。
        特拉梅爾說,這提出了一些棘手的問題:“雖然這些模型會記住特定的代碼片段,但它們不一定會保留許可證信息。因此,如果您使用其中一種模型,它會輸出一段代碼,而這段代碼顯然是從其他地方復(fù)制的,那么有什么責(zé)任呢?”
        AI研究員安德魯·亨特(Andrew Hundt)曾多次遇到這種情況,他是佐治亞理工學(xué)院的博士后,去年秋天在約翰·霍普金斯大學(xué)完成了機(jī)器人強(qiáng)化學(xué)習(xí)博士學(xué)位。
        第一次發(fā)生這種情況是在今年2月,加州伯克利的一位AI研究員(亨特不認(rèn)識)在一條推文中給他貼了標(biāo)簽,稱Copilot是OpenAI和GitHub之間的一個合作項(xiàng)目,允許研究人員使用大型語言模型生成代碼,他開始發(fā)布他的GitHub用戶名和有關(guān)AI和機(jī)器人的文本,聽起來很像亨特自己的待辦事項(xiàng)列表。
        亨特說:“在美國的另一端,在一個與我工作密切相關(guān)的地區(qū),我的個人信息突然出現(xiàn)在其他人的電腦上,這讓我有點(diǎn)驚訝。”
        亨特說,這可能會帶來問題。不僅作者可能無法獲得正確的信任,而且代碼可能不會包含有關(guān)軟件許可和限制的信息。

        陷入困境

        忽視隱私可能意味著科技公司最終會遇到越來越強(qiáng)硬的科技監(jiān)管機(jī)構(gòu)的麻煩。
        斯坦福大學(xué)的詹妮弗·金(Jennifer King)說,“這是公開的,我們不需要關(guān)心”的借口是站不住腳的。
        美國聯(lián)邦貿(mào)易委員會(Federal Trade Commission)正在考慮有關(guān)公司如何收集和處理數(shù)據(jù)以及構(gòu)建算法的規(guī)則,并已強(qiáng)制公司刪除含有非法數(shù)據(jù)的模型。2022年3月,該機(jī)構(gòu)讓飲食公司W(wǎng)eight Watchers在非法收集兒童信息后,刪除其數(shù)據(jù)和算法。
        金說:“如果這些公司被發(fā)現(xiàn)它們能夠真正地闖入系統(tǒng)并受到相關(guān)懲罰,之后僅僅是搞清楚如何將被包括的數(shù)據(jù)刪除。”“我不認(rèn)為我們的態(tài)度只能是‘我不知道,我們必須接受這種情況’。”
        即使數(shù)據(jù)是從互聯(lián)網(wǎng)上獲取的,公司仍然需要遵守歐洲的數(shù)據(jù)保護(hù)法。“你不能僅僅因?yàn)閿?shù)據(jù)可用就重用任何數(shù)據(jù),”法國國家信息實(shí)驗(yàn)室技術(shù)專家團(tuán)隊(duì)負(fù)責(zé)人費(fèi)利西安·瓦萊特(Félicien Vallet)說。
        根據(jù)GDPR處罰從公共互聯(lián)網(wǎng)上抓取數(shù)據(jù)的科技公司是有先例的。面部識別公司Clearview AI已被眾多歐洲數(shù)據(jù)保護(hù)機(jī)構(gòu)下令停止將互聯(lián)網(wǎng)上公開的圖像重新用于構(gòu)建其面部數(shù)據(jù)庫。
        “當(dāng)收集用于構(gòu)建語言模型或其他AI模型的數(shù)據(jù)時(shí),您將面臨同樣的問題,必須確保這些數(shù)據(jù)的重用實(shí)際上是合法的,”Vallet補(bǔ)充道。

        沒有速效****

        有一些努力使機(jī)器學(xué)習(xí)領(lǐng)域更加注重隱私。在開發(fā)新的開放存取語言模型BLOOM期間,法國數(shù)據(jù)保護(hù)局與AI初創(chuàng)公司Hugging Face合作,提高對LLMs中數(shù)據(jù)保護(hù)風(fēng)險(xiǎn)的認(rèn)識。瑪格麗特·米切爾(Margaret Mitchell)是一位AI研究人員,也是Hugging Face的倫理學(xué)家,她告訴我,她也在努力為LLMs中的隱私創(chuàng)建一個基準(zhǔn)。
        一組從Hugging Face開發(fā)BLOOM的項(xiàng)目中分離出來的志愿者也正在制定一個適用于所有司法管轄區(qū)的人工智能隱私標(biāo)準(zhǔn)。
        “我們試圖做的是使用一個框架,讓人們能夠做出良好的價(jià)值判斷,判斷那里的信息是個人的還是個人可識別的,是否真的需要存在,”共同領(lǐng)導(dǎo)該項(xiàng)目的MATR Ventures的風(fēng)險(xiǎn)合伙人赫斯·瓊斯(Hessie Jones)說。
        麻省理工學(xué)院技術(shù)評論詢問了谷歌、Meta、OpenAI和Deepmind,他們都開發(fā)了最先進(jìn)的LLMs,并詢問了他們對LLMs和隱私的方法。所有公司都承認(rèn),大型語言模型中的數(shù)據(jù)保護(hù)是一個持續(xù)存在的問題,沒有完美的解決方案來減輕危害,這些模型的風(fēng)險(xiǎn)和局限性尚未得到充分理解。
        開發(fā)人員有一些工具,盡管不完善。
        在2022年初發(fā)表的一篇論文中,特拉梅爾和他的合著者認(rèn)為,語言模型應(yīng)該根據(jù)明確為公眾使用而產(chǎn)生的數(shù)據(jù)進(jìn)行訓(xùn)練,而不是從公開可用的數(shù)據(jù)中刪除。
        私人數(shù)據(jù)通常分散在用于培訓(xùn)LLMs的數(shù)據(jù)集中,其中許多數(shù)據(jù)是從開放互聯(lián)網(wǎng)上獲取的。這些個人信息在訓(xùn)練數(shù)據(jù)中出現(xiàn)的頻率越高,模型記憶它們的可能性就越大,關(guān)聯(lián)性就越強(qiáng)。谷歌和OpenAI等公司表示,他們試圖解決這一問題的一種方法是,在對模型進(jìn)行訓(xùn)練之前,刪除數(shù)據(jù)集中多次出現(xiàn)的信息。但當(dāng)您的數(shù)據(jù)集包含千兆字節(jié)或兆字節(jié)的數(shù)據(jù)時(shí),這很困難,您必須區(qū)分不包含個人數(shù)據(jù)的文本(如美國獨(dú)立宣言)和某人的私人家庭地址。
        谷歌負(fù)責(zé)人工智能產(chǎn)品的負(fù)責(zé)人圖爾西·多希(Tulsee Doshi)表示,谷歌使用人工評分員對個人身份信息進(jìn)行不安全評分,這有助于訓(xùn)練公司的LLM LaMDA,以避免重復(fù)使用。
        OpenAI的一位發(fā)言人表示,該公司“已采取措施,從培訓(xùn)數(shù)據(jù)中移除聚集人員信息的已知來源,并開發(fā)了技術(shù),以降低模型產(chǎn)生個人信息的可能性。”
        Meta的AI研究員蘇珊·張(Susan Zhang)表示,用于訓(xùn)練OPT-175B的數(shù)據(jù)庫經(jīng)過了內(nèi)部隱私審查。
        但是,特拉梅爾說:“即使你訓(xùn)練的模型具有我們今天能想到的最嚴(yán)格的隱私保障,你也不會真正確保任何東西。”
        原文標(biāo)題:What does GPT-3“know”about me?原文鏈接:https://www.technologyreview.com/2022/08/31/1058800/what-does-gpt-3-know-about-me/


        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

        負(fù)離子發(fā)生器相關(guān)文章:負(fù)離子發(fā)生器原理
        塵埃粒子計(jì)數(shù)器相關(guān)文章:塵埃粒子計(jì)數(shù)器原理


        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 教育| 双江| 龙游县| 吉安市| 麻江县| 嫩江县| 余干县| 永济市| 东安县| 平潭县| 延寿县| 奉新县| 都兰县| 澎湖县| 莱阳市| 花垣县| 江口县| 巩留县| 都兰县| 三穗县| 万州区| 新闻| 安化县| 宁武县| 班玛县| 香格里拉县| 牟定县| 安远县| 神木县| 龙岩市| 同心县| 五莲县| 年辖:市辖区| 棋牌| 合山市| 嘉峪关市| 彰武县| 嘉禾县| 甘南县| 仙桃市| 石首市|