ChatGPT 等大語(yǔ)言模型取代不了搜索引擎!
譯者 | 彎月 責(zé)編 | 夢(mèng)依丹
出品 | CSDN(ID:CSDNnews)
數(shù)十年來(lái),在許許多多的科幻小說(shuō)中,人類(lèi)的高科技未來(lái)始終離不開(kāi)計(jì)算機(jī)系統(tǒng)。計(jì)算機(jī)能夠通過(guò)各種界面,包括語(yǔ)音模式,為我們提供各種知識(shí),就好像一個(gè)取之不盡用之不竭的知識(shí)寶庫(kù)?;ヂ?lián)網(wǎng)早期的目標(biāo)似乎告訴我們,互聯(lián)網(wǎng)是集合人類(lèi)所有知識(shí)的一個(gè)地方。而 Meta 的 Galactica、OpenAI 的 ChatGPT 以及今年早些時(shí)候來(lái)自 Google 的 LaMDA 的誕生,似乎預(yù)示著我們即將擁有一個(gè)友好的語(yǔ)言界面。
小說(shuō)創(chuàng)作為了方便起見(jiàn),各個(gè)角色總是能知道他們應(yīng)該知道的信息,但我們不能將小說(shuō)中的情節(jié)誤當(dāng)成現(xiàn)實(shí)世界中技術(shù)的發(fā)展路線(xiàn)。事實(shí)上,Galactica、ChatGPT 和 LaMDA 之類(lèi)的大型語(yǔ)言模型并不適合作為訪問(wèn)信息的渠道,基本原因有以下兩個(gè)。
首先,這些模型的設(shè)計(jì)目的是創(chuàng)建看似連貫的文本。由于巧妙的構(gòu)建,這些模型可以吸收大量的訓(xùn)練數(shù)據(jù),并模擬單詞在所有文本中共同出現(xiàn)的方式。結(jié)果是,這類(lèi)系統(tǒng)可以生成在我們?nèi)祟?lèi)看來(lái)非常優(yōu)美的文本。然而,這些系統(tǒng)根本不理解自己生成的文本,也不理解文本的交流意圖,更無(wú)法反映真實(shí)的世界,更重要的是這些系統(tǒng)沒(méi)有任何能力對(duì)自己言論的真實(shí)性負(fù)責(zé)。這就是為什么 2021 年一位研究人員 Bender 及其合著者稱(chēng)這些模型為“隨機(jī)鸚鵡”。
其次,無(wú)所不知的計(jì)算機(jī),這個(gè)想法的底層概念對(duì)知識(shí)的理解有著根本性的錯(cuò)誤認(rèn)識(shí)。永遠(yuǎn)不可能有一個(gè)包羅萬(wàn)象的、完全正確的信息集來(lái)代表我們需要知道的一切。即便你認(rèn)為未來(lái)這有可能成為現(xiàn)實(shí),也應(yīng)該很清楚“它”并不是如今的互聯(lián)網(wǎng)。在尋求信息時(shí),我們以為自己需要找到問(wèn)題的答案,但一般情況下,理解問(wèn)題本身的過(guò)程才是最重要的地方——即提煉問(wèn)題,尋找可能的答案,了解這些答案的來(lái)源,以及解這些答案代表的觀點(diǎn)。考慮以下兩個(gè)問(wèn)題之間的區(qū)別:“攝氏 70 度等于多少華氏度?”以及“鑒于當(dāng)前的疫情狀況和自身的風(fēng)險(xiǎn)因素,我應(yīng)該采取哪些預(yù)防措施?”
搜索信息不僅僅是盡快獲得答案。當(dāng)然,我們的許多問(wèn)題都需要簡(jiǎn)單的、基于事實(shí)的答案,但是更多的問(wèn)題需要進(jìn)行一些調(diào)查。在這種情況下,重點(diǎn)是我們要了解相關(guān)的信息來(lái)源。雖然這需要在用戶(hù)端付出更多努力,但此過(guò)程涉及重要的認(rèn)知和情感處理,使我們能夠更好地了解自己的需求和上下文,并在使用之前更好地評(píng)估之前搜索和收集到的信息。
ChatGPT以及其他直接提供答案的對(duì)話(huà)系統(tǒng)都存在這兩方面的基本問(wèn)題。首先,這些系統(tǒng)會(huì)直接生成答案,跳過(guò)了向用戶(hù)顯示信息來(lái)源的步驟。其次,這些系統(tǒng)以對(duì)話(huà)的形式通過(guò)自然語(yǔ)言提供答案,就好像與其他人交流一樣,這種交流會(huì)隨著時(shí)間和個(gè)人的經(jīng)歷而變化,而一直以來(lái)你一句我一句的自然語(yǔ)言的交流都僅限于人類(lèi)之間。當(dāng)我們遇到合成語(yǔ)言輸出時(shí),難免也會(huì)信任它們,就像信任人類(lèi)一樣。我們認(rèn)為,這些系統(tǒng)需要非常謹(jǐn)慎地設(shè)計(jì),避免濫用這種信任。
自 ChatGPT 發(fā)布以來(lái),網(wǎng)絡(luò)上關(guān)于人們能使用它做什么的討論鋪天蓋地,我們非常擔(dān)心如何將這項(xiàng)技術(shù)呈現(xiàn)給公眾。即使是非對(duì)話(huà)形式的搜索引擎,我們也經(jīng)??吹饺藗儗?duì)它們的過(guò)分信任:如果搜索系統(tǒng)將某些內(nèi)容放在結(jié)果列表的頂部,我們就傾向于認(rèn)為這是一個(gè)良好的、真實(shí)的或具有代表性的結(jié)果;相反,對(duì)于搜索引擎沒(méi)有找到結(jié)果,我們很容易相信它不存在。
然而,正如 Safiya Noble 在著作《Algorithms of Oppression》中警告我們的那樣,這些平臺(tái)并不是對(duì)世界現(xiàn)狀或人們談?wù)撌澜绲姆绞降闹辛⒎从?,其中摻雜著各家公司的利益。作為公眾,我們迫切需要了解概念化信息訪問(wèn)系統(tǒng)的工作原理,尤其是在這一刻,我們認(rèn)識(shí)到,盡管表面上看來(lái)這些模型給出了流暢的答案,但并不意味著這些信息準(zhǔn)確、有價(jià)值或可信。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。