博客專(zhuān)欄

        EEPW首頁(yè) > 博客 > ChatGPT 等大語(yǔ)言模型取代不了搜索引擎!

        ChatGPT 等大語(yǔ)言模型取代不了搜索引擎!

        發(fā)布人:AI科技大本營(yíng) 時(shí)間:2023-01-19 來(lái)源:工程師 發(fā)布文章
        作者 | Emily M. Bender,Chirag Shah

        譯者 | 彎月       責(zé)編 | 夢(mèng)依丹
        出品 | CSDN(ID:CSDNnews)

        數(shù)十年來(lái),在許許多多的科幻小說(shuō)中,人類(lèi)的高科技未來(lái)始終離不開(kāi)計(jì)算機(jī)系統(tǒng)。計(jì)算機(jī)能夠通過(guò)各種界面,包括語(yǔ)音模式,為我們提供各種知識(shí),就好像一個(gè)取之不盡用之不竭的知識(shí)寶庫(kù)?;ヂ?lián)網(wǎng)早期的目標(biāo)似乎告訴我們,互聯(lián)網(wǎng)是集合人類(lèi)所有知識(shí)的一個(gè)地方。而 Meta 的 Galactica、OpenAI 的 ChatGPT 以及今年早些時(shí)候來(lái)自 Google 的 LaMDA 的誕生,似乎預(yù)示著我們即將擁有一個(gè)友好的語(yǔ)言界面。

        小說(shuō)創(chuàng)作為了方便起見(jiàn),各個(gè)角色總是能知道他們應(yīng)該知道的信息,但我們不能將小說(shuō)中的情節(jié)誤當(dāng)成現(xiàn)實(shí)世界中技術(shù)的發(fā)展路線(xiàn)。事實(shí)上,Galactica、ChatGPT 和 LaMDA 之類(lèi)的大型語(yǔ)言模型并不適合作為訪問(wèn)信息的渠道,基本原因有以下兩個(gè)。

        首先,這些模型的設(shè)計(jì)目的是創(chuàng)建看似連貫的文本。由于巧妙的構(gòu)建,這些模型可以吸收大量的訓(xùn)練數(shù)據(jù),并模擬單詞在所有文本中共同出現(xiàn)的方式。結(jié)果是,這類(lèi)系統(tǒng)可以生成在我們?nèi)祟?lèi)看來(lái)非常優(yōu)美的文本。然而,這些系統(tǒng)根本不理解自己生成的文本,也不理解文本的交流意圖,更無(wú)法反映真實(shí)的世界,更重要的是這些系統(tǒng)沒(méi)有任何能力對(duì)自己言論的真實(shí)性負(fù)責(zé)。這就是為什么 2021 年一位研究人員 Bender 及其合著者稱(chēng)這些模型為“隨機(jī)鸚鵡”。

        其次,無(wú)所不知的計(jì)算機(jī),這個(gè)想法的底層概念對(duì)知識(shí)的理解有著根本性的錯(cuò)誤認(rèn)識(shí)。永遠(yuǎn)不可能有一個(gè)包羅萬(wàn)象的、完全正確的信息集來(lái)代表我們需要知道的一切。即便你認(rèn)為未來(lái)這有可能成為現(xiàn)實(shí),也應(yīng)該很清楚“它”并不是如今的互聯(lián)網(wǎng)。在尋求信息時(shí),我們以為自己需要找到問(wèn)題的答案,但一般情況下,理解問(wèn)題本身的過(guò)程才是最重要的地方——即提煉問(wèn)題,尋找可能的答案,了解這些答案的來(lái)源,以及解這些答案代表的觀點(diǎn)。考慮以下兩個(gè)問(wèn)題之間的區(qū)別:“攝氏 70 度等于多少華氏度?”以及“鑒于當(dāng)前的疫情狀況和自身的風(fēng)險(xiǎn)因素,我應(yīng)該采取哪些預(yù)防措施?”

        搜索信息不僅僅是盡快獲得答案。當(dāng)然,我們的許多問(wèn)題都需要簡(jiǎn)單的、基于事實(shí)的答案,但是更多的問(wèn)題需要進(jìn)行一些調(diào)查。在這種情況下,重點(diǎn)是我們要了解相關(guān)的信息來(lái)源。雖然這需要在用戶(hù)端付出更多努力,但此過(guò)程涉及重要的認(rèn)知和情感處理,使我們能夠更好地了解自己的需求和上下文,并在使用之前更好地評(píng)估之前搜索和收集到的信息。

        ChatGPT以及其他直接提供答案的對(duì)話(huà)系統(tǒng)都存在這兩方面的基本問(wèn)題。首先,這些系統(tǒng)會(huì)直接生成答案,跳過(guò)了向用戶(hù)顯示信息來(lái)源的步驟。其次,這些系統(tǒng)以對(duì)話(huà)的形式通過(guò)自然語(yǔ)言提供答案,就好像與其他人交流一樣,這種交流會(huì)隨著時(shí)間和個(gè)人的經(jīng)歷而變化,而一直以來(lái)你一句我一句的自然語(yǔ)言的交流都僅限于人類(lèi)之間。當(dāng)我們遇到合成語(yǔ)言輸出時(shí),難免也會(huì)信任它們,就像信任人類(lèi)一樣。我們認(rèn)為,這些系統(tǒng)需要非常謹(jǐn)慎地設(shè)計(jì),避免濫用這種信任。

        自 ChatGPT 發(fā)布以來(lái),網(wǎng)絡(luò)上關(guān)于人們能使用它做什么的討論鋪天蓋地,我們非常擔(dān)心如何將這項(xiàng)技術(shù)呈現(xiàn)給公眾。即使是非對(duì)話(huà)形式的搜索引擎,我們也經(jīng)??吹饺藗儗?duì)它們的過(guò)分信任:如果搜索系統(tǒng)將某些內(nèi)容放在結(jié)果列表的頂部,我們就傾向于認(rèn)為這是一個(gè)良好的、真實(shí)的或具有代表性的結(jié)果;相反,對(duì)于搜索引擎沒(méi)有找到結(jié)果,我們很容易相信它不存在。

        然而,正如 Safiya Noble 在著作《Algorithms of Oppression》中警告我們的那樣,這些平臺(tái)并不是對(duì)世界現(xiàn)狀或人們談?wù)撌澜绲姆绞降闹辛⒎从?,其中摻雜著各家公司的利益。作為公眾,我們迫切需要了解概念化信息訪問(wèn)系統(tǒng)的工作原理,尤其是在這一刻,我們認(rèn)識(shí)到,盡管表面上看來(lái)這些模型給出了流暢的答案,但并不意味著這些信息準(zhǔn)確、有價(jià)值或可信。


        *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專(zhuān)區(qū)

        關(guān)閉
        主站蜘蛛池模板: 平阴县| 万源市| 屏东县| 苍梧县| 修文县| 饶河县| 钟山县| 栾城县| 鹤岗市| 虎林市| 顺昌县| 孟津县| 上林县| 松滋市| 惠州市| 来凤县| 扶沟县| 长垣县| 电白县| 石城县| 津南区| 曲麻莱县| 海晏县| 砚山县| 宜章县| 集贤县| 屏东县| 闽侯县| 阿巴嘎旗| 万宁市| 广灵县| 福贡县| 鄂伦春自治旗| 景洪市| 中牟县| 剑阁县| 托里县| 军事| 利津县| 鄢陵县| 夏河县|