博客專欄

        EEPW首頁 > 博客 > 微軟與谷歌之戰:語言模型會取代搜索引擎嗎

        微軟與谷歌之戰:語言模型會取代搜索引擎嗎

        發布人:傳感器技術 時間:2023-05-28 來源:工程師 發布文章

        圖片


        作者 | Alberto Romero譯者 | 王強策劃 | 劉燕

        ChatGPT 是一種針對對話交流場景優化的強大語言模型(LM),我認為它現在是世界上表現最出色的聊天機器人——盡管它的這一地位可能不會持續太長時間。

        在 ChatGPT 模型于 2022 年 11 月 30 日發布后,人們很快意識到,它的存在意味著 LM 有可能在短期內超越傳統搜索引擎(SE),成為在線信息檢索的主要手段。推而廣之,這意味著谷歌在搜索領域長達兩個十年的霸主地位可能岌岌可危。

        微軟推出 ChatGPT 模型的新版 Bing 服務的消息,重新點燃了關于 LM 與 SE 地位的爭論。盡管沒人真的知道故事將如何進行下去,但在一件事上人們幾乎達成了共識;以某種方式,LM 和搜索很可能在未來成為一個更大整體中不可分割的部分。

        就像地心引力將我們拉向地面一樣,技術自發地朝著一個方向流動,也就是“讓我們的生活變得更加美好”——讓人想起熱力學定律描述的圖景。LM 更直觀,與它們交互對我們來說是很自然的事情。“SE 要么改變要么消亡”似乎是不可避免的結果。

        我知道,這聽起來像是典型的,不可證偽的那種胡亂預測。但起碼我們能設法回答一些答案未知的問題:ChatGPT 是否對谷歌構成真正的威脅?微軟能擊敗谷歌嗎?這家搜索巨頭能否做出足夠的反應?最終哪家公司會拔得頭籌?LM 會取代搜索嗎?會成為搜索引擎的重要補充嗎?LM 將在哪些方面改進或弱化搜索技術?這一切將如何以及何時發生?

        我們來試著回答其中的一些問題,了解 LM 和 SE 在未來將如何互動,微軟、谷歌和 OpenAI 對這一切有何看法,再談談我認為未來幾個月 / 幾年的故事將如何展開。

        語言模型和搜索引擎

        在 ChatGPT 公開的那天,一位名叫 josh 的 Twitter 用戶首先提出了這個觀點:“谷歌完蛋了。”其他人,比如現在已經是前推特員工的 George Hotz 同意這個看法——但并不是每個人都得出了相同的結論。

        Gary Marcus 教授用經驗證據反駁了 George Hotz 的觀點,谷歌的 Fran?ois Chollet 也指出了類似的問題:“搜索是搜索問題,而不是生成問題:”

        圖片

        我同意 Marcus 和 Chollet 的觀點。LM 本身并不是為超越 SE 而打造的。然而,SE 可以為搜索技術帶來重大改進,以至于那些不集成很多基于 LM 的功能的 SE 將遲早過時。

        如果我們接受這個假設,那么很容易看出最有機會將 LM 和搜索結合起來的公司就是谷歌,不是 OpenAI,不是微軟。谷歌在這兩個領域上單拿出來都有著無與倫比的世界領先地位。盡管 OpenAI 很受歡迎,但 GPT-3、ChatGPT 和所有類似模型都是基于谷歌的技術,谷歌的 SE 占據了 4/5 的市場份額。

        正如 Stability 的 Emad Mostaque 所說,如果該公司沒有出產那么多人工智能產品,那是因為它的“制度惰性”。谷歌在研究深度和廣度指標上無疑是全球領先的人工智能公司。

        然而,正如受歡迎的投資者 Balaji Srinivasan 所說的那樣,研究和生產是兩個完全不同的領域:谷歌不能承擔從頭開始重組其 SE,以使用 LM 為其提供動力所面臨的風險。多年來,該公司推出了一系列新的搜索功能和漸進式改進,但不會像微軟以及其他公司,如 Perplexity、You 和 Neeva 那樣做出可能是革命性的舉動。

        圖片

        我對 LM 與 SE 相關爭論的看法可以總結如下:”搜索引擎的局限大得多,但它也是專門為線上搜索優化的……但我不認為傳統搜索引擎是 LM 的對手。”這里的關鍵詞(原文沒有提到這一點)是“傳統的”。

        SE 仍將生存下去,但它們會和今天的 SE 非常不同,甚至完全看不出來是同樣的東西。LM 很可能就是這一差異的背后原因。

        (我不會詳細討論將 LM 集成到 SE 中是否是個好主意。Gary Marcus 在這方面有一篇很棒的文章,我幾乎完全同意他的觀點:“Is ChatGPT Really a “CodeRed” for Google Search?”)

        微軟 vs 谷歌:

        跨越時代的科技戰爭

        微軟對 OpenAI 的 10 億美元投資——以及他們獲得后者部分 AI 技術棧的獨家許可——是其對該領域擁有濃厚興趣的明確信號。他們計劃將 DALL-E 和 ChatGPT 集成到他們的服務中也就不足為奇了。正如 Tom Warren 所寫,增強版的 Bing SE 可以“挑戰谷歌的主導地位”。

        當然,我們的想法不是用 LM 代替 SE,而是對其進行補充。微軟發言人告訴彭博社,“對用戶查詢的對話式和上下文式回復將為搜索用戶提供比一串鏈接質量更好的答案,從而贏得更多用戶。”

        與谷歌不同,微軟非常清楚 LM 不如 SE 可靠。該公司必須要評估將一些人們不能 100% 依賴的功能部署到生產環境的風險,雖然這些功能可能會為它贏得與谷歌戰爭的優勢。微軟正在“權衡……聊天機器人的準確性,初始版本可能是對一小部分用戶的有限測試。”聽起來是個合理的開始。

        但是,如果有人比微軟更了解 LM 可以做什么和不能做什么,那就是谷歌。在一篇 2021 年的論文中——其發表時間甚至在 ChatGPT 還只是一個想法之前——谷歌研究人員探討了使用 LM 來“重新思考 [] 搜索”的問題。

        他們考慮了我們是否可以這樣做,更重要的是,是否應該這樣做:

        “經典信息檢索系統 [即傳統的 SE] 不直接回答信息需求,而是提供對(希望是權威的)答案的參考。

        ……

        相比之下,預訓練的語言模型能夠直接生成可能對信息需求做出響應的文字段落,但目前它們只是業余愛好者水平而不是領域專家水平——它們對世界沒有真正的理解,它們更容易異想天開,而且至關重要的是,它們無法通過參考訓練它們的語料庫中的支持文件來證明自己的言論是正確的。”

        谷歌的最終結論是,使用類似 ChatGPT 的系統來增強其 SE 將帶來很高的“聲譽風險”。CEO Sundar Pichai 和 AI 負責人 Jeff Dean 告訴 CNBC,“如果出現問題,這種做法的成本會 [比 OpenAI] 更高,因為人們必須相信他們從谷歌獲得的答案。”

        谷歌于 2021 年 5 月宣布推出 LaMDA(但并未發布)。鑒于 LaMDA 與 ChatGPT 至少旗鼓相當,(Blake Lemoine 是這樣說的)——我們有理由質疑為什么谷歌沒有利用它來應對像 OpenAI 這樣的威脅。Balaji Srinivasan 猜測這是因為該公司沒有足夠的“風險預算”,事實證明他是對的。

        像谷歌這樣的大公司為數十億用戶(而不是像 OpenAI 那樣只有幾百萬)提供像谷歌搜索這樣的高可靠性服務,不能僅僅因為一項技術似乎代表未來,每個人就都要為之瘋狂。

        但谷歌的高管們不是傻子。他們知道 ChatGPT 由一家規模小得多、風險規避程度低得多的公司掌控,這確實是一種威脅——當像微軟這樣的直接競爭對手擁有大量股份時更是如此。據《紐約時報》報道,這就是他們宣布 ChatGPT 為“紅色代碼”的原因:

        “……隨著一種有望重塑甚至取代傳統搜索引擎的新型聊天機器人技術的出現,谷歌可能面臨對其主要搜索業務的第一個嚴重威脅。一位谷歌高管將這些工作描述為決定谷歌未來的成敗。

        ……

        谷歌必須應對競爭,否則該行業可能會在拋棄它的情況下繼續發展……”

        就目前的情況來看,谷歌面臨著微軟(在搜索領域是一個強大的直接競爭對手)和 OpenAI(后者擁有同水平的人工智能技術,雖說其預算要緊得多)的挑戰,同時,谷歌還要努力平衡 LM 由于其內在的不可靠性帶來的聲譽風險,以及它們在風險厭惡程度較低的初創公司手中這一事實所構成的明確威脅。

        正如 Pichai 所說,谷歌必須“大膽而負責任”,找到折衷方案。“我們把這件事做好是非常重要的,”Dean 總結道。

        我對故事將如何展開的預測

        鑒于目前的情況,我認為如果要預測接下來會發生什么以及如何發生,我們需要關注三個關鍵點。首先,谷歌到底在和誰競爭,才會將“聲譽風險”報告為未來其面對的主要障礙?其次,是否有可能使用 LM 和當前的 AI 安全技術來“獲得完善的版本”?第三,如果這件事可以做到并且公司認為應該這樣做,是否可以從中衍生出可行的商業模式?

        谷歌真正的敵人

        當我讀到 Pichai 和 Dean 關于 ChatGPT 威脅的論點時,我注意到了一些奇怪的事情:他們似乎在暗示谷歌正在與 OpenAI 競爭。事實上,OpenAI 的技術是谷歌高管眼中的“紅色代碼”,但我認為 OpenAI 不會對谷歌構成威脅——這是錯誤的構想。

        一方面,OpenAI 在技術研究和人工智能專業知識方面無法與谷歌匹敵。谷歌的預算和人才遠遠超過 OpenAI——光是從數字上就能看出來。正如 Emad Mostaque 所說:

        圖片

        另一方面,OpenAI 不想與谷歌競爭。

        OpenAI 的聲譽風險遠低于谷歌,因為它是一家相當新的小型公司,充其量只為幾百萬用戶提供服務,而據估計,全球有超過 40 億人使用谷歌搜索,他們占據了驚人的 84% 的市場份額。

        然而,OpenAI 的目標是構建有益的通用人工智能(AGI)。他們為什么要冒著放棄一個可以說是更優越的目標的風險,在一個與他們的主要目標完全不重疊的領域與一家更大的公司對抗呢?

        即使 OpenAI 主要追求的是經濟利益(不可否認,戰勝谷歌將帶來無可估量的巨大財富),該公司也有更好的,不會與其長期目標相沖突的選擇,比如建立付費訂閱或支付 - 使用模型,就像他們現在所做的那樣(例如 GPT-3 和 DALL-E)。

        就影響力、規模、預算以及最重要的目標而言,谷歌真正的競爭對手是微軟。但是,如果我們以這種方式看待它,谷歌不得不面對更高聲譽風險的論點就站不住腳了。微軟的用戶數量與谷歌相當,微軟也必須維護其精心打造的聲譽——其在 2016 年關閉種族主義聊天機器人 Tay 的決定就體現了這一點。

        支持“聲譽風險”觀點的一個論據是,微軟的搜索市場份額比谷歌小太多了。然而,如果微軟將 LM 和搜索結合起來的嘗試取得成功,他們的用戶數量會大幅增長,因此聲譽風險也會相應增加。

        留給微軟回答的問題是,他們是否愿意冒著聲譽風險做出將 ChatGPT 集成到 Bing 的決定,讓越來越多的用戶被新服務的更強大功能吸引進來,只是為了有機會推翻谷歌。

        谷歌打算如何應對?

        “完善”是一個聽起來好聽卻不可行的目標

        Jeff Dean 的解釋是,谷歌正在等待“技術完善”,這讓我想起了我對將道德原則嵌入 AI 模型和打擊錯誤信息的舉措曾有著天真的期望。我認為,以后也會繼續堅持說這些工作是最重要的,但我可以看到,雖然它們在理論上是非常理想的,但在實踐中卻變得幾乎不可推行下去。

        在我看來,按照 Dean 在這里所說的意思,完善 LM 的唯一方法是重新定義、重新設計和完全重建它們。如果像 Gary Marcus 所猜測的那樣,他們只是沒有足夠的能力做到真實、真實、可靠和中立,那么就沒有任何臨時抱佛腳的方法能夠遏制源自 LM 所學習的數據中的那些惡行。

        一種可能是,一旦有公司試圖將 SE 與 LM 結合起來,保障前者可靠性的所有關鍵特性都會因 LM 缺乏相應的功能設計而失效。Marcus 在他對 Perplexity、Neeva 和 You 的分析中充分證明了這一點。他的結論讓人們對未來充滿希望,但終結了現在的爭論:

        “我頂多可以說 Perplexity.ai 和 you.com 的聊天功能的確在探索一個有趣的想法:將經典搜索引擎與大型語言模型結合起來,可能帶來更多變化。但是,要真正將經典搜索和大型語言模型這兩者結合起來并完善,還有大量工作要做。”

        另一個問題是當前最先進的 AI 技術是否足夠優秀,是否指向正確的目標。Scott Alexander 寫了一篇關于通過人工反饋強化學習(RLHF)的局限性的好文章,而 ChatGPT 使用的就是這種技術,并且它似乎是公司阻止 LM 的行為缺陷的唯一方法。

        Alexander 直言不諱:“RLHF 效果不佳。”正如我在自己關于 ChatGPT 的文章中所寫,“人們可以‘輕松地’通過它的過濾器,而且它很容易被迅速注入新數據。”RLHF 優化模型也可能進入優先級沖突的循環。Alexander 說,“懲罰無用的答案會讓 AI 更容易給出錯誤的答案;懲罰錯誤的答案將使人工智能更有可能給出攻擊性的答案;等等。”我們可能無法讓 LM 同時生成有用的、真實的和非冒犯性的響應結果。

        此外,如果 LM 對 RLHF 的改進是漸進式的,正如 Alexander 想到的那樣,我們將永遠不會“完善”它。然而,因為它是性能最好的方法,公司沒有動力花費時間和資源研究另一個可能像 RLHF 一樣有效的好主意。

        如果以上所有事實都是正確的——也就是說 LM 本質上不適合搜索,而我們可以使用的最好的技術也不怎么樣——那么短期內就不會出現 Jeff Dean 所期望的,可以滿足谷歌需求的“完善”時刻。

        谷歌將面臨兩難選擇:一方面,他們可以讓微軟率先承擔“聲譽風險”,但這樣微軟就有可能重新定義搜索未來并成為該領域下一個霸主。另一方面,他們可能會認為“完善技術”是一個過于雄心勃勃的目標,于是冒著自己的聲譽風險,通過一系列公關舉措(例如對公眾說“我們盡可能努力地嘗試”)和半生不熟的功能(例如對公眾說“它現在表現更好了”)跌跌撞撞地前進,但最終在人工智能和搜索領域都保持領先地位,并在接下來的幾十年中幸存下來。

        如果問題的本質是谷歌必須在其聲譽或生死存亡之間做出選擇,我想我們都知道會發生什么。

        LM 驅動的搜索會賺錢嗎?

        接下來是挑戰的最后一部分,如果谷歌一切順利,他們遲早會遇到這一障礙。微軟也逃不掉。如果搜索引擎是通過廣告業務模式盈利,那么公司如何在用戶無需點擊任何內容的情況下通過 LM 驅動的搜索獲利?

        谷歌(如果它選擇帶頭)能否找到一種方法來圍繞 LM 驅動的搜索創建護城河,同時圍繞 LM+ 搜索構建一個新穎的可行商業模型?二十年前,谷歌的 PageRank 算法與廣告模型相結合創造了無與倫比的奇跡。谷歌能否重塑輝煌?

        當然,如果我們能享受無廣告的互聯網肯定是最好的。然而,如果替代方案是將搜索轉變為付費服務,人們愿意接受這樣的轉變嗎?

        我看到的另一種可能性(這可能只是一個瘋狂的假設)是微軟可以決定將搜索引擎變成一種非營利性服務(沒有廣告或任何其他形式的貨幣化服務),其唯一目標是在未來擊倒谷歌這家對手。

        但是,還有其他問題可能會阻止微軟嘗試這一舉措。正如 Marcus 在他的文章中解釋的那樣,當前搜索技術比 LM 便宜得多,而且速度也快得多。這意味著公司轉型后獲得的利潤會下降。微軟在與谷歌競爭的同時會耗盡資金,這會讓雙方都陷入困境,這似乎是一項非常冒險的業務決策。

        無論最終發生什么,很明顯,二十年來幾乎停滯不前的搜索領域即將經歷前所未有的拐點。


        來源:AI前線


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 微軟與谷歌

        技術專區

        關閉
        主站蜘蛛池模板: 建阳市| 惠州市| 祁连县| 乾安县| 沧州市| 寿光市| 邹平县| 西畴县| 安平县| 昂仁县| 沙湾县| 徐汇区| 桐城市| 孟州市| 禹城市| 万宁市| 灵山县| 兴文县| 仁怀市| 南充市| 嘉鱼县| 定南县| 莆田市| 双鸭山市| 苏州市| 承德市| 潞西市| 鄄城县| 唐海县| 彭阳县| 威海市| 澄江县| 宜阳县| 天峻县| 绍兴县| 连州市| 福泉市| 东乡族自治县| 色达县| 闻喜县| 当涂县|