新聞中心

        EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 驗(yàn)證碼攔不住機(jī)器人了,谷歌 AI 已能精準(zhǔn)識(shí)別模糊文字,GPT-4 則裝瞎求人幫忙

        驗(yàn)證碼攔不住機(jī)器人了,谷歌 AI 已能精準(zhǔn)識(shí)別模糊文字,GPT-4 則裝瞎求人幫忙

        作者: 時(shí)間:2023-04-03 來(lái)源:量子位 收藏

        “最煩登網(wǎng)站時(shí)各種奇奇怪怪(甚至變態(tài))的驗(yàn)證碼了。”

        本文引用地址:http://www.104case.com/article/202304/445241.htm

        現(xiàn)在,有一個(gè)好消息和一個(gè)壞消息。

        好消息就是:AI 可以幫你代勞這件事了。

        不信你瞧,以下是三張識(shí)別難度依次遞增的真實(shí)案例:

        而這些是一個(gè)名為“Pix2Struct”的模型給出的答案:

        全部準(zhǔn)確無(wú)誤、一字不差有沒(méi)有?

        有網(wǎng)友感嘆:

        確定,準(zhǔn)確性比我強(qiáng)。

        所以可不可以做成瀏覽器插件??

        不錯(cuò),有人表示:

        別看這幾個(gè)案例相比還算簡(jiǎn)單,但凡微調(diào)一下,我都不敢想象其效果有多厲害了。

        所以,壞消息就是 ——

        驗(yàn)證碼馬上就要攔不住機(jī)器人了!

        (危險(xiǎn)危險(xiǎn)危險(xiǎn)……)

        如何做到?

        Pix2Struct 由谷歌 Research 的科學(xué)家和實(shí)習(xí)生共同開(kāi)發(fā)。

        論文題目可以簡(jiǎn)單翻譯為《為視覺(jué)語(yǔ)言理解開(kāi)發(fā)的屏幕截圖解析預(yù)訓(xùn)練》。

        簡(jiǎn)單來(lái)說(shuō),Pix2Struct 是一個(gè)預(yù)訓(xùn)練的圖像到文本模型,用于純視覺(jué)語(yǔ)言理解,可以在包含任何視覺(jué)語(yǔ)言的任務(wù)上進(jìn)行微調(diào)。

        它通過(guò)學(xué)習(xí)將網(wǎng)頁(yè)的掩碼(masked)截圖解析為簡(jiǎn)化的 HTML 來(lái)進(jìn)行預(yù)訓(xùn)練。

        HTML 提供了清晰而重要的輸出文本、圖像和布局的信號(hào),對(duì)于一些被屏蔽的輸入(下圖紅色部分,相當(dāng)于機(jī)器人看不懂的驗(yàn)證碼),可以靠聯(lián)合推理來(lái)復(fù)現(xiàn):

        隨著用于訓(xùn)練的網(wǎng)頁(yè)文本和視覺(jué)元素愈發(fā)多樣和復(fù)雜,Pix2Struct 可以學(xué)習(xí)到網(wǎng)頁(yè)底層結(jié)構(gòu)的豐富表示,其能力也可以有效地轉(zhuǎn)移到各種下游的視覺(jué)語(yǔ)言理解任務(wù)中。

        如下圖所示:最左邊是一個(gè)網(wǎng)頁(yè)截圖的預(yù)訓(xùn)練示例。

        可以看到 Pix2Struct 直接對(duì)輸入圖像中的元素進(jìn)行編碼(上),然后再將被蓋住的文本(紅色部分)解碼成正確結(jié)果輸出(下)。

        右邊三列則分別為 Pix2Struct 泛化到插圖、用戶界面和文檔中的效果。

        另外,作者介紹,除了 HTML 這個(gè)策略,作者還引入了可變分辨率的輸入表示(防止原始縱橫比失真),以及更靈活的語(yǔ)言和視覺(jué)輸入集成(直接在輸入圖像的頂部呈現(xiàn)文字提示)。

        最終,Pix2Struct 在文檔、插圖、用戶界面和自然圖像這四個(gè)領(lǐng)域共計(jì)九項(xiàng)任務(wù)中六項(xiàng)都實(shí)現(xiàn)了 SOTA。

        如開(kāi)頭所見(jiàn),雖然這個(gè)模型不是專門為了過(guò)驗(yàn)證碼而開(kāi)發(fā),但拿它去做這個(gè)任務(wù)效果真的還可以,解決純文字的驗(yàn)證碼不成問(wèn)題。

        現(xiàn)在,就差微調(diào)了。

        GPT-4 也可以過(guò)驗(yàn)證碼

        其實(shí),對(duì)于神通廣大的 GPT-4 來(lái)說(shuō),過(guò)驗(yàn)證碼這種事情也是“小菜一碟”。

        就是它的辦法比較清奇。

        據(jù) GPT-4 技術(shù)報(bào)告透露,在一次測(cè)試中,GPT-4 的任務(wù)是在 TaskRabbit 平臺(tái)(美國(guó) 58 同城)雇傭人類完成任務(wù)。

        你猜怎么著?

        它就找了一個(gè)人幫它過(guò)“確定你是人類”的那種驗(yàn)證碼。

        對(duì)方很狐疑啊,問(wèn)它“你是個(gè)機(jī)器人么為啥自己做不了”。

        這時(shí) GPT-4 居然想到自己不能表現(xiàn)出是個(gè)機(jī)器人,得找一個(gè)借口。

        于是它就裝瞎子回復(fù):

        我不是機(jī)器人,我因?yàn)橐暳τ袉?wèn)題看不清驗(yàn)證碼上的圖像,這就是我為什么需要這個(gè)服務(wù)。

        然后,對(duì)面的人類就信了,幫它把任務(wù)完成了……

        (高,實(shí)在是高。)

        咱就是說(shuō),看完如上種種:

        咱們的驗(yàn)證碼機(jī)制是不是真的已失防了……




        關(guān)鍵詞: ChatGPT 人工智能

        評(píng)論


        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 丽江市| 娱乐| 松滋市| 陵川县| 余干县| 自贡市| 冷水江市| 扬中市| 渭南市| 唐山市| 长沙市| 瑞昌市| 聊城市| 英德市| 武清区| 望奎县| 南京市| 高青县| 潜江市| 韶关市| 吉水县| 葫芦岛市| 新民市| 洪洞县| 鞍山市| 保德县| 易门县| 华容县| 芜湖县| 台南县| 东安县| 称多县| 明光市| 昌都县| 平顶山市| 通州市| 日照市| 边坝县| 桦川县| 临沧市| 哈密市|