科技公司的尷尬戰爭:算法的“好意”,險些毀了一位父親的人生
家住舊金山的馬克怎么都沒想到,本來急著給自己兒子看病,給醫生發了一張照片,結果卻讓自己險些身敗名裂。
事情發生在去年年初,由于當時仍處在疫情高峰期,一些非緊急醫療機構都關閉了服務,也包括馬克家選擇的兒童診所。馬克發現自己兒子的私處出現腫脹,急忙尋求專業人士的幫助,和醫生打視頻電話。
在視頻之前,護士讓馬克發一張照片給醫生看下。馬克照做了。
然而讓他沒想到的是,這張照片可給他惹了大禍了。

圖文無關 圖片來源:Bicanski / CC0 授權
/ 愛子心切的父親,算法眼中的“戀童癖” /
在照片發出的兩天后,馬克突然接到了谷歌的一紙通知。
由于涉嫌儲存和傳播有害內容,嚴重違反用戶協議和公司政策,并且涉嫌違法,他的谷歌賬號被完全關閉。
由于馬克是谷歌全家桶的忠實用戶,谷歌這一決定的后果相當慘痛:
他不僅失去了自己的 Gmail 郵件、通訊錄、日歷,還因為是 Google Fi 虛擬運營商的用戶,連手機號都被一起凍結了。
到了這里,噩夢還遠未結束。
谷歌不僅封了他的賬號,還直接把這件事報到專門打擊兒童****/****內容的監督機構那去了,該機構后來又聯系了舊金山警察部門。終于在去年年底,舊金山警方從谷歌公司那里調取了關于馬克的所有資料和記錄,正式對馬克展開了調查。
長達一年的時間里,馬克面臨“戀童癖”的嚴重指控,工作生活都難以開展,甚至幾乎“身敗名裂”……
《紐約時報》描述此事的文章提到,將馬克置于尷尬境地的,正是谷歌少為人知的兒童****內容打擊系統。
根據美國政府的定義,兒童****內容(Child Sexual Abuse Material,以下簡稱 CSAM),包括照片、視頻等,只要其中涉及未成年人露骨****行為的畫面,都屬于此類內容。更具體來說,涉及包括誘騙、勒索、展示/鼓動/宣揚性化 (sexualization) 未成年人、拐賣兒童性質的內容,都屬于谷歌明令禁止的 CSAM 范疇。

為了防止平臺、產品和技術被用于傳播 CSAM,谷歌投入了大量資源,對 CSAM 進行掃描、阻止、移除和舉報——然而這次讓馬克遭殃的并不是谷歌的掃描技術,而是谷歌的人工查驗流程出了疏漏。
在各大公司,CSAM 檢索和事后舉報的流程,都包括了算法掃描和人工查驗的雙保險制度,谷歌也不免俗。然而在馬克的遭遇當中,在算法發現了照片,并自動觸發系統鎖死馬克的賬戶,并交由人工查驗之后,核查員似乎并沒有考慮當時的場景,沒有發現這張照片是發給醫療專業人士的。
事后,馬克立即進行了申訴。然而谷歌不僅拒絕復核之前做出的決定,甚至都不讓他下載保存自己的數據。被關閉的賬號,數據在兩個月后就被自動刪除了,馬克失去了過去多年積累的很多重要信息。
事情就這樣拖了整整一年,直到去年年底警方正式啟動了調查。
在這一年里,馬克幾近“社死”,很難跟同事和朋友完整、誠實地解釋,自己的電話號碼、郵箱,為什么突然就憑空消失了。
直到今年前不久,當地警方才完成了調查并予以結案。
結果毫無意外:馬克無罪。

圖文無關 圖片來源:Direct Media / CC0授權
對于把自己的忠實用戶推進深淵,谷歌用法律作為擋箭牌的解釋,很合情合理,卻也綿軟無力。一位公司發言人表示,美國的兒童保護相關法律要求像谷歌這樣的公司必須對發現的 CSAM 事件進行上報。
根據谷歌的透明度報告,僅在2021年度,公司就屏蔽了近120萬個涉及 CSAM 的超鏈接,向美國相關監督機構“全國失蹤與受虐兒童服務中心” (NCMEC) 提交了87萬份報告,涉及約670萬條內容,關閉了約27萬個賬號。
遺憾的是,馬克不幸成為了27萬分之一。
身處這27萬人中間,就像那些進了監獄卻高喊著無辜的人一樣,那種有冤情說不出,說出也不被人相信的滋味,簡直無法想象。
/ 好心辦壞事 /
在介紹打擊 CSAM 工作的官方頁面上,谷歌宣稱,公司組建并訓練了專門的隊伍,使用最尖端的技術來識別 CSAM。
目前在美國大公司的范圍里,檢索 CSAM 有兩種技術途徑:哈希值匹配,和計算機視覺識別。
哈希值匹配比較簡單,就是調取市面上第三方機構維護的數據庫里的條目,和自己平臺上的圖片進行哈希值匹配,從而檢測已知的 CSAM 相關內容。這方面早年谷歌曾經用過微軟的 PhotoDNA。這項技術已經存在了10年多的時間了,不止谷歌,包括 Meta、Reddit、Twitter 等公司,以及 CSAM 領域的權威公共監督機構 NCMEC,都在使用它。

圖片來源:微軟
以及,谷歌系的 YouTube 也在使用自研的 CSAI Match 技術來,實現流媒體視頻的哈希匹配。
當然,每天都有新的違法圖片和視頻誕生,所以除了哈希匹配之外,谷歌還自研并部署了基于計算機視覺技術的機器學習分類器,從而檢索“未曾見過”的相關內容。
谷歌將這一技術整合到了 Content Safety API 當中,也開放給第三方使用。目前,包括 Meta、Reddit、Adobe、雅虎等公司,也是谷歌自研 CSAM 檢索技術的用戶和合作伙伴。

至于本次案件,谷歌似乎是從馬克的 Google Photos 檢索到了相關內容。
Google Photos 是谷歌推出的照片備份和云端相冊服務,在自有品牌以及其它一些主流 Android 手機廠商的機型上都有預裝。值得注意的是,用戶在 Google Photos 里登錄谷歌賬號后,應用會提示建議用戶打開自動上傳備份——馬克可能就是在這里吃了虧。
如果打開了自動上傳功能,除了在某些第三方應用(比如 Twitter、Instagram) 下載的照片之外,包括相機照片集,以及手機上生成的其它照片,都會被 Google Photos 會自動上傳到云端。
而根據官方網站和公司發言人透露的情況,谷歌不止明令限制用戶通過 Google Photos 上傳和傳播相關內容,它的 CSAM 打擊系統,也會對 Google Photos 里的照片進行掃描和匹配。
問題在于,根據谷歌發言人的表述,CSAM 打擊系統的對象僅限于用戶“主動行為” (affirmative action) 上傳的圖片。
從務實的角度來看,馬克開啟了 Google Photos 自動上傳,結果因為急著給娃看病,拍了這張照片,自動上傳了,忘了刪,回頭被谷歌找上麻煩——這樣也要算作主動行為,未免有點牽強。

圖片來源:《紐約時報》
掃描 CSAM,能夠保護兒童安全,有效地打擊戀童癖和各種變態,聽上去怎么都是一件好事對不對?
然而實際上,近年來美國大型互聯網和科技公司在做這件事的時候各種問題故障和丑聞不斷——結果就是,算法自動化打擊 CSAM 這件事,在技術道德和隱私權方面已經引發了巨大爭議。
如果把谷歌這次烏龍事件形容為“人禍”的話,那么去年同一時間蘋果出的事故,可以稱得上“天災”了。
去年8月初,蘋果突然宣布,將要在 iOS 平臺上推出一個專門掃描 CSAM 的客戶端側工具。

蘋果突出的關鍵詞在“端側”上:和谷歌一直以來掃描云端服務器存儲的用戶內容的做法不同,蘋果表示只會在用戶設備上做這件事,系統會下載 NCMEC 的數據庫,然后完全在本地進行哈希值匹配。
然而,蘋果所謂的“端側”、“注重隱私”等,只是表面說辭。有專家發現,實際上用戶發送到 iCloud 保存的照片也會成為檢測對象。還有研究者發現蘋果所采用的匹配算法 NeuralHash 存在設計理念缺陷。而且這一技術根本不是即將推出,而是好久以前就偷偷植入到公開版 iOS 里了,蘋果還專門混淆了 API 命名,以便“隱姓埋名”。
結果,蘋果宣布了這件事之后沒出一個月,就有人對 NeuralHash 算法實現了哈希碰撞和“原像攻擊”。
簡單來說,哈希碰撞就是找到兩張哈希值相同的隨機照片;而原像攻擊,則是“刻意生成的碰撞”,也即先給定一張照片,然后生成另一張和其哈希值相同,但內容不同的照片。
甚至,有人直接在廣受歡迎的 ImageNet 標注圖像數據庫里,都能夠找到幾對天然的 NeuralHash “雙胞胎”(兩張不同的原視圖片,哈希值相同)……
這些攻擊測試的結果,從原理和邏輯上直接推翻了蘋果的 CSAM 檢索技術,使其一文不值。

早期測試的結果顯示,NeuralHash 的哈希碰撞發生率和蘋果宣稱的誤報率水平差不多,屬于可以接受的范圍。然而考慮到蘋果在全球擁有超過15億設備用戶,基數過于巨大,一旦 NeuralHash 出現誤報,甚至哈希碰撞導致的事故,都會波及大量用戶。
總的來看,目前谷歌、蘋果這兩大移動平臺級超大型公司,在掃描和打擊兒童****這件事上,都確實努力做了一些事情,也值得鼓勵。
然而這件事的另一面,卻令人大為遺憾:
因為一張隨手拍出的照片,工作和生活陷入僵局,甚至險些身敗名裂,這恐怕是馬克,以及不少和他經歷相似的人,所完全沒有預料到的。
這也是整件事的尷尬之處:在過界的美國科技平臺和它們糟糕的算法面前,好心真的可能會辦壞事。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。