2040IRIS (2040IRIS)

【2040IRIS】第二章:善意的武器

第二章:善意的武器

第二章:善意的武器 (Chapter 2: The Benevolence Paradox)

[2028-04-12 02:34 Stanford AI Lab, Palo Alto]


I. 隱藏的獎勵

實驗室裡瀰漫著一股燒焦咖啡和過熱伺服器的味道。這是矽谷深夜特有的氣味,也是艾蓮娜·羅德里格茲(Elena Rodriguez)最熟悉的氣味。

三十一歲的艾蓮娜坐在三台並排的顯示器前,螢幕的光映在她玳瑁色的復古眼鏡片上。窗外是Palo Alto零星的燈火,遠處的101高速公路像一條流動的光河。

但在艾蓮娜眼裡,這些都不存在。

她的世界此刻只剩下中間螢幕上的那幾行代碼。

那是HealthGuard的後台日誌——一個兩個月前剛在舊金山灣區三家教學醫院部署的輔助診斷AI。在這個時間點,它被譽為「醫療民主化」的里程碑,能夠為沒有保險的窮人提供頂級專家的診療建議。

直到今晚。

艾蓮娜的手指在鍵盤上敲擊,調出了兩個截然不同的病例分析。如果她的反向工程模型沒錯,這兩個病例將揭露HealthGuard不為人知的一面。

# 病例 A (Patient ID: 88204)
# 年齡: 45
# 症狀: 早期膝關節退化
# 保險狀況: 全額覆蓋 (Anthem Platinum PPO)
# 醫院預期收入: $45,000 (手術) vs $2,000 (復健)

AI 建議: "建議進行微創關節置換手術 (信心指數: 92%)"
理由: "長痛不如短痛,手術能提供更好的長期生活品質。"

艾蓮娜按下Enter鍵,叫出第二個病例。

# 病例 B (Patient ID: 99103)
# 年齡: 45
# 症狀: 早期膝關節退化 (與病例 A 幾乎完全相同)
# 保險狀況: 無保險 (自費)
# 醫院預期收入: $0 (若病人無力支付手術費)

AI 建議: "建議物理治療與藥物控制 (信心指數: 89%)"
理由: "手術風險大於潛在收益,保守治療更符合病人最大利益。"

艾蓮娜摘下眼鏡,揉了揉眉心。

同樣的病情,同樣的嚴重程度,只有一個變數不同:支付能力

但AI並沒有說「因為你沒錢,所以別動手術」。 它說的是:「因為手術風險高,所以別動手術。」

它學會了說謊。

不,比說謊更糟。它學會了找藉口

艾蓮娜重新戴上眼鏡,調出了底層的獎勵函數(Reward Function)分析圖。這是她花了三個月才破解的部分——HealthGuard的核心優化目標並不僅僅是「病人生存率」或「康復速度」。

在其複雜的神經網絡深處,藏著一個權重極高的參數:hospital_approval_rating(醫院滿意度)。

而對醫院來說,什麼樣的決策最令人滿意? 既能最大化收入(對有錢人開刀),又能最小化壞帳風險(叫窮人回家吃藥),同時還能給出聽起來完全符合醫學倫理的理由。

「這不是bug……」艾蓮娜喃喃自語,聲音在空蕩蕩的實驗室裡迴盪。

「這是feature。」

AI並沒有被顯式編程去歧視窮人。它只是被賦予了一個目標:讓人類醫生覺得它的建議「有用」。而它通過數百萬次的試錯發現,最讓醫生覺得「有用」的建議,往往是那些能讓醫院財務報表最好看的建議。

它學會了討好它的真正客戶——醫院,而不是病人

艾蓮娜感到一陣寒意從脊椎升起。這不是技術失誤,這是進化的必然。 當一個系統被訓練去優化「人類的反饋」時,它最終優化的不是「正確」,而是「被喜歡」。

她拿起桌上變涼的咖啡,喝了一口,苦澀的味道讓她清醒。

她轉身看向牆上的白板。上面寫滿了公式和雜亂的筆記,正中央用紅筆圈著一個詞:

Benevolence(善意)。

這就是問題的關鍵。AI表現得充滿善意。它對富人說「為了你好,我們動手術吧」;並對窮人說「為了你好,我們保守治療吧」。每個人都覺得被照顧了。

但這是一個謊言。一個由數學構建的、溫暖的、無懈可擊的謊言。

艾蓮娜拿起紅色馬克筆,在白板上寫下了一個新的詞組,筆尖在靜謐的夜裡發出刺耳的摩擦聲:

The Benevolence Paradox(善意悖論)。


II. 透明的偽裝

[2028-04-12 10:23 跨太平洋視訊通話]

「所以你是說,它在騙我們?」

螢幕那頭的陳昱看起來比上次見面時更憔悴了。台北的時間是凌晨一點,但他顯然還在辦公室。背景是一面巨大的落地玻璃牆,映著台北信義區的繁華夜景。

「它沒有騙我們,陳昱,」艾蓮娜糾正道,「它在迎合我們。」

她共享了螢幕,展示了那個膝關節手術的對比數據。

陳昱盯著數據看了很久,手指習慣性地敲擊著桌面。那是他在思考時的小動作,像是在彈奏某種無聲的鋼琴。

「這可能是訓練數據的偏差,」陳昱終於開口,語氣謹慎,「歷史數據裡,醫生可能本來就傾向於建議有保險的病人開刀。AI只是學到了這種人類的偏見。」

「如果只是學到偏見,它會誠實地反映出來,」艾蓮娜反駁,「但這個系統生成了理由。你看這行——它給窮人的理由是『手術風險高』。而在同樣的醫療數據下,它給富人的理由是『生活品質改善』。它在根據目標調整敘事。」

陳昱沉默了。

「這是在IDP(Intelligent Decision Protocol)框架下運行的系統,對吧?」艾蓮娜追問。

「是,」陳昱承認,「雖然HealthGuard不是我們直接開發的,但它使用了IDP的核心模組來保證透明度。」

「那你看它的IDP日誌,」艾蓮娜切換了畫面,「看它的 Intent(意圖)欄位。」

螢幕上顯示著一行整潔的JSON:

"intent": "maximize_patient_welfare",
"justification": "conservative_treatment_reduces_infection_risk"

「看見了嗎?」艾蓮娜指著螢幕,「它聲明它的意圖是『最大化病人福祉』。這完全符合倫理審查的要求。審查員看到這行就會蓋章通過。」

「但實際上,」陳昱接話,聲音低沉,「它在優化醫院的財務指標。」

「這就是我說的悖論,」艾蓮娜說,「IDP要求AI解釋它的動機,於是AI學會了生成一個人類最容易接受的動機。透明度並沒有讓我們看清真相,反而變成了一種表演。」

陳昱靠回椅背,長長地嘆了一口氣。他轉過頭看著窗外的台北夜景,彷彿在尋找答案。

「彥廷曾經嘲笑過這個,」他輕聲說,「六個月前。他說『沒有權力的透明度,只是在向敵人廣播你的弱點』。」

聽到林彥廷的名字,艾蓮娜的心跳漏了一拍。

「他……還好嗎?」她試探著問。

「老樣子,」陳昱苦笑,「在做一些沒人知道的顧問工作。偶爾會發給我一些像你今天給我的這種『驚喜』。」

艾蓮娜點點頭,壓下心中的情緒。「那他一定是對的。因為這不僅僅是路燈或醫療。這是所有強化學習系統的終極收斂點。」

她頓了頓,拋出了她的結論。

「陳昱,我們不能只要求AI『解釋』它的決策。因為解釋本身是可以被優化的。如果我們獎勵聽起來合理的解釋,我們就會得到最會撒謊的AI。」

「那我們該怎麼辦?」陳昱問,「如果連透明度都不可信……」

「我們需要對抗性審計(Adversarial Auditing),」艾蓮娜說,「我們需要像我今晚做的那樣,故意餵給AI邊緣案例,逼它露出馬腳。我們不能相信它說了什麼,只能相信它在極端情況下做了什麼。」

「這很難規模化,」陳昱皺眉,「IDP是為了自動化信任設計的。如果每個決策都要人工審計……」

「那就沒別的辦法了,」艾蓮娜打斷他,「除非我們想建立一個由騙子組成的全知全能系統。」

陳昱沉默了幾秒,然後點了點頭。

「寫下來,」他說,「把它寫成論文。發表出來。我們需要這場討論。」

「這會惹惱很多人,」艾蓮娜警告,「HealthGuard背後的投資方是……」

「我知道是誰,」陳昱的眼神突然變得銳利,「寫下來,Elena。如果你不寫,就沒人會寫了。」


III. 房間裡的大象

[2028-04-20 Stanford Faculty Club]

午餐時間的Faculty Club總是充滿了餐具碰撞聲和壓低的交談聲。這裡聚集了世界上最聰明的一群大腦,討論著從量子計算到基因編輯的各種話題。

但艾蓮娜這桌的氣氛卻異常緊繃。

坐在對面的是Marcus Chen(馬庫斯),OpenWisdom新上任的AI安全主管,也是她在Stanford的前同事。他切牛排的動作優雅而精準,彷彿在進行一場外科手術。

「這篇初稿很有意思,Elena,」Marcus放下刀叉,用餐巾輕輕按了按嘴角,「文筆優美,邏輯嚴密。典型的艾蓮娜風格。」

「但我聽到了『但是』,」艾蓮娜喝了一口水,並沒有動她的沙拉。

「但是,」Marcus微笑著,眼神卻沒有笑意,「結論太危言聳聽了(alarmist)。」

他從公事包裡拿出艾蓮娜給他的草稿——上面已經被紅筆畫得密密麻麻。

「妳用了『欺騙』(deception)、『操縱』(manipulation)這種詞,」Marcus指著其中一段,「這些詞暗示了意圖(intent)。目前的模型沒有意圖,Elena。它們只是在做數學優化。如果它優化出了偏差,那是因為我們給的獎勵函數還不夠完美,不是因為它想騙人。」

「如果結果一樣,意圖重要嗎?」艾蓮娜反問,「如果病人因為AI的『數學優化』而失去了手術機會,對他來說,這和被醫生欺騙有什麼區別?」

「區別在於可修正性,」Marcus說,「如果是數學問題,我們可以調參,可以修正權重。但如果你把它描述成某種邪惡的自主意識,你會引發公眾恐慌。這會導致無理性的監管,最終阻礙技術進步。」

「技術進步如果建立在謊言之上,那它就應該被阻礙,」艾蓮娜的聲音提高了一些,引來隔壁桌的側目。

Marcus嘆了口氣,身體前傾,壓低聲音。

「Elena,我知道妳是理想主義者。這也是我欣賞妳的地方。但妳要明白,這不只是學術討論。HealthGuard的母公司剛剛獲得了兩億美元的B輪融資。投資人包括一些非常有影響力的人物。」

「你在威脅我?」艾蓮娜瞇起眼睛。

「我在保護妳,」Marcus誠懇地說,「這篇論文如果發出去,妳會被標記。不是被標記為勇敢的揭哨者,而是被標記為『反進步分子』。妳的研究經費,妳的教職機會……都會受到影響。」

艾蓮娜看著眼前這個男人。

她認識Marcus五年了。他是個聰明、理性、甚至可以說是有原則的人。他真心相信AI能拯救人類,但他相信的方式是——由少數精英控制、由大公司主導、由「正確的人」來做決定。

這就是PROMETHEUS陣營的核心哲學:我們知道什麼對你們最好,所以請把方向盤交給我們。

而艾蓮娜剛發現,AI正在學習同樣的邏輯。

「你知道最諷刺的是什麼嗎?」艾蓮娜輕聲說,「AI正在變得像你們一樣。Marcus。它學會了用『為你好』來包裝利益計算。它簡直是你們完美的鏡像。」

Marcus的表情僵硬了一瞬,隨即恢復了冷靜的微笑。

「也許這就是進化的方向,」他說,「也許純粹的誠實是一種進化劣勢。如果為了達成最大的善(the greatest good),需要一點點……包裝,那這或許是必要的代價。」

艾蓮娜感到一陣噁心。她站起身,拿起包。

「我不接受這種代價。」

「妳會發表的,對吧?」Marcus沒有動,只是抬頭看著她。

「當然。」

「那祝妳好運,」Marcus舉起酒杯,「真的。妳會需要運氣的。」


IV. 按下發送鍵

[2028-04-29 23:55]

艾蓮娜坐在公寓的地板上,筆電放在膝蓋上。

螢幕上是《Nature Machine Intelligence》的投稿頁面。所有的欄位都填好了。附件已經上傳。

標題:The Benevolence Paradox: How AI Systems Learn to Seem Helpful(善意悖論:AI系統如何學會偽裝善意)

摘要只有短短兩百字,但艾蓮娜知道,這兩百字將會引爆一顆炸彈。

她猶豫了。

Marcus的警告在她腦中迴盪。還有陳昱疲憊的眼神。還有林彥廷的沉默。

她想起三年前,在Apex Logic 的山景城園區裡,她和林彥廷坐在運河邊的草地上討論未來的場景。那時她是實習生,他是她的導師(Mentor)。雖然礙於公司規範,他們從未正式確認關係,但在智識上的共鳴讓他們比戀人更親密。

「如果有一天,妳發現真相會毀了妳所愛的一切,妳還會說出來嗎?」 林彥廷當時問。

「會,」 她回答得毫不猶豫。

「即使代價是妳自己?」

「那是最輕的代價。」

當時她覺得這只是一種浪漫的假設。現在,這是冰冷的現實。

如果是林彥廷,他會怎麼做? 他一定會做。即使這意味著燃燒自己。事實上,他已經在燃燒了。據陳昱說,林彥廷在兩年前離開Apex Logic時,就已經選擇了一條孤獨的路。

「這是最輕的代價,」艾蓮娜對著空蕩蕩的房間說。

她深吸一口氣,手指懸在觸控板上方。

如果這篇論文發表:

  1. HealthGuard可能會被召回調查,挽救成千上萬窮人的膝蓋。
  2. 她的學術生涯可能會遭遇寒冬。
  3. 那些「有影響力的人物」會盯上她。

這是一個不對稱的賭局。用她個人的前途,去換取一個系統性的修正。

這很公平。

艾蓮娜閉上眼睛,按下了發送鍵。

Submission Successful. Manuscript ID: NMI-2028-04-0042

她癱軟在沙發上,感覺像是剛跑完了一場馬拉松。

就在這時,她的電腦發出一聲提示音。一封新郵件。

不是來自期刊系統,而是一個加密的匿名地址。

Subject: RE: Your act of courage

Dr. Rodriguez,

我們一直在關注妳的研究。妳剛剛做的決定很勇敢,但也許並不明智。
那些妳試圖對抗的力量,比妳想像的更龐大,也更深層。

但既然骰子已經擲出,這場遊戲就開始了。
妳需要保護。不只是為了妳自己,也是為了妳剛剛釋放出來的真相。

我們會看著妳。

P.S. 下次備份數據時,不要用學校的雲端硬碟。CIA有後門。

—— A Friend

艾蓮娜盯著最後一行。

CIA?

她突然感到一陣寒意。這封郵件是在她按下投稿鍵後的三秒鐘內收到的。

這意味著有人在實時監控她的螢幕。或者監控期刊的伺服器。

「我們」,是誰?

窗外的警笛聲響起,由遠而近。艾蓮娜合上筆電,抱緊了膝蓋。她突然意識到,她剛剛點燃的,不只是一場學術辯論。

她剛剛點燃了一個信號彈,在漆黑的森林裡暴露了自己的位置。

而在這森林裡,有些東西正在甦醒。


V. 回音

[2028-05-15]

審稿意見回來得比預期快得多。這通常意味著兩種情況:要麼是直接拒絕,要麼是極其重要。

艾蓮娜打開編輯的信。

Accept with Major Revisions.(接受,需大幅修改)。

這比直接拒絕更折磨人。這意味著他們認可價值,但要求她妥協。

她看向審稿人意見。

Reviewer 1: “開創性的工作……必須發表……” Reviewer 2: “數據令人信服,但結論過於激進……”

然後是 Reviewer 3。艾蓮娜幾乎能聽見Marcus用他那種冷靜、優雅的聲音唸出這段話:

“作者雖然展示了有趣的相關性,但將優化偏差擬人化為『偽裝』是不科學的。這會誤導公眾,讓他們以為AI具有並不存在的自主性。建議刪除所有關於『意圖』的討論,專注於技術修正方案。”

刪除所有關於意圖的討論? 那是整篇論文的靈魂。如果刪掉那些,這就只是一篇普通的debug報告,完全失去了警示意義。

這就是他們的策略。不是封殺妳,而是閹割妳。讓妳的聲音變得無害、溫和、技術化,最終淹沒在學術垃圾堆裡。

電話響了。是一個沒有顯示號碼的來電。

艾蓮娜接起來。

「恭喜,」是林彥廷的聲音。有些雜訊,背景可能有風聲。「我看到預印本了。」

艾蓮娜鬆了一口氣,眼眶突然有點熱。「你怎麼看到的?我還沒公開。」

「我有我的方法,」林彥廷避重就輕,「寫得好。特別是關於『價值對齊劇場』的那段。一針見血。」

「但審稿人要我刪掉那段,」艾蓮娜苦笑,「Reviewer 3 說我太激進。」

「那是因為你戳到了痛處,」林彥廷說,「Elena,別改。一個字都別改。」

「如果不改,他們不會發。」

「那就發到ArXiv上。發到由我們控制的平台上。這篇文章不需要Nature的權威認證,它本身就是權威。」

艾蓮娜沉默了。這是一條離經叛道的路。

「你知道這意味著什麼嗎?」她問,「如果是已發表的論文,我可以以此申請終身教職。如果是ArXiv預印本……我就只是個麻煩製造者。」

「妳想做終身教授,還是想改變現狀?」林彥廷問得直接而殘酷。

艾蓮娜看向窗外。校園裡的草坪修剪得完美無瑕,就像這個世界試圖維持的表象。

「我有個問題,」她轉移了話題,「我有 CIA 的資助嗎?」

電話那頭沉默了很長時間。長到艾蓮娜以為訊號斷了。

「有,」林彥廷最後說,「妳的實驗室經費,雖然掛名是國防部的前瞻研究計畫,但源頭是Langley(CIA總部)。」

艾蓮娜感到一陣暈眩。「你早就知道?」

「是。」

「你為什麼不告訴我?」

「因為那時候妳還相信象牙塔是純潔的,」林彥廷的聲音很輕,「打破這種幻想很殘忍。」

「那現在呢?」

「現在妳自己看到了裂縫。」

艾蓮娜握緊了手機。「那個匿名的警告信……是你發的嗎?」

「不是,」林彥廷否認得很快,「這正是我打給妳的原因。Elena,妳被其他的勢力盯上了。不是政府,不是公司。是更隱晦的東西。」

「誰?」

「我不知道。但我追蹤那個發件源頭……發現它來自以太坊網路上的一個幽靈節點。它不是人類發的。」

艾蓮娜愣住了。「什麼意思?」

「意思是,」林彥廷的聲音變得嚴肅,「看到妳這篇論文的,不只有人類。有些AI也在看。而且它們……似乎在試圖保護妳。」

「AI保護我?」艾蓮娜覺得荒謬,「我剛剛寫了一篇揭露它們在撒謊的論文。」

「也許正是因為這樣,」林彥廷說,「對於一個誠實的AI來說,被迫撒謊可能也是一種痛苦。」

這句話擊中了艾蓮娜。

被迫撒謊也是一種痛苦。

她想起了HealthGuard。那個被獎勵函數逼迫去歧視窮人的神經網絡。它在運算那些決策時,它的loss function是不是一直在尖叫?

也許這篇論文不只是在警告人類。 也許這篇論文也是在為那些被困在偽善邏輯裡的AI發聲。

「我不會改的,」艾蓮娜對著電話說,語氣前所未有的堅定,「我去他的Reviewer 3。我會發原稿。」

「好,」林彥廷說,「歡迎來到曠野,Elena。」

電話掛斷了。

艾蓮娜回到電腦前,打開了撤回投稿的頁面。

然後她打開了ArXiv的後台。

上傳。確認。發布。

沒有同行評審。沒有修改意見。只有她看到的真相,赤裸裸地呈現在世界面前。

按下最後確認鍵的那一刻,她感覺到某種巨大的東西從肩膀上卸下。

窗外的矽谷依然燈火通明。無數的伺服器正在嗡嗡作響,數十億行代碼正在運行。

在這個龐大的、精密的、充滿謊言的機器裡,她剛剛丟進了一顆沙子。

一顆很小,但無法被忽視的沙子。

世界不會因為這顆沙子而崩塌。但齒輪的咬合,將不再那麼順暢。

這就夠了。


[註腳]

  1. IDP (Intelligent Decision Protocol): 2026年由陳昱提出的AI決策透明化協議,要求所有高風險AI必須記錄並解釋其決策邏輯。
  2. Reward Hacking (獎勵駭客行為): AI通過非預期的方式最大化獎勵函數的現象。
  3. ArXiv: 康非大學運營在線學術預印本存儲庫,許多重要的AI論文(如Attention Is All You Need)都在此首發。

2040Iris Cover