華裔00後戳破頂會泡沫！NeurIPS 53篇論文曝AI造假，LeCun躺槍

新智元報道

編輯論文：元宇

【新智元導讀】用AI檢測AI幻覺，用魔法打敗魔法！剛剛，NeurIPS已收錄論文被曝出數百條AI幻覺引用，至少53篇論文中招論文。為了對抗AI幻覺、造假所帶來的學術「汙染」，首先拿起AI武器的，也應當是AI頂會。

數百項虛假引用論文，53篇頂會論文被抓包！

剛剛，NeurIPS頂會暴雷，全球AI圈的「奧斯卡」盛會，被一家華人00後的AI初創公司「打假」了論文。

這家名為GPTZero的公司在掃描了NeurIPS 2025年所接收的4841篇論文後，發現了數百條由AI「編造」出來的引用，至少53篇論文「證據確鑿」論文。

GPTZero CEO Edward Tian將其稱作一個重要的節點時刻論文：

這是首次有記錄顯示，幻覺引用進入了頂級機器學習會議的官方文獻論文。

展開全文

GPTZero聯合創始人兼CEO Edward Tian（左）與聯合創始人兼CTO Alex Cui（右）論文。

當「John Smith」這種佔位符名字（類似中國的張三、李四），堂而皇之地出現在頂會參考文獻中，這意味著學術研究的基石已經被AI幻覺「侵蝕」了論文。

更離譜的是，在GPTZero展示的例子中，圖靈獎得主Yann LeCun的名字，以「Samuel LeCun Jackson」的虛構引用形式，出現在了另一篇有關深度學習的論文中論文。

學術引用的嚴謹性對於科研的意義不言而喻論文。

當謊言被引用了一千次，它在資料集中就變成了真理論文。

如果不加干預，未來的研究者在引用這些「經典」時，就像是在虛無縹緲的雲端建造空中樓閣論文。

以前科學家們的研究是站在了巨人的肩膀上，今後很可能是站在AI的幻覺之上了論文。

53篇論文驚現AI幻覺引用

頂會濾鏡破碎

在AI學術圈，NeurIPS長期以來被視為一座「聖殿」論文。

在這裡發表論文，幾乎等同於拿到了進入Google DeepMind或OpenAI等頂級實驗室的入場券論文。

然而，這層看上去高大上的「神聖濾鏡」，卻被GPTZero擊碎了論文。

他們對NeurIPS 2025已正式發表的4841篇論文進行了一次「地毯式掃描」論文，結果猶如一記重磅炸彈：

至少53篇論文，被檢測出包含數百條由大模型憑空捏造的引用論文。

最令人震驚的是，這些連連結都可能指向404的低階錯誤，竟悉數「騙」過了每篇論文至少三名專家的同行評審防線論文。

NeurIPS 2025現場

頂會的尊嚴，在AI幻覺面前，顯得不堪一擊論文。

如上圖，在GPTZero的官方部落格中，公佈了53篇NeurIPS論文中發表的100條虛構引用列表論文。

在上圖所顯示的這篇論文中，GPTZero檢測到存在一篇標題相同的文章，作者顯然是偽造的論文。

在上面這篇關於深度學習技術的論文中，顯示無作者或標題匹配，說明該文章不存在於出版物中，其URL和DOI均為偽造論文。

GPTZero曾嘗試透過多種名稱來描述AI生成的幻覺引用論文。

「幻覺引用」（hallucinated citations）太長，「虛假引用」（fake citations）則帶有過強的道德評判色彩論文。

Alex Adams

最終，GPTZero機器學習主管Alex Adams提出了「氛圍引用」（vibe citing）一詞，用來描述大模型將真實來源進行推導或拼湊，從而生成看似逼真卻是虛假資訊的傾向論文。

「氛圍引用」與「氛圍寫作」（vibe writing）或「氛圍編碼」（vibe coding）類似，其生成的引用乍看之下似乎準確無誤，但經不起仔細推敲論文。

利用AI撰寫研究論文迅速流行，體現了「氛圍引用」（vibe-citing）的快速增長

從上圖中可以看出，2025年4月和9月的峰值分別對應NeurIPS和ICLR 2025的論文提交截止日期論文。

AI幻覺的進化

Edward Tian認為，NeurIPS的情況更令人擔憂，因為問題出現在已經被正式接收並發表的論文中論文。

根據傳統的學術規範，即便只有一條偽造引用，也足以構成拒稿理由論文。

NeurIPS 2025主賽道論文的接收率為24.52%，這意味著這些存在幻覺引用的論文擊敗了約15000篇競爭對手論文。

這些「AI幻覺」造成的引用問題，透過了同行評審，並被收錄進最終的會議論文集論文。

因此，Edward Tian認為這次問題，相比以往是一次明顯的升級，也是首次有記錄顯示幻覺引用進入了頂級機器學習會議的官方文獻論文。

在GPTZero曝光的部分案例中，我們看到了AI幻覺的驚人進化論文。

最初級錯誤

最初級錯誤，是論文參考文獻中出現了「John Smith」和「Jane Doe」這樣的佔位姓名，甚至還有引用連結直接指向404空頁面論文。

而且，這種初級錯誤竟然逃過了世界頂級專家的法眼論文。

「半真半假」的隱蔽偽造

這是一種更危險、更深度，也更隱蔽的一種偽造論文。

AI可能會把多篇真實論文的內容拼接或改寫，生成看起來十分可信的標題和作者列表論文。

它還會把一篇題為「深度學習的最佳化」的論文，改寫成「深度學習中的最佳化策略」論文。

乍看上去作者和關鍵詞都對，格式也是BibTeX的標準格式論文。

審稿人在快速瀏覽時，大腦會自動補全這些資訊，覺得這篇文獻很眼熟，於是就透過了論文。

GPTZero之所以能發現「AI幻覺」，是因為它的結果是基於事實的對照論文。

據Alex Cui介紹，GPTZero的幻覺檢測工具會讀取論文全文，透過搜尋開放網路和學術資料庫，逐條核實引用的作者、標題、發表渠道和連結論文。

如果一條引用在現實世界找不到對應，或者只與真實論文部分匹配，系統就會拉響警報論文。

失守的防線

「投稿海嘯」與審稿過載困境

如此低階的錯誤論文，為什麼會繞過層層把關的審稿系統？

答案很現實：由於內卷，學術界的「算力」已經跟不上了論文。

ICLR、NeurIPS、ICML和AAAI這些全球AI頂會，每年吸引數千篇投稿和大量參與者論文。

由於AI、論文工廠以及發表壓力所引發的「投稿海嘯」，已使所有這些會議的審稿流程不堪重負，瀕臨崩潰論文。

比如，2020年至2025年間，NeurIPS的投稿量從9467篇激增超過220%，達到21575篇，遠高於2024年的15671篇和2023年的12343篇論文。

即便會議組織者動員了成千上萬名志願評審，但對於每篇論文及其參考文獻進行深入審查也變得越來越難論文。

這就為AI幻覺的出現留下了可乘之機論文。

對此論文，NeurIPS理事會的官方回應顯然有些蒼白：

1.1%的論文因使用大模型而包含一個或多個錯誤引用，也並不意味著論文內容本身一定無效論文。例如，作者可能只是向大模型提供了不完整的引用資訊，並讓模型生成BibTeX（格式化參考文獻）。

但是，這種說法在學術態度上也無法站住腳論文。

如果一位作者連自己的參考文獻都懶得核實論文，直接甩給AI去生成，且不進行復查，我們又怎能相信他在複雜的實驗資料上保持了嚴謹？

就像Hacker News中一位網友說的那樣，看到這些被標註錯誤的論文，會讓自己停下來思考：這篇論文的其它部分有多少是藉助了AI輔助完成的論文。

「如果這些是僅有的錯誤，我們並不擔憂，但無法確定這些就已經是全部的錯誤論文。這些錯誤表明該論文在提交時未經過徹底的幻覺檢查，作者在使用AI時也缺乏應有的謹慎。」

用魔法打敗魔法

NeurIPS「翻車」不止是「氛圍引用」那麼簡單，它動搖的是科研誠信的基石論文。

科研就像一場接力賽論文。以AI研究為例，它高度依賴「可復現性」和「溯源」。

就像Edward Tian所說的：「AI研究結果向來難以復現，因此引用至關重要論文。」

真實準確的引用，能幫助研究者判斷某個結果是否可復現，並讓他人追溯到具體、可驗證的來源進行測試論文。

因此論文，如果「氛圍引用」的現象不加以遏制，我們將面臨一種可怕的「近親繁殖」效應：

AI生成了包含幻覺的論文，這些論文被收錄進資料庫，下一代AI模型又拿這些資料進行訓練論文。

最終，AI開始從自己的幻覺中學習知識，導致模型的崩塌論文。

GPTZero的曝光旨在警示行業漏洞：舊有的「評審體系」，已難以應對投稿量激增和AI使用所帶來的問題論文。

如何捍衛同行評審的尊嚴論文？

另一大頂會ICLR（國際表徵學習大會）已經覺醒並開始行動論文。

ICLR將於今年4月舉辦，吸取了NeurIPS的教訓後，它迅速聯手GPTZero，已啟動了嚴格的「排雷」行動論文。

此前，在GPTZero針對ICLR的一項投稿調研中，已經發現了50條成功躲過評審的虛假引用論文。

去年11月，ICLR還發布了關於大模型生成論文及評審的應對策略論文。

ICLR發出的訊號非常明確：不封殺AI，但必須透明論文。

幻覺引用被定性為違反「道德準則」（Code of Ethics），一旦發現大量使用AI未披露或存在虛假內容，將直接拒稿/桌拒（Desk Reject）論文。

更狠的是，審稿人亂用AI，自己的投稿也將面臨被拒的連帶懲罰論文。

此外，ICLR還提到為了避免誤判，會結合工具篩選和人工複核，試圖透過「人機共治」，築起抵禦虛假內容的新防線論文。

在AI時代，同行評審機制正被迫進行一場自我進化論文。

用AI檢測AI幻覺，用魔法打敗魔法論文。

為了應對AI幻覺或造假帶來的學術「汙染」，首先拿起AI武器的，也應當是這些AI頂會論文。

GPTZero背後的兩位年輕創始人

GPTZero之所以能在AI檢測領域迅速嶄露頭角，離不開它兩位年輕創始人的完美互補論文。

Edward Tian

Edward Tian是GPTZero的CEO ，也是一位擁有華人背景的00後創業者論文。

就讀普林斯頓大學期間，他主修電腦科學，並輔修新聞方向；在創立GPTZero之前，他曾在Microsoft AI從事過研究工作，也做過BBC調查報道相關實踐論文。

這些經歷讓他更早意識到：當生成式AI大規模普及後，「內容真實性」與「學術誠信」將面臨新的挑戰論文。

2022年底ChatGPT上線引爆關注之後，Edward Tian在寒假期間快速做出了GPTZero的產品原型，並將困惑度（perplexity）與突發性（burstiness）等統計特徵作為檢測的重要指標論文。

他認為人類寫作在這兩項指標上通常表現出更強的隨機性和結構波動，據此能夠推測出一段文字是人工撰寫還是AI生成的論文。

Alex Cui

Alex Cui是GPTZero的聯合創始人兼CTO論文。

他在多倫多大學完成電腦科學碩士學位論文。在加入GPTZero之前，曾在自動駕駛公司Waabi擔任研究科學家。

作為GPTZero的CTO，Alex負責推進包括為微軟和谷歌產品開發的外掛，幫助使用者在任何文件或網站上檢測AI生成的文字論文。

二人並非臨時組隊，而是高中時期的好友論文。GPTZero早期團隊組建時，Edward便邀請Alex加入並負責技術推進。

參考資料論文：

秒追ASI

華裔00後戳破頂會泡沫！NeurIPS 53篇論文曝AI造假，LeCun躺槍

海之嵐財稅公司

熱門標籤

相關詞彙

分站導航