首頁LBank 新聞中心
AI律師在推理方面已優於法律教授——法律教授如是說
ai-lawyers-better-law-professors-reasoning-stanford
AI律師在推理方面已優於法律教授——法律教授如是說
研究人員發現教授們偏好 AI 生成的答案,而非同儕撰寫的,這引發了對於 AI 在專業教育中扮演之角色的質疑。
2026-06-03 來源:decrypt.co

摘要

  • 法學教授在約75%的時間裡,偏好人工智慧生成的合約法答案,而非同行教授撰寫的答案。
  • 人工智慧的回應被標記為有害的頻率,低於教授撰寫的回應。
  • 研究人員表示,這些結果表明大型語言模型能夠符合專業標準。

根據史丹佛大學主導的一項最新研究,法學教授偏好人工智慧生成的答案,而非同行教授撰寫的答案,該研究檢視了大型語言模型在法律推理任務中的表現。

在這項研究中,來自美國14所法學院的16位教授——包括史丹佛大學、耶魯大學、紐約大學、芝加哥大學、喬治城大學、加州大學洛杉磯分校和維吉尼亞大學——共同設計了40個涵蓋法律學說、判例法、假設情境和政策議題的合約法問題。研究人員認為這是測試現代人工智慧能力的一個理想方式。

研究人員寫道:「大型語言模型(LLMs)正日益被推廣為教育導師,然而大多數評估都集中在具有單一客觀事實的領域。然而,許多學科卻依賴判斷:推理、權衡模糊性並得出站得住腳的結論。法律提供了一個嚴峻的考驗。」

在2,918次盲測比較中,教授們選擇了他們更願意給學生的答案。Google的Gemini 2.5 Pro在與人類教師的對決中贏得了75.92%的勝率,而這家科技巨頭的NotebookLM則贏得了74.75%的勝率,這意味著在約四分之三的回應中,人工智慧生成的結果優於人類。

研究人員表示,為了確定這些結果是否反映了更廣泛的專業共識,他們分析了教授們在評估相同答案對時的意見一致程度。

他們寫道:「觀察到的意見一致程度超過了如果判斷完全是個別獨特的預期水平,這表明大型語言模型的成功反映了與共同學科標準的一致性。」

這項研究發現,人工智慧模型在多個類別中也超越了人類教師,包括與判例、法規或學說相關的回憶問題、假設情境以及政策討論。

該研究指出:「為探究大型語言模型的任何優勢是否由表面寫作風格而非實質內容所驅動,我們額外設計了一組詞彙句法特徵——答案長度、結構組織、推理細微性、法律依據、自信語氣、清晰度和教學支持——並測試了它們能解釋多少偏好模式。」

人工智慧生成的答案被標記為有害的頻率也低於教授撰寫的答案,其中Gemini的有害率為3.41%,NotebookLM為3.64%,而人類教師則為12.06%。在對其他模型的獨立分析中,Anthropic的Claude Opus 4.7排名第一,其次是OpenAI的ChatGPT 5.4和Gemini 2.5 Pro,所有評估的人工智慧模型平均都超越了人類教師。

研究人員提醒說,這項研究並未衡量這些答案是否符合每位教授的個別教學偏好,這留下了人工智慧生成的回答可能被視為普遍可接受,而非針對任何一位教師的方法量身定制的可能性。

該研究指出:「雖然大型語言模型的回答普遍優於人類教師的回答,但我們的評估設定不允許我們直接衡量教師偏好被滿足的程度。至少在理論上,大型語言模型儘管通常提供更強的回答,但仍然可能產生僅被視為『足夠好』的答案。」

這項研究發布之際,法院、律師事務所和法學院正日益努力解決人工智慧應如何在法律專業中使用的問題。

今年三月,洛杉磯高等法院開始測試人工智慧工具,以幫助法官管理日益增多的案件量,而法學院也正在增加人工智慧培訓課程。

「這些新技術作為法律實踐中的倍增器,其潛在好處不容忽視,」密西西比學院法學院院長約翰·P·安德森此前向Decrypt表示。「無論我們的學生未來是計劃成為訴訟律師還是交易律師,他們未來的雇主都將期望他們熟悉這些人工智慧工具。我們希望聘用我們學生的律師事務所能夠確信,每一位密西西比學院法學院畢業生都精通人工智慧技術。」

然而,與此同時,律師事務所也持續面臨因人工智慧產生的「幻覺」和其他錯誤而導致的案件。今年四月,沙利文與克倫威爾律師事務所向美國破產法院承認,在一個備受矚目的案件中,其最近提交的一份文件包含由人工智慧生成的虛假引用。