去年,“AI教母”李飛飛在一次公開演講中說道:
“從我在斯坦福大學(xué)任教以來,我一直對大學(xué)的招生辦公室感到好奇。終于有一天,他們想找我聊一聊 ChatGPT 對招生的影響。我先問了我 11 歲的兒子:有了 ChatGPT 之后,我們應(yīng)該如何篩選學(xué)生?如果申請人用 ChatGPT 寫了一個非常棒的應(yīng)用程序,我們還應(yīng)該錄取他嗎?
我 11 歲的兒子思考了一會兒回答道:我認(rèn)為你們應(yīng)該錄取 2000 名最會使用 ChatGPT 的學(xué)生。
一開始我以為這是一個愚蠢的答案,但后來,我認(rèn)為這個想法非常有趣。這一代的孩子們已經(jīng)將人工智能視為一種工具,一個 11 歲的孩子不會考慮這意味著什么,但這恰恰在提醒我們已經(jīng)不能把人工智能排除在我們的教育之外?!?/p>
當(dāng)人工智能成為下一代人的新日常,傳統(tǒng)的教育篩選機(jī)制是否還有效,我們還能從中找到優(yōu)秀的人才嗎?可汗學(xué)院創(chuàng)始人薩爾曼·可汗在他的新書《教育新語》中陳述了這樣一個觀點:人工智能并沒有給大學(xué)招生帶來新的問題,而是迫使我們認(rèn)識到現(xiàn)有大學(xué)招生的不足,同時提供了積極變革的可能性。
下文摘編自他的新書《教育新語》:
《教育新語》書封
我們還需要標(biāo)準(zhǔn)化測試嗎?
在美國,抨擊標(biāo)準(zhǔn)化測試已成為一種時尚。每個州都在每個學(xué)年結(jié)束時進(jìn)行“總結(jié)性”測試,以衡量學(xué)生和學(xué)校的表現(xiàn)。人們經(jīng)常批評這些測試過于狹隘,因為它們只針對生活中真正重要的東西的一小部分。這可能會給教育工作者造成壓力,縮小他們在課堂上關(guān)注的范圍。
這還不是全部。還有人認(rèn)為,這些測試占用了學(xué)習(xí)時間,并且不具有可操作性。等到分?jǐn)?shù)出來的時候,已經(jīng)沒有什么動力去關(guān)心他們在測試中的表現(xiàn)。另外,成績的人口統(tǒng)計學(xué)差異也可能導(dǎo)致對某些群體或?qū)W校的偏見。隨著教育變得越來越具有政治色彩,這些考試實際評估的內(nèi)容缺乏透明度,這讓人們產(chǎn)生了懷疑。
但事實上,如果我們要進(jìn)行評價,標(biāo)準(zhǔn)化測試可以說更公平,因為它對每個人都適用相同的標(biāo)準(zhǔn)(與“非標(biāo)準(zhǔn)化”的評價相比)。如果問題在于測試所評估的內(nèi)容太過狹隘,那么解決方案就應(yīng)該擴(kuò)大評估的范圍并使其更加豐富,而不是完全放棄這些測試。同樣,如果批評的焦點是可操作性或透明度,我們應(yīng)該使測試更具可操作性和更透明。
最重要的是,盡管標(biāo)準(zhǔn)化測試并不完美,但取消這些測試真的會使事情變得更公平嗎?如果一所為少數(shù)群體提供服務(wù)的學(xué)校不知道他們的學(xué)生在哪些方面落后以及如何落后,那么他們?nèi)绾沃纸鉀Q問題?對教育工作者、學(xué)生和家庭來說,知道自己的差距難道不是更好嗎?無論如何,這些不足最終都會顯現(xiàn)出來,很可能發(fā)生在多年以后,而那時再要彌補就難上加難了。更應(yīng)該思考的是如何改進(jìn)標(biāo)準(zhǔn)化測試,而不是試圖完全取消它。
傳統(tǒng)的標(biāo)準(zhǔn)化測試缺乏透明度和靈活性,這既是因為創(chuàng)建測試項目的費用高昂,也是因為這些項目必須確保安全;如果其中任何一個項目泄密,整個測試就會失效。另一方面,如果你有一個易于訪問的在線平臺,可以從一個龐大的題庫中進(jìn)行自適應(yīng)測試,那么你就可以讓更多的利益相關(guān)者隨時嘗試測試,而不會破壞測試。這 是因為自適應(yīng)測試會根據(jù)每個學(xué)生在之前問題上的表現(xiàn),為他們提供不同的問題序列。兩個學(xué)生不太可能看到同一套題目。
生成式人工智能具有幫助解決所有這些問題的潛力。大語言模型還不足以完全獨立創(chuàng)作出高質(zhì)量的測試題目,但它們可以幫助出題人 / 審題人提高工作效率。最終,這將使我們能夠用同樣的資源設(shè)計出更多的試題,從而實現(xiàn)新一輪更加透明、更易獲取的評價。
在歷史上,要廣泛評價這些更細(xì)微的任務(wù),成本高得令人望而卻步。即使是最基本的開放式試題,也需要專業(yè)的人類評審員使用復(fù)雜的評分標(biāo)準(zhǔn)和系統(tǒng)來確保一致性。類似于博士論文答辯或求職面試的更豐富的評價歷來無法大規(guī)模進(jìn)行。最新一代的大語言模型有可能讓我們以更 經(jīng)濟(jì)、更普適的方式進(jìn)行這類豐富的評價。
當(dāng)然,使用人工智能進(jìn)行評價可能會引起人們的警惕。如果 人工智能存在無法立即察覺的偏見怎么辦?如果它犯了錯誤怎么辦?我試圖將這種假設(shè)與現(xiàn)狀進(jìn)行比較。目前的評價是由深思熟慮但容易犯錯的人類完成的,他們都帶有自己的偏見。
這并不是說我們應(yīng)該盲目地認(rèn)可人工智能評價。事實上,很多人會利用它做出一些糟糕的、充滿偏見的評價。不過,通過適當(dāng)?shù)年P(guān)懷、透明度和監(jiān)管措施,我們就能降低風(fēng)險,開發(fā)出比現(xiàn)在的評價更豐富、更準(zhǔn)確、更公平的評價方式。這將對整個教育系統(tǒng)產(chǎn)生積極的影響,重新打開優(yōu)質(zhì)教育的大門,促使教育系統(tǒng)更加關(guān)注人的全面發(fā)展。
大學(xué)的篩選機(jī)制還有效嗎?
在美國,大學(xué)的篩選機(jī)制包括日常的學(xué)習(xí)成績、標(biāo)準(zhǔn)化測試、課外活動、論文和推薦信。除了難以更改結(jié)果的學(xué)習(xí)成績和標(biāo)準(zhǔn)化測試,課外活動、論文和推薦信一直是作弊的重災(zāi)區(qū),在大語言模型出現(xiàn)之前就已如此。
2019年3月12日,美國破獲了一起大學(xué)招生舞弊案,數(shù)十名富豪權(quán)貴被指控通過賄賂和欺詐手段,幫助子女進(jìn)入包括耶魯、斯坦福、加州洛杉磯分校等頂尖名校,這就是著名的“校園藍(lán)調(diào)”丑聞。
“校園藍(lán)調(diào)”的核心人物名叫威廉·辛格,他創(chuàng)辦了一家名為“升學(xué)專家”(The Edge College Consulting)的咨詢公司,專門偽造虛假的申請材料,專門幫助富裕家庭的孩子進(jìn)入名校。
事實上,無論存不存在舞弊,富裕的學(xué)生都會在申請學(xué)校的階段得到極大幫助。在硅谷,頂級顧問的收費大約是每小時 400 美元。協(xié)助一名學(xué)生完成一個大學(xué)錄取周期的費用可達(dá)數(shù)萬美元。這些水平較高的顧問會就如何處理課外活動和論文題目向?qū)W生提供建議,幫助選擇大學(xué),并就早期的論文草稿向?qū)W生提供周到的反饋。他們可能會對學(xué)生的論文進(jìn)行大量修改,實質(zhì)上是在替學(xué)生寫論文。
顯然,像 ChatGPT 這樣的工具更容易為負(fù)擔(dān)不起高價顧問的廣大人群所使用。從積極的一面來看,生成式人工智能可以幫助縮小貧富差距。從消極的一面看,道德水平較低的學(xué)生很可能會嘗試突破極限,使道德水平較高的學(xué)生處于不利地位。
招生負(fù)責(zé)人需要考慮的新問題是,學(xué)生提供的材料是否還具有說服力?
要解決這個問題,首先值得質(zhì)疑的是,為什么要把論文和推薦信作為招生的一部分。在大多數(shù)國家,進(jìn)入名牌大學(xué)是一個相當(dāng)客觀的過程。在印度,印度理工學(xué)院(IITs)的錄取完全基于聯(lián)合入學(xué)考試(JEE)。印度理工學(xué)院招收考試分?jǐn)?shù)最高的學(xué)生,但也為一些代表性不足的群體設(shè)置配額。分?jǐn)?shù)最高的學(xué)生不僅可以選擇自己心儀的校區(qū),還可以優(yōu)先選擇專業(yè),錄取不涉及論文、推薦信或課外活動等任何主觀因素。
當(dāng)然,美國的頂尖學(xué)府面臨的情況有些不同,它們的申請者眾多,如果只按照成績排序,它們可以招到遠(yuǎn)超他們計劃數(shù)量的,擁有完美成績的學(xué)生。這迫使它們不得不采取一些主觀的方式去評價學(xué)生,即通過論文、課外活動和推薦信來衡量學(xué)生的個性和背景。
學(xué)生是否克服了困難?他們看起來有協(xié)作精神嗎?他們將來是否有可能對世界產(chǎn)生影響?對十七八歲的年輕人來說,這些都是很大、很深奧的問題。很多人都會懷疑,招生官能否根據(jù)一些受外界影響較大的文章和推薦信來判斷學(xué)生的這些品質(zhì)。
課外活動可以說是學(xué)生領(lǐng)導(dǎo)力或社會責(zé)任感更具體的體現(xiàn),但這也很難判斷。學(xué)生是靠自己的努力贏得了國際科學(xué)展嗎?他們的研究課題是心臟病,而他們的母親是一名心臟病學(xué)家,這是巧合嗎?志愿者的工作是實質(zhì)性工作,還是只是聽起來讓人印象深刻的工作?
這一切都導(dǎo)致了美國競爭激烈的大學(xué)招生中的隨機(jī)性,任何參與過這一過程的人都清楚這一點。許多最聰明、最善于合作、最有才華的人被拒絕的次數(shù)遠(yuǎn)遠(yuǎn)超出了人們的預(yù)期。
訪問任何一所頂尖大學(xué),你都會遇到許多令人印象深刻的年輕人。同時,你也可能會遇到許多在學(xué)業(yè)上掙扎的學(xué)生,或者似乎沒有體現(xiàn)出謙遜、協(xié)作或領(lǐng)導(dǎo)力等特質(zhì)的學(xué)生。大多數(shù)人認(rèn)為,這些學(xué)生非常善于在論文中構(gòu)建關(guān)于自己的敘事,并在系統(tǒng)中進(jìn)行博弈,或者他們的家庭很善于雇人幫他們做這件事。
我們需要有更標(biāo)準(zhǔn)化的方法來評價“軟技能”,如領(lǐng)導(dǎo)力、協(xié)作和同理心。如果這些評價能夠與準(zhǔn)確評價學(xué)生學(xué)術(shù)能力的方法結(jié)合起來,將會更加美妙。這種思路早在人工智能出現(xiàn)之前就已經(jīng)存在,但人工智能將把事情推向另一個高度。
想象一下,如果全國每個人都有同一個老師。這個老師其實是一個很好的仲裁者,生成式人工智能就會是這個新老師。
人工智能代理甚至有可能親自為學(xué)生擔(dān)保,就像熟悉學(xué)生的老師一樣。你可以這樣想像 Khanmigo 這樣的人工智能助手已經(jīng)與你合作了一段時間,它了解你的優(yōu)勢和愛好,并能擬真地描繪出有關(guān)你的動態(tài)圖景。到了申請大學(xué)的時候,人工智能可以為你寫推薦信。每一位使用該平臺的學(xué)生的推薦信都是標(biāo)準(zhǔn)化的,只是它根據(jù)與每一位學(xué)習(xí)者相處的經(jīng)驗擁有不同的記憶。
過去,招生面試通常由與學(xué)生居住在同一地區(qū)的校友進(jìn)行,并不是對所有候選學(xué)生進(jìn)行統(tǒng)一面試,而且面試結(jié)果也存在相當(dāng)大的差異。 他們可以幫助招生官篩選出有明顯問題的申請者,但對大部分在紙面上看起來很優(yōu)秀的學(xué)生來說,面試起到的篩選作用很有限
人工智能使這一過程的可擴(kuò)展性、一致性和可審計性大大提高。在這種情況下,人工智能可以持續(xù)地總結(jié)學(xué)生與面試人員的互動情況,并根據(jù)招生辦公室創(chuàng)建的評分標(biāo)準(zhǔn)從多個維度對其進(jìn)行評分。
當(dāng)然,這會引發(fā)雙向偏見的擔(dān)憂。有些偏見是你想要看到的。你希望這個過程人工智能將偏向于有思想、善于合作的年輕人,而不是出現(xiàn)性別、種族、宗教或地域偏見。百分之百無偏見的解決方案似乎是不可能的,但這不應(yīng)該成為障礙。相反,任何人工智能系統(tǒng)都需要明顯優(yōu)于現(xiàn)實招生體系,而現(xiàn)實招生體系通常會涉及各種偏見。
這不是隨便說說的,2023年6月29日,美國最高法院以6比2的投票結(jié)果裁定,哈佛大學(xué)的種族平衡招生政策歧視亞裔申請人,違反了美國憲法第十四修正案的平等保護(hù)條款。
這項訴訟持續(xù)了將近十年的時間,原告是學(xué)生公平錄取組織(Students for Fair Admissions,簡稱SFFA)。2014年11月17日,該組織指控哈佛大學(xué)在本科生錄取過程中對亞裔美國申請人采取了種族歧視政策,導(dǎo)致亞裔學(xué)生被錄取的可能性低于其他族裔的學(xué)生。
事實上,在 2018 年聯(lián)邦最高法院審理的一起案件中,明確證實哈佛大學(xué)的招生官一直對亞裔美國人申請者的個性特征評分較低,甚至常常武斷地推翻面試官的觀察結(jié)果。哈佛大學(xué)的錄取程序從“學(xué)術(shù)”、“課外”、“體育”、“個人”和“整體”五個方面對申請者進(jìn)行評分,按照 1~6 分對學(xué)生進(jìn)行排名,1 分為最好。
白人申請者的個人評分高于亞裔美國人,21.3% 的白人申請者能獲得 1 分或 2 分,而亞裔美國人只有 17.6% 的人獲此分?jǐn)?shù)。校友面試官給亞裔美國人的個人評分與白人申請者相當(dāng),但招生辦公室給亞裔美國人的評分是所有種族群體中最差的。
在這場重大訴訟之后,這些數(shù)據(jù)才浮出水面。在大多數(shù)情況下,這個非常不透明的過程中蘊含的偏見被很好地隱藏了起來?;谌斯ぶ悄艿拿嬖嚬俸驮u審員的強大之處在于它們可以被審計。你可以用具有相同資質(zhì)、不同人口統(tǒng)計學(xué)特征的申請者對它們進(jìn)行測試,并公布結(jié)果,以確保不同種族、性別或背景之間的一致性。
人工智能并沒有給大學(xué)招生帶來新的問題,而是迫使我們認(rèn)識到現(xiàn)有大學(xué)招生的不足,同時提供了積極變革的可能性。審慎地使用人工智能,再加上一點不斷求索的勇氣,或許能讓我們邁向一個更加公平、更加透明的世界。
薩爾曼·可汗
作為全球最大的非盈利教育機(jī)構(gòu)——可汗學(xué)院的創(chuàng)始人,薩爾曼·可汗應(yīng)OpenAI聯(lián)合創(chuàng)始人山姆·奧特曼之邀,作為世界上首批 GPT-4測試者,深度體驗了人工智能與教育的全方位融合,從而形成了他的獨特思考。
在這本書里,他不僅分析了人工智能在個性化學(xué)習(xí)、課程設(shè)計、學(xué)生評估和教育公平性方面的應(yīng)用,還探討了人工智能技術(shù)如何幫助教育工作者更好地理解學(xué)生需求,從而設(shè)計出更具吸引力和效果的教學(xué)方法。此外,他還著重討論了人工智能技術(shù)對家庭教育的影響,指導(dǎo)家長如何在家庭環(huán)境中應(yīng)用人工智能工具,更好引導(dǎo)孩子學(xué)習(xí),培養(yǎng)孩子自主學(xué)習(xí)的能力。