人工(gōng)智能(néng)參與高(gāo)考閱卷,給1078萬考生(shēng)批卷的,可能(néng)不是個(gè)人

發布日期:2021-06-08

目前人工(gōng)智能(néng)已經與教育領域深度融合,利用大數據開(kāi)展的個(gè)性化學習覆蓋學生(shēng)已超千萬。

又(yòu)一(yī)年(nián)高(gāo)考開(kāi)始了,4000餘萬份高(gāo)考試卷成績,還(hái)有背後1078萬考生(shēng)的命運,都在各位閱卷組老師(shī)手中。

自(zì)1978年(nián)恢複高(gāo)考,至今已有43年(nián),高(gāo)考閱卷抛棄了上(shàng)世紀傳統的手改手核的方式,換上(shàng)電(diàn)腦(nǎo)開(kāi)始無紙(zhǐ)化閱卷。近幾年(nián),全國(guó)多(duō)省陸續試點人工(gōng)智能(néng)閱卷。采用人工(gōng)智能(néng)輔助網上(shàng)評卷質量監控系統,最大限度考分的真實性。人工(gōng)智能(néng)輔助網上(shàng)評卷質量監控系統主要使用在作文評卷方面,它會(huì)在後台對試卷進行評判,将其結果與人工(gōng)教師(shī)評卷結果進行對照(zhào),如果發現偏差較大,就(jiù)會(huì)對現場的人工(gōng)評卷進行提醒,保證評卷按照(zhào)标準化操作繼續處理、進行。未來,高(gāo)考或許會(huì)抛棄人工(gōng),讓機(jī)器(qì)獨立閱卷。

近年(nián)來,人工(gōng)智能(néng)技(jì)術(shù)快速發展,或許會(huì)成為(wèi)解救閱卷老師(shī)的希望。

誰在雇傭AI閱卷?

人工(gōng)智能(néng)閱卷的曆史,最早可以追溯到(dào)1996年(nián)。

美國(guó)杜克大學的埃利斯·佩奇設計開(kāi)發出一(yī)款名為(wèi)PEG的作文評分系統,是世界上(shàng)最早智能(néng)評分系統。

到(dào)2005年(nián),美國(guó)一(yī)家非盈利性考試服務中心Educational Testing Service(簡稱ETS)便推出了一(yī)個(gè)名為(wèi)E-rater的機(jī)器(qì)評分系統,應用于GRE、TOFEL等考試。

該組織官網資料,該系統用到(dào)了人工(gōng)智能(néng)技(jì)術(shù)給試卷打分。這個(gè)AI系統不光(guāng)能(néng)指出考生(shēng)的語法、用詞和拼寫錯(cuò)誤,在作文題中還(hái)可以評價考生(shēng)的文章立意、組織結構和語言風格[7]。

2016年(nián),日本文部科學省宣布,考慮引入AI為(wèi)日本高(gāo)考判卷[8]。

而國(guó)内涉足AI評卷的科技(jì)公司,有兩家。

一(yī)家是阿裡(lǐ)。2017年(nián),浙江外國(guó)語學院在一(yī)次考試中,用阿裡(lǐ)的人工(gōng)智能(néng)系統為(wèi)外國(guó)留學生(shēng)的中文試卷閱卷,并宣稱AI閱卷準确率已超過人類[9]。

次年(nián)9月(yuè),阿裡(lǐ)又(yòu)發起一(yī)場全球數學比賽,“閱卷老師(shī)”同樣是阿裡(lǐ)自(zì)研的人工(gōng)智能(néng)。

另一(yī)家,則是發迹于教育的科大訊飛(fēi)。

科大訊飛(fēi)在早年(nián)便開(kāi)發出口語測評系統,為(wèi)多(duō)地普通(tōng)話考試提供智能(néng)評分服務。後來,訊飛(fēi)又(yòu)把注意力從(cóng)口語轉向文字,研究智能(néng)批改技(jì)術(shù)。

2015年(nián)11月(yuè),科大訊飛(fēi)曾在安慶、合肥等地的學校試點用AI批改作文[11];一(yī)個(gè)月(yuè)後的科大訊飛(fēi)年(nián)度發布會(huì)上(shàng),董事(shì)長(cháng)劉慶峰又(yòu)推出智學網,宣稱能(néng)實現全科閱卷、智能(néng)批改。

語文作文智能(néng)評分流程 | 來源:科大訊飛(fēi)智慧教育

2017年(nián)中考,湖(hú)北(běi)襄陽首次引入訊飛(fēi)的人工(gōng)智能(néng)閱卷系統。一(yī)年(nián)後,安徽首次把該系統應用于高(gāo)考。

茲事(shì)體大,安徽教育考試院沒敢讓AI在高(gāo)考中挑大梁,該系統主要用于作文題輔助閱卷,給老師(shī)“打打下(xià)手”。中安在線曾報(bào)道,“它在後台對試卷進行評判,與老師(shī)的閱卷結果進行對照(zhào),如果偏差較大,會(huì)進行提醒。”[13]

雖然人工(gōng)智能(néng)暫時還(hái)是“輔助”角色,但并不影響各地教育考試院的采購熱情。自(zì)2018年(nián)起,科大訊飛(fēi)先後中标安徽、河北(běi)、湖(hú)北(běi)等地的采購需求。科大訊飛(fēi)智慧教育公衆号文章中稱,該技(jì)術(shù)每年(nián)服務的中高(gāo)考考生(shēng),已超過600萬。

訊飛(fēi)子公司——訊飛(fēi)啓明中标湖(hú)北(běi)省教育考試院人工(gōng)智能(néng)閱卷項目 | 來源:中國(guó)政府采購網[15]

Z老師(shī)也表示,當地高(gāo)考雖然未曾使用過人工(gōng)智能(néng)閱卷,但教育考試院的技(jì)術(shù)部門(mén)确實在對接相(xiàng)關事(shì)宜。

雖然暫時派不上(shàng)什麽用處,但往好處看(kàn),這些系統的采購價格都不貴——

2018年(nián)8月(yuè),安徽省教育招生(shēng)考試院采購智能(néng)閱卷網評質量控制服務,價格為(wèi)15.8萬元;

2020年(nián)7月(yuè),湖(hú)北(běi)省教育考試院采購高(gāo)考人工(gōng)智能(néng)評卷服務和研考人工(gōng)智能(néng)評卷檢測服務,價格為(wèi)20.3萬元;

2020年(nián)10月(yuè),河北(běi)省教育考試院采購人工(gōng)智能(néng)AI質檢技(jì)術(shù)測試服務,價格為(wèi)19.76萬元。

若按照(zhào)每個(gè)高(gāo)考閱卷老師(shī)補貼2000元計算(suàn),20萬元不過是100個(gè)老師(shī)的成本。一(yī)旦投入使用,将給教育考試院節省大量人力支出。

誰更有資格決定考生(shēng)命運?

從(cóng)前,考生(shēng)的命運掌握在閱卷老師(shī)手心,他們答個(gè)卷都得想著(zhe)閱卷老師(shī)的體驗——

答卷要用黑(hēi)色簽字筆,閱卷老師(shī)看(kàn)得更清楚;

寫字要寫楷體(至少要整潔),方便閱卷老師(shī)分辨;

答題卡要嚴格分區,讓閱卷老師(shī)理解作答順序。

即便如此,人工(gōng)閱卷仍然不盡人意。

2014年(nián)高(gāo)考,有浙江閱卷老師(shī)反映閱卷速度過快,“主觀題平均用時9秒(miǎo),作文平均1分鍾判閱完成”。上(shàng)海交通(tōng)大學教授、21世紀教育研究院副院長(cháng)熊丙奇稱此類問題普遍存在,甚至有人直言高(gāo)考閱卷是“草(cǎo)菅人命”[16]。

2020年(nián),一(yī)篇名為(wèi)《生(shēng)活在樹上(shàng)》的滿分作文引發争議,浙江語文評卷組作文組組長(cháng)被舉報(bào)開(kāi)課賣書,“既做教練,又(yòu)當裁判”。

把閱卷任務交給AI,對考生(shēng)來說就(jiù)是好事(shì)嗎(ma)?

與人工(gōng)閱卷相(xiàng)比,AI不知疲倦、閱卷速度快,而且有标準統一(yī),犯錯(cuò)幾率也小(xiǎo)。但是,AI“眼中”的标準,一(yī)定适用于高(gāo)考嗎(ma)?

一(yī)方面,AI的偏見(jiàn)在閱卷中已有先例。

Vice曾指出,前述ETS的智能(néng)評分系統E-rater存在算(suàn)法偏見(jiàn)——它更傾向于給中國(guó)學生(shēng)高(gāo)分,而給非裔美國(guó)學生(shēng)、阿拉伯學生(shēng)和西(xī)班牙學生(shēng)低(dī)分。後經ETS研究,發現這是由于中國(guó)學生(shēng)作文篇幅更長(cháng),使用的句式和詞彙更加複雜(zá)[18]。但拗口的句子和華麗的辭藻,顯然不是高(gāo)考作文的“金标準”。

另一(yī)方面,AI閱卷系統的“智能(néng)程度”,還(hái)有待檢驗。

2020年(nián),美國(guó)一(yī)款服務于兩萬所學校的AI閱卷系統被指存在漏洞,考生(shēng)隻要列出相(xiàng)應關鍵詞,就(jiù)能(néng)被系統識别并獲得高(gāo)分[19]。事(shì)實上(shàng),在中國(guó)高(gāo)三學生(shēng)群體中,“高(gāo)分作文模闆”也已流行多(duō)年(nián),AI到(dào)底能(néng)給高(gāo)分還(hái)是判定“抄襲”?一(yī)旦再出一(yī)篇半文半白(bái)的文章,AI讀(dú)得懂(dǒng)嗎(ma)?

根據科大訊飛(fēi)在2021年(nián)4月(yuè)公布的數據,人工(gōng)智能(néng)評閱語文作文的人機(jī)評分一(yī)緻率為(wèi)99.33%。但若全國(guó)均使用人工(gōng)智能(néng)閱卷,今年(nián)上(shàng)千萬的考生(shēng)中,最終也會(huì)有7.2萬人受到(dào)AI的不公正對待,誰來保證少數考生(shēng)的利益?

2020年(nián)8月(yuè),教育部考試中心稱要“堅決維護高(gāo)考評卷和命題工(gōng)作公平公正”,但是要做到(dào)絕對的公平,靠人很難,靠AI也還(hái)需要時日。

目前已有多(duō)個(gè)省市(shì)針對語文、英語作文等主觀性命題引入了機(jī)器(qì)閱卷。将機(jī)器(qì)閱卷與人工(gōng)閱卷結合,當機(jī)器(qì)與人工(gōng)閱卷結果分差較大時,會(huì)自(zì)動挑選出來交給專家組進行最後判别,從(cóng)而減少主觀評價的差異性,使得主觀題的評價更加客觀、公平。


分享到(dào):