人工(gōng)智能(néng)參與高(gāo)考閱卷，給1078萬考生(shēng)批卷的，可能(néng)不是個(gè)人-福運達人（北(běi)京）教育科技(jì)有限公司

人工(gōng)智能(néng)參與高(gāo)考閱卷，給1078萬考生(shēng)批卷的，可能(néng)不是個(gè)人

發布日期：2021-06-08

目前人工(gōng)智能(néng)已經與教育領域深度融合，利用大數據開(kāi)展的個(gè)性化學習覆蓋學生(shēng)已超千萬。

又(yòu)一(yī)年(nián)高(gāo)考開(kāi)始了，4000餘萬份高(gāo)考試卷成績，還(hái)有背後1078萬考生(shēng)的命運，都在各位閱卷組老師(shī)手中。

自(zì)1978年(nián)恢複高(gāo)考，至今已有43年(nián)，高(gāo)考閱卷抛棄了上(shàng)世紀傳統的手改手核的方式，換上(shàng)電(diàn)腦(nǎo)開(kāi)始無紙(zhǐ)化閱卷。近幾年(nián)，全國(guó)多(duō)省陸續試點人工(gōng)智能(néng)閱卷。采用人工(gōng)智能(néng)輔助網上(shàng)評卷質量監控系統，最大限度考分的真實性。人工(gōng)智能(néng)輔助網上(shàng)評卷質量監控系統主要使用在作文評卷方面，它會(huì)在後台對試卷進行評判，将其結果與人工(gōng)教師(shī)評卷結果進行對照(zhào)，如果發現偏差較大，就(jiù)會(huì)對現場的人工(gōng)評卷進行提醒，保證評卷按照(zhào)标準化操作繼續處理、進行。未來，高(gāo)考或許會(huì)抛棄人工(gōng)，讓機(jī)器(qì)獨立閱卷。

近年(nián)來，人工(gōng)智能(néng)技(jì)術(shù)快速發展，或許會(huì)成為(wèi)解救閱卷老師(shī)的希望。

誰在雇傭AI閱卷?

人工(gōng)智能(néng)閱卷的曆史，最早可以追溯到(dào)1996年(nián)。

美國(guó)杜克大學的埃利斯·佩奇設計開(kāi)發出一(yī)款名為(wèi)PEG的作文評分系統，是世界上(shàng)最早智能(néng)評分系統。

到(dào)2005年(nián)，美國(guó)一(yī)家非盈利性考試服務中心Educational Testing Service(簡稱ETS)便推出了一(yī)個(gè)名為(wèi)E-rater的機(jī)器(qì)評分系統，應用于GRE、TOFEL等考試。

該組織官網資料，該系統用到(dào)了人工(gōng)智能(néng)技(jì)術(shù)給試卷打分。這個(gè)AI系統不光(guāng)能(néng)指出考生(shēng)的語法、用詞和拼寫錯(cuò)誤，在作文題中還(hái)可以評價考生(shēng)的文章立意、組織結構和語言風格[7]。

2016年(nián)，日本文部科學省宣布，考慮引入AI為(wèi)日本高(gāo)考判卷[8]。

而國(guó)内涉足AI評卷的科技(jì)公司，有兩家。

一(yī)家是阿裡(lǐ)。2017年(nián)，浙江外國(guó)語學院在一(yī)次考試中，用阿裡(lǐ)的人工(gōng)智能(néng)系統為(wèi)外國(guó)留學生(shēng)的中文試卷閱卷，并宣稱AI閱卷準确率已超過人類[9]。

次年(nián)9月(yuè)，阿裡(lǐ)又(yòu)發起一(yī)場全球數學比賽，“閱卷老師(shī)”同樣是阿裡(lǐ)自(zì)研的人工(gōng)智能(néng)。

另一(yī)家，則是發迹于教育的科大訊飛(fēi)。

科大訊飛(fēi)在早年(nián)便開(kāi)發出口語測評系統，為(wèi)多(duō)地普通(tōng)話考試提供智能(néng)評分服務。後來，訊飛(fēi)又(yòu)把注意力從(cóng)口語轉向文字，研究智能(néng)批改技(jì)術(shù)。

2015年(nián)11月(yuè)，科大訊飛(fēi)曾在安慶、合肥等地的學校試點用AI批改作文[11];一(yī)個(gè)月(yuè)後的科大訊飛(fēi)年(nián)度發布會(huì)上(shàng)，董事(shì)長(cháng)劉慶峰又(yòu)推出智學網，宣稱能(néng)實現全科閱卷、智能(néng)批改。

語文作文智能(néng)評分流程 | 來源：科大訊飛(fēi)智慧教育

2017年(nián)中考，湖(hú)北(běi)襄陽首次引入訊飛(fēi)的人工(gōng)智能(néng)閱卷系統。一(yī)年(nián)後，安徽首次把該系統應用于高(gāo)考。

茲事(shì)體大，安徽教育考試院沒敢讓AI在高(gāo)考中挑大梁，該系統主要用于作文題輔助閱卷，給老師(shī)“打打下(xià)手”。中安在線曾報(bào)道，“它在後台對試卷進行評判，與老師(shī)的閱卷結果進行對照(zhào)，如果偏差較大，會(huì)進行提醒。”[13]

雖然人工(gōng)智能(néng)暫時還(hái)是“輔助”角色，但并不影響各地教育考試院的采購熱情。自(zì)2018年(nián)起，科大訊飛(fēi)先後中标安徽、河北(běi)、湖(hú)北(běi)等地的采購需求。科大訊飛(fēi)智慧教育公衆号文章中稱，該技(jì)術(shù)每年(nián)服務的中高(gāo)考考生(shēng)，已超過600萬。

訊飛(fēi)子公司——訊飛(fēi)啓明中标湖(hú)北(běi)省教育考試院人工(gōng)智能(néng)閱卷項目 | 來源：中國(guó)政府采購網[15]

Z老師(shī)也表示，當地高(gāo)考雖然未曾使用過人工(gōng)智能(néng)閱卷，但教育考試院的技(jì)術(shù)部門(mén)确實在對接相(xiàng)關事(shì)宜。

雖然暫時派不上(shàng)什麽用處，但往好處看(kàn)，這些系統的采購價格都不貴——

2018年(nián)8月(yuè)，安徽省教育招生(shēng)考試院采購智能(néng)閱卷網評質量控制服務，價格為(wèi)15.8萬元;

2020年(nián)7月(yuè)，湖(hú)北(běi)省教育考試院采購高(gāo)考人工(gōng)智能(néng)評卷服務和研考人工(gōng)智能(néng)評卷檢測服務，價格為(wèi)20.3萬元;

2020年(nián)10月(yuè)，河北(běi)省教育考試院采購人工(gōng)智能(néng)AI質檢技(jì)術(shù)測試服務，價格為(wèi)19.76萬元。

若按照(zhào)每個(gè)高(gāo)考閱卷老師(shī)補貼2000元計算(suàn)，20萬元不過是100個(gè)老師(shī)的成本。一(yī)旦投入使用，将給教育考試院節省大量人力支出。

誰更有資格決定考生(shēng)命運?

從(cóng)前，考生(shēng)的命運掌握在閱卷老師(shī)手心，他們答個(gè)卷都得想著(zhe)閱卷老師(shī)的體驗——

答卷要用黑(hēi)色簽字筆，閱卷老師(shī)看(kàn)得更清楚;

寫字要寫楷體(至少要整潔)，方便閱卷老師(shī)分辨;

答題卡要嚴格分區，讓閱卷老師(shī)理解作答順序。

即便如此，人工(gōng)閱卷仍然不盡人意。

2014年(nián)高(gāo)考，有浙江閱卷老師(shī)反映閱卷速度過快，“主觀題平均用時9秒(miǎo)，作文平均1分鍾判閱完成”。上(shàng)海交通(tōng)大學教授、21世紀教育研究院副院長(cháng)熊丙奇稱此類問題普遍存在，甚至有人直言高(gāo)考閱卷是“草(cǎo)菅人命”[16]。

2020年(nián)，一(yī)篇名為(wèi)《生(shēng)活在樹上(shàng)》的滿分作文引發争議，浙江語文評卷組作文組組長(cháng)被舉報(bào)開(kāi)課賣書，“既做教練，又(yòu)當裁判”。

把閱卷任務交給AI，對考生(shēng)來說就(jiù)是好事(shì)嗎(ma)?

與人工(gōng)閱卷相(xiàng)比，AI不知疲倦、閱卷速度快，而且有标準統一(yī)，犯錯(cuò)幾率也小(xiǎo)。但是，AI“眼中”的标準，一(yī)定适用于高(gāo)考嗎(ma)?

一(yī)方面，AI的偏見(jiàn)在閱卷中已有先例。

Vice曾指出，前述ETS的智能(néng)評分系統E-rater存在算(suàn)法偏見(jiàn)——它更傾向于給中國(guó)學生(shēng)高(gāo)分，而給非裔美國(guó)學生(shēng)、阿拉伯學生(shēng)和西(xī)班牙學生(shēng)低(dī)分。後經ETS研究，發現這是由于中國(guó)學生(shēng)作文篇幅更長(cháng)，使用的句式和詞彙更加複雜(zá)[18]。但拗口的句子和華麗的辭藻，顯然不是高(gāo)考作文的“金标準”。

另一(yī)方面，AI閱卷系統的“智能(néng)程度”，還(hái)有待檢驗。

2020年(nián)，美國(guó)一(yī)款服務于兩萬所學校的AI閱卷系統被指存在漏洞，考生(shēng)隻要列出相(xiàng)應關鍵詞，就(jiù)能(néng)被系統識别并獲得高(gāo)分[19]。事(shì)實上(shàng)，在中國(guó)高(gāo)三學生(shēng)群體中，“高(gāo)分作文模闆”也已流行多(duō)年(nián)，AI到(dào)底能(néng)給高(gāo)分還(hái)是判定“抄襲”?一(yī)旦再出一(yī)篇半文半白(bái)的文章，AI讀(dú)得懂(dǒng)嗎(ma)?

根據科大訊飛(fēi)在2021年(nián)4月(yuè)公布的數據，人工(gōng)智能(néng)評閱語文作文的人機(jī)評分一(yī)緻率為(wèi)99.33%。但若全國(guó)均使用人工(gōng)智能(néng)閱卷，今年(nián)上(shàng)千萬的考生(shēng)中，最終也會(huì)有7.2萬人受到(dào)AI的不公正對待，誰來保證少數考生(shēng)的利益?

2020年(nián)8月(yuè)，教育部考試中心稱要“堅決維護高(gāo)考評卷和命題工(gōng)作公平公正”，但是要做到(dào)絕對的公平，靠人很難，靠AI也還(hái)需要時日。

目前已有多(duō)個(gè)省市(shì)針對語文、英語作文等主觀性命題引入了機(jī)器(qì)閱卷。将機(jī)器(qì)閱卷與人工(gōng)閱卷結合，當機(jī)器(qì)與人工(gōng)閱卷結果分差較大時，會(huì)自(zì)動挑選出來交給專家組進行最後判别，從(cóng)而減少主觀評價的差異性，使得主觀題的評價更加客觀、公平。

上(shàng)一(yī)篇：應急科普--暴雨天該如何保護自(zì)己?

下(xià)一(yī)篇：發明家征戰RoboRave國(guó)際機(jī)器(qì)人大會(huì)亞洲賽斬獲亞軍