AI书房
用书来读懂AI
这里收录金京镇律师的AI、法律、产业、历史、政治、文化主题在线书。每本书都按目录、序言、章节、尾声整理,方便连续阅读。
[AI书房] 第15章 刑事司法与教育AI
人工智能AI走上法庭
第四部 实体安全与各行业AI诉讼
第15章 刑事司法与教育AI
金京镇律师
一、预测性警务(Predictive Policing)
(1) NAACP芝加哥诉讼
迈克尔·威廉姆斯那年65岁。他在芝加哥南区生活了一辈子,邻居们没有不认识他的。2020年的一个傍晚,他对一个认识的年轻人说,可以开车送他回家。车才开出几个街区,子弹就从敞开的车窗飞了进来。年轻人中弹了。
警察赶到现场,以谋杀嫌疑逮捕了威廉姆斯。依据只有一个:ShotSpotter。
ShotSpotter是一套声称能探测枪声的声学监控系统。安装在路灯和信号灯上的麦克风捕捉声音后,算法判断是否为枪声,再将位置信息发送给警方。芝加哥从2017年起在南区和西区全面部署了这套系统,每年的合同金额是900万美元。
问题出在这里。在威廉姆斯案中,ShotSpotter最初把那个声音归类为「烟花」,标注的位置也偏离了一英里以上。然而警方仍然以这个警报为据起诉了威廉姆斯。没有证据表明子弹是从车内射出的。没有目击者。只有算法的判断。
威廉姆斯在库克县监狱待了11个月。他是糖尿病患者,却得不到合理的饮食。他两次感染新冠病毒,双手开始颤抖,出狱后也没有好转。检方最终以无法保证ShotSpotter证据的可靠性为由撤回了起诉。2022年7月,麦克阿瑟司法中心(MacArthur Justice Center)对芝加哥市提起了集体诉讼。
威廉姆斯和另外两名受害者丹尼尔·奥尔蒂斯、德里克·斯克拉格斯一同作为原告。奥尔蒂斯在洗衣店门口被响应ShotSpotter警报赶来的警察戴上手铐、搜身、逮捕。持有毒品的指控第二天就被驳回了。
诉讼的核心主张有两个。
其一,仅凭ShotSpotter警报不足以构成拦截和搜查所需的合理怀疑,因此违反了宪法第四修正案。
其二,芝加哥将ShotSpotter传感器只部署在黑人和拉丁裔聚居区,违反了伊利诺伊州民权法。
数据支撑了这些主张。
芝加哥监察长办公室2021年的报告显示,89%至91%的ShotSpotter警报最终未能找到任何与枪支犯罪相关的证据。每天大约产生100次误报。芝加哥80%的黑人居民和65%的拉丁裔居民生活在ShotSpotter的监控范围内,白人居民只有30%。
2024年9月,市长布兰登·约翰逊终止了ShotSpotter合同。他把这套系统称为「电线杆上的对讲机」。市议会两次要求推翻这一决定,市长没有让步。
2025年8月,诉讼以9万美元达成和解。比金额更重要的是另一件事:芝加哥市同意「ShotSpotter警报本身不构成对警报位置附近人员进行拦截或搜查的正当理由」。算法的判断不能取代人的宪法权利,这一原则得到了确认。有一件颇为讽刺的事。ShotSpotter关闭后的一年里,相关区域的凶杀案数量反而下降了约32%。这是芝加哥大学司法项目的分析结果。那个号称能减少恐惧的技术消失之后,恐惧也跟着消退了。
(2) ShotSpotter等监控技术争议
ShotSpotter的问题不只存在于芝加哥。截至2024年,这套系统已部署在全美150多个城市:纽约、华盛顿特区、丹佛、迈阿密。每座城市都面临着与芝加哥类似的困境。
公司声称准确率达到97%。这个数字藏着把戏。问题出在准确率的计算方式上。警报触发后警察出动,即使没有找到任何枪声证据,也不会被记录为「不准确」。只有当警察主动填写「错误报告」时,才会被归为不准确。而警察几乎从不写这种报告。
真正的测试一次也没做过。从来没有人用科学方法验证过ShotSpotter是否能区分枪声与烟花、汽车回火声、施工噪音和直升机轰鸣。
2024年3月,ShotSpotter前员工克里斯·爱德华兹和金西·罗宾逊公开举报。爱德华兹在公司工作了两年多,负责传感器升级项目。他在法庭文件中声称,系统的大量组件「损坏、腐蚀、缺乏维护」。准确的数据是否真正传递到了客户手中,他表示怀疑。他向上级提出了这些担忧,然后被解雇了。
ShotSpotter(现已更名为SoundThinking)反过来起诉了爱德华兹,理由是他带走了机密文件。爱德华兹主张这是一起旨在让他闭嘴的「策略性封口诉讼(SLAPP)」。2024年1月,法官驳回了爱德华兹的抗辩,允许诉讼继续推进。
争议在法庭之外同样持续。2024年,马萨诸塞州最高法院在Commonwealth v. Rios案中对ShotSpotter证据的可靠性提出了质疑。算法生成的数据要被法庭采纳为证据,需要满足什么标准?专家证人是否应当能够解释算法的运作方式?被告是否应获得验证算法的机会?这些问题至今没有答案。但有一件事已经很清楚了。预测性警务并不能预测犯罪,它只是把过去的偏见投射到未来。向黑人社区派更多警察,产生更多逮捕,这些数据再输入算法,派出更多警察。学者们把这叫做「反馈循环(feedback loop)」。
截至2025年1月,芝加哥正在考虑引入新的枪声探测系统,已拨出900万美元预算。包括SoundThinking在内的8家公司参与了投标。和解协议的墨迹还没干,同样的技术就换了个名字想要卷土重来。
二、风险评估算法
(1) COMPAS系统与种族偏见
弗农·普拉特是白人,41岁,有持械抢劫的前科。他的犯罪记录很长。2014年,他在佛罗里达州布劳沃德县因另一项罪名被捕。
COMPAS算法将他归入「低风险」类别,意思是释放后三年内再犯的可能性较低。
布丽莎·博登是黑人,18岁。她的前科只有青少年时期的轻微违规,一次未遂的自行车盗窃。同一个算法把她归入了「高风险」类别。
两年后,普拉特因一项可判八年的盗窃罪再次被捕。博登没有再犯。
COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)是一家叫Northpointe的公司在1998年开发的算法。
它将被告的再犯可能性打分,从1分到10分。这个分数被用于保释、量刑和假释决定。纽约、宾夕法尼亚、威斯康星、加利福尼亚、佛罗里达在内的46个州在使用这一系统或类似系统。
问题在于,没有人知道这个算法到底怎么运作。
输入变量有137个:此前被捕次数、年龄、就业状况、教育水平、居住区域、家庭成员中是否有犯罪记录。每个变量被赋予多大的权重,属于商业秘密。
法官不知道。被告不知道。辩护律师也不知道。
(2) ProPublica调查结果
2016年5月,调查新闻机构ProPublica发布了一项针对布劳沃德县7000多名被告数据的分析结果。他们将COMPAS评分与被告在两年内的实际再犯情况进行了对照追踪。
结果令人震惊。
整体准确率只有61%,比抛硬币好不了多少。更严重的是错误呈现出的规律。
黑人被告中,「实际未再犯却被标为高风险的比例(假阳性率)」是45%;白人被告是23%。差了将近一倍。反过来,「实际再犯却被标为低风险的比例(假阴性率)」则是白人更高:黑人28%,白人48%。
概括起来就是这样:算法把黑人评估得比实际更危险,把白人评估得比实际更安全。
Northpointe进行了反驳。他们的逻辑是这样的。
COMPAS没有把种族作为直接变量。相同分数的黑人和白人,实际再犯比例是一样的。这就是所谓的「校准(calibration)」公平标准。我们的算法符合这一标准。
双方说的都是事实。但这两个事实不可能同时成立。数学家将此称为「公平性的不可能定理」:当两个群体的基础再犯率不同时,「校准」和「相等的错误率」在数学上无法同时满足。选择了一种公平定义,就必然违反另一种。
问题的根源在更深处。
COMPAS不直接询问种族,但它询问居住区域、就业状况、教育水平,以及家庭成员中是否有犯罪记录。在美国,这些变量都与种族高度相关。黑人聚居区被巡逻得更频繁,逮捕数量更多。这些数据输入算法。算法并不是在预测未来,而是在把过去的不平等量化为数字。
2016年,威斯康星州最高法院在State v. Loomis案中允许使用COMPAS。但附加了条件:法官不得仅凭COMPAS评分决定刑期,且必须向被告人告知算法的局限性。然而实际上,没有人监督这些条件是否被遵守。
2018年,达特茅斯学院研究团队做了一个实验。他们让没有犯罪记录专业知识的普通人查看被告信息,预测再犯可能性。个人预测准确率为63%。综合多人判断后达到67%。COMPAS是65%。一个使用137个变量的复杂算法,表现和普通人的直觉没什么两样。
还有更令人震惊的发现。研究人员仅用两个变量,,年龄和此前定罪次数,,就达到了与COMPAS相同的准确率。其余135个变量没有增加任何预测能力。复杂性不是为了精确,而是为了制造神秘感。
2024年,威廉姆斯学院研究团队发布了一项结果:布劳沃德县使用COMPAS后整体羁押率有所下降,但种族间羁押率差距同时加大了。算法对一部分人施以宽容,对另一部分人施以严苛。而这种分配的标准,与肤色高度相关。
问题依然存在。用带有偏见的历史数据训练出的算法,能创造公正的未来吗?还是说,它不过是一个将不平等自动化、让责任无处追究的工具?
三、人脸识别监管
(1) 旧金山禁令
2019年5月14日,旧金山市议会以8比1通过了一项决议。这是美国主要城市中第一个禁止包括警方在内的市政机构使用人脸识别技术的法案。
提案人是市议员阿伦·佩斯金(Aaron Peskin)。他将这项法令称为「停止秘密监控条例(Stop Secret Surveillance Ordinance)」。
核心内容有三项。
第一,旧金山所有市政机构,包括警察局,不得使用人脸识别技术。
第二,引入监控技术时,必须提交年度透明度报告并接受审计。
第三,由市民监督委员会对技术使用进行监管。
也有反对声音。一些市民团体主张用暂停(moratorium)代替全面禁止。Stop Crime SF的乔尔·恩加迪奥在接受NPR采访时说:「现在确实不该用,错误率太高了。但与其永久禁止,不如为技术改进后的那一天留一扇门。」
旧金山的决定影响了其他城市。奥克兰紧随其后。波士顿跟进了。波特兰也加入了。截至2024年,数十个城市和多个州已制定了限制或禁止人脸识别使用的法规。
但禁令是否真正得到执行,又是另一回事。2024年5月,《华盛顿邮报》做了一篇令人震惊的报道:在禁止人脸识别的辖区,警方通过委托相邻辖区进行检索的方式绕过了禁令。2024年7月,公民权利组织Secure Justice提起诉讼,指控旧金山警察局(SFPD)违反了该条例。他们获取的文件显示,SFPD请求其他辖区进行人脸识别检索的案例至少有12起,远超警察局自己承认的6起。
禁令的局限暴露出来了。技术不认识边界。一个城市禁止了,隔壁城市允许,禁令就失去了意义。除非联邦政府制定统一标准,否则监管永远有漏洞。
(2) Gender Shades 研究
2018年,MIT媒体实验室博士生乔伊·布奥拉姆维尼(Joy Buolamwini)和谷歌AI研究员蒂姆尼特·格布鲁(Timnit Gebru)发表了一篇学术论文。
题为「Gender Shades」。这篇论文改变了人脸识别技术的历史。
研究团队测试了IBM、微软和中国公司Face++的性别分类算法。他们将1270张人脸图像分为四组:浅肤色男性、浅肤色女性、深肤色男性、深肤色女性。
结果很明确。浅肤色男性的错误率不到1%。
深肤色女性的错误率最高达34.7%。
相差35倍。
所有算法中,深肤色女性的错误率都是最高的。
原因出在训练数据上。
研究团队分析后发现,商用人脸识别系统的训练数据集中,79.6%到86.2%由浅肤色面孔构成。算法更擅长识别它学过的面孔。以白人男性工程师为主的团队,用大量白人男性面孔训练出的系统,自然对白人男性识别得最好。
2019年,美国国家标准与技术研究院(NIST)对189个人脸识别算法进行了独立验证,证实了Gender Shades的结论。对亚裔和非裔美国人面孔的误识率(将不同人识别为同一人的比率),比白人面孔高出10到100倍。女性比男性更容易被误认。这项研究的影响立竿见影。
IBM宣布退出人脸识别市场。微软和亚马逊停止向警方出售人脸识别技术。布奥拉姆维尼创立了「算法正义联盟(Algorithmic Justice League)」,持续关注AI偏见问题。
批评也随之而来。安防行业协会在2024年报告中指出,Gender Shades测试的是「性别分类」算法而非「人脸识别」算法,两者属于不同技术。报告还称,2017年测试的算法并不能反映当前技术水平。根据NIST 2024年的评估,排名前100的算法在所有种族群体中准确率均超过99.5%。
但核心问题仍然存在。99.5%的准确率意味着0.5%的错误。如果这项技术被应用于数百万人,就会有数千人被错误识别。而这数千人是谁,才是关键所在。在明尼苏达州ACLU代理的凯利斯·佩里曼案中,一名无辜的黑人男性因人脸识别错误被逮捕和关押。算法0.5%的误差,对一个人来说就是100%的灾难。
Gender Shades研究超越了技术发现本身,抛出了一个问题:谁的面孔是默认值?算法学习时当作「正常」的面孔,究竟是谁的?那些偏离这个「正常」的人,要付出什么代价?
四、教育AI争议
(1) Hingham高中停学事件
2023年12月,马萨诸塞州Hingham高中高三学生RNH正在准备历史课项目。这是全美历史竞赛(National History Day)的参赛作品。他和一名同学组成了团队。
RNH在研究过程中使用了AI。他用AI帮助梳理主题、整理资料、拟定提纲。他没有让AI代写文章。至少他是这么说的。
教师安德鲁·霍伊(Andrew Hoey)不这么认为。他判断RNH的提交作品中有AI使用痕迹。问题在于,当时Hingham高中2023-2024学年的学生手册中,并没有关于AI使用的明确规定。手册里有一条禁止「考核中未经授权使用技术」的条款,但AI是否属于其中,并不明确。
RNH的项目得了0分。他不得不重新提交一份新项目。第二次,他拿到了D。学术不诚信记录留了下来。他被拒绝加入全美优等生协会(National Honor Society)。
RNH的父母很愤怒。他们的儿子GPA超过4.0,ACT满分,SAT 1520分。大学提前批申请季即将到来。学术不诚信记录对申请名校是致命的。
2024年9月,这家人向普利茅斯高等法院提起诉讼。被告是Hingham学校委员会、教育局长、校长和任课教师。案件随后被移送至波士顿联邦法院。原告方的核心主张是:在没有明确AI禁令的情况下,处罚属于「任意且反复无常的(arbitrary and capricious)」;项目指导书中也未提及禁止使用AI;学生的宪法权利受到了侵犯。
2024年10月,联邦治安法官保罗·莱文森(Paul G. Levenson)驳回了临时禁令申请。他的裁定书写得很清楚:学校可以「合理地得出结论」,认为学生「不加甄别地复制AI文本」,违反了学术诚信规范。联邦法院不会在学校纪律处分明显不当之外的情况下进行干预。
临时禁令被驳回了,但诉讼本身仍在继续。
家属的律师表示,计划通过证据开示程序获取更多证据。与此同时,Hingham高中已在2024-2025学年手册中增加了关于AI使用的明确条款。
(2) Doe v. Yale University
2024年春,耶鲁大学管理学院EMBA(高级工商管理硕士)项目的一名学生提交了「资金筹集与管理(Sourcing and Managing Funds)」课程的期末考试答卷。答卷长达30页,是全班篇幅最长的答案之一。
助教察觉到了异常。
那些句子「异常地冗长,结构异常精致」。
「标点和语法几乎完美无瑕」。
授课教授用一款名为GPTZero的AI检测工具对答卷进行了检查。
检测结果指向疑似使用AI。
涉事学生名叫蒂埃里·里尼奥尔(Thierry Rignol),法国籍企业家,居住在得克萨斯州,在墨西哥经营酒店和房地产业务。他于2023年7月入读EMBA项目,原定2025年5月毕业。
2024年7月24日,里尼奥尔与院长助理及学生事务院长会面。诉状称,院长「多次试图迫使原告就荣誉准则违规行为作出虚假认罪」。
是否使用了Grammarly之类的工具?是否与其他同学或助教讨论过?是否对考试规则存在理解上的混淆?里尼奥尔对所有问题都回答了否。
诉状主张,院长暗示「F1签证可能被撤销,他可能被驱逐出境」。事实上,里尼奥尔并非以F1签证身份在美居留。
整个八月,里尼奥尔与荣誉委员会之间往来函件不断。他被正式告知涉嫌违反荣誉准则。调查和听证程序随之展开。最终结果是停学一年,涉事课程记为F。
2025年2月,里尼奥尔在康涅狄格联邦法院对耶鲁大学提起诉讼。起初以「John Doe」的化名立案,后来真实身份被公开。他的主张是多层次的。第一,包括GPTZero在内的AI检测工具并不可靠,耶鲁大学自己的部门也承认「没有任何人工智能工具能够确定性地检测出人工智能的使用」。第二,他是非英语母语者(non-native English speaker),斯坦福大学的研究表明,AI检测工具对非母语者的误报率更高,这构成基于国籍的歧视。第三,听证程序存在正当程序违规。
2025年5月,联邦法官萨拉·拉塞尔(Sarah Russell)驳回了里尼奥尔的临时禁令申请。里尼奥尔希望与2025届毕业生一同毕业,但法官裁定,「原告未能证明在下一学期(2025年秋季)开学前的学业中断以及成绩单上的F会造成不可弥补的损害」。
(3)K-12 AI指导方针与各州立法现状
欣厄姆案和耶鲁案只是冰山一角。2022年11月ChatGPT发布时,美国没有任何一个州拥有关于生成式AI的教育政策。
到2025年4月,至少28个州发布了关于K-12教育环境中AI使用的正式指导方针。
变化来得很快。
学校最初的反应是禁止。纽约市教育局封锁了ChatGPT的访问。洛杉矶、西雅图、巴尔的摩紧随其后。
禁令没能持续多久。学生用个人设备绕过了封锁。教师认识到了AI的教育潜力。到2024年底,大多数学区已经从「禁止AI」转向「管理AI」。
各州的做法大致分为三类。
一类是要求强制制定政策的州。俄亥俄州于2024年夏天通过法律,要求所有公立K-12学校在2026年7月前制定、批准并公布全面的AI政策。田纳西州从2024年3月起要求每个学区制定并公开AI使用政策。截至2025年8月,有法定义务的州只有这两个。
另一类是提供指导方针但不强制执行的州。加利福尼亚、马萨诸塞、科罗拉多、华盛顿等大多数州属于这一类。加利福尼亚根据2024年参议院第1288号法案组建了AI工作组,发布了全面的指导方针,教育工作者、学生和行业专家均参与其中。路易斯安那提出了四级AI整合框架(AI禁止、AI辅助、AI增强、AI赋能)。内华达开发了STELLAR原则(安全、透明、赋能、学习、领导力、成就、负责任使用)。
还有一类是尚未采取明确措施的州。在这些州,各学区各自制定政策,缺乏统一性,学生适用哪套规则取决于所在学区。联邦层面同样有所动作。2024年11月,美国教育部发布了一份指导文件,列举了AI可能侵犯学生公民权利的21种情形。2025年4月,特朗普总统签署了「推进美国青少年人工智能教育」行政命令,强调提升AI素养和熟练度、将AI融入教育、加强教师培训。
美国州教育委员会(Education Commission of the States)的分析显示,各州层面的讨论正围绕几个共同议题汇聚:AI素养不应局限于计算机科学课程,而应贯穿所有学科;应加大对教师专业发展的投入;应保障教育公平;应保护数据隐私;应明确学术诚信政策。
悬而未决的问题是AI检测工具的可靠性。Turnitin、GPTZero这类工具并不完美。误报(未使用AI却被判定为使用)和漏报(使用了AI却未被检测到)都会发生。针对非母语者、特定写作风格或特定主题,错误率各不相同。
还有一个更根本的问题:使用AI写作和未使用AI写作的边界在哪里?拼写检查器可以用吗?Grammarly呢?向ChatGPT请教想法呢?让它帮忙拟提纲呢?让它代写初稿呢?这条线该画在哪里?
欣厄姆的RNH和耶鲁的里尼奥尔,是在这些问题尚无答案的世界里受到了处分。无论他们的诉讼结局如何,有一件事是清楚的:学校禁止不了AI,也无法装作看不见。唯一的选择是找到与之共处的方式。至于那方式究竟是什么,目前还没有人知道。