我们是否能信任算法不信任又能怎么办

医药和刑事司法等行业引入了越来越多的算法和系统应用,随之而来的算法伦理问题也引起了日益广泛的公众关注。

其中最根本的一个问题是我们是否应该相信我们所听到的信息,以及算法和系统告诉我们的信息。

天眼查显示,作业帮运营主体为小船出海教育科技(北京)有限公司,北京百度网讯科技有限公司为大股东,持股46.2%。而作业帮创始人为侯建彬,持股1.4%,公开信息显示其原为百度知识搜索体系负责人。

从本质上讲,很多算法都是通过获取一些数据并使用规则或者数学公式来生成结果,辅助专业判断。刑事司法中应用算法并不是什么新鲜事件,早在数十年前,基于统计回归的简单的累犯评分系统就已经开始纳入刑事司法使用,只是并不广为大众所知。基本量刑准则可以被认为是一种一致性算法,以此为基础,法官对特定案件可以行使酌处权进行调整。

2020年3月30日,一位用户在黑猫投诉平台投诉称,作业帮涉嫌虚假宣传、霸王条款,其充值开通了作业帮VIP,但作业帮并未醒目的标注“高峰期每天只能提问2次”。4月,又有多位用户投诉称,作业帮存在“重复卖课”、“差别对待学员、缴费额度不统一”的问题。另据聚投诉平台显示,一位用户反映,作业帮的注销账号形同虚设,用户自注册账号起就不断受到作业帮工作人员的推广骚扰。类似投诉还充斥在知乎、微博等平台上。

不只是导航算法,应用在医药和刑事司法行业中那些复杂各异的算法和系统都需要谨慎对待。例如英国用于评估累犯风险的系统 HART(危害评估风险工具),基于随机森林算法而得。这一系统在可信度和公平性上引起了巨大的争议,且不讨论其在面部识别上的争议,人权组织 Liberty 最近在报告中指出,司法预测算法的使用有损害人们权利的风险。

据悉,作业帮目前累计激活用户数8亿多,旗下产品月活达1.7亿。作业帮自己也喊出了“在中国,每10个孩子就有7个在作业帮学习。”的口号。

过去几年,作业帮的“拍照搜题”功能对于学生来说是否是一把“双刃剑”,一直是老师家长存在争议的地方。如今,作业帮补全电商、社交、资讯等功能,其是否能留存用户,转化流量还需时间来验证。但对于侯建彬来说,如何解决现有问题,重塑口碑,无疑成为眼前最要紧的事。

因此,回归到一个简单的问题——我们可以信任算法吗?

然而,通过类比药物测试评估模型得出的算法评估模型存在其局限性。我们知道处方药通常只对个人起作用,除了过度使用抗抑郁药和鸦片类药物外,处方药几乎不会对整个社会产生影响。

美国在刑事司法中应用 COMPAS 系统进行累犯预测,辅助罪犯保释决策。COMPAS 系统输入 137 项特征,评分为 1 到 10,将累犯风险分为低/中/高。

Topol 还指出,几乎没有任何前瞻性的验证,能证明机器可以帮助临床医生有效地诊断或预测临床结果。这也就意味着,很少有算法的验证评估能迈入阶段 3,即验证系统在实践中是否确实利大于弊。即便是简单的风险评分系统也几乎没有在随机试验中进行阶段 3 评估。

在一项随机试验中,我们发现,即使是效果较差的算法也有助于改善诊断和治疗急性腹痛的临床表现,这并不是因为医生听取了计算机的结果,而是因为「计算机辅助诊断」这种形式鼓励了医生更为系统化地收集患者病史并做出初步诊断。

按照FATML建议,算法和系统可以通过发表社会影响声明来传达其可信性。但还有一点似乎未被提及,那就是算法和系统所带来的影响。理论上来说,算法的应用应该是有益的,但这一点无法得到充分保证,所以,FATML提议在声明中增加这一点:

目前两队还没有和巴萨达成任何实质性的协议,不过尤文和国米的转会团队一直在关注着登贝莱,目前登贝莱的身价约为7000万欧元,和当时巴萨买下他花费的1.05亿缩水了不少。

人们常说,算法的可解释性与性能之间是无法兼得的,必须进行权衡。正是因此,累犯预测系统 COMPAS 受到了质疑。一项在线测试表明,未经过培训的公众可以达到和 COMPAS 系统一样的准确度 (65% 的准确度),甚至可以通过简单的基于规则的分类器和只需要年龄和犯罪前科两个预测变量的回归模型来匹配 COMPAS 的预测性能。进一步来说,不确定性评估是统计科学的核心组成部分。

从那以后,我就不怎么相信谷歌地图的导航了。

出于监管目的,临床算法被欧盟和食品药品监督管理局(FDA)视为医疗设备,因此是不受表 1 中的药物测试评估模型所约束的。

海关关员对涉嫌侵权塑料拖鞋进行查验。周雨亮 摄

算法可能会产生一些意料不到的影响。早在 1980 年代,我就参与了「计算机辅助诊断」的研究,当时在诊所的角落里放置了一台笨拙的大型个人计算机。

学习圈广告过多 作业帮如何重塑口碑?

我们去年在葡萄牙度假时,一路都使用谷歌地图进行导航。当我们行驶到古老的科英布拉大学城里狭窄的街道时,听信了谷歌地图的指引并向左转,结果前方道路突然变成了台阶,幸好我们及时刹车,原路返回。

虽然深度学习算法适合于图像数据的自动分析,但是当输入数据较少时,其有可能首先构建一个更简单,更易于解释的模型。

据了解,作业帮上线初期是作为拍照搜题工具,吸引用户,再通过问题答疑、一对一作业辅导、班课进行商业变现。

责任:出问题时该找谁。 可解释性:向利益相关者提供普适的语言解释。 准确性:确定错误和不确定性的来源。 可审核性:允许第三方进行检查和批评。 公平:针对不同的受众特征。

伤病影响了登贝莱的发展

海关关员对涉嫌侵权化妆品进行查验。周雨亮 摄

对此,多家影院经理表示,这个《指引》是给予电影行业的影院终端恢复生产的准入标准,是给予影院现阶段的工作方向与主旨思路,但影院复工并非一件影院单独层面的事情。多家影院表示,是否复工还要等影院上层的明确通知,“等到饭店等聚集性公共场所全都开放,这才意味着安全”。而从另一个角度来看,复工也缺乏条件。北京ACE影城负责人刘晖表示,复工还要有好的片子配合才可以,没有好片,复工的成本也非常大,目前影院还不具备复工条件。有影院经理表示,影院是一把枪,电影才是真正的子弹,而3月的影片都已经撤档了。

当然,这样的方法是透明化的且有吸引力的,但它也可能导致「过度信任」,即算法的结果被视为是完全准确且毫无质疑的。真正值得信赖的算法应该公布其自身的局限性,确保它不会被公众「过度信任」。

侯建彬认为作业帮成功的秘诀是死磕口碑,“坦白的说作业帮在用户口中,在家长口中,乃至在行业内的口碑和影响力都是非常高的。”侯建彬说。

在这个大量信息鱼龙混杂,真假难辨的年代,各种网络声音常常争辩激烈,我们都希望得到信任。

按照相关要求,影院复工前须制定疫情防控方案和疫情应急预案,向属地区主管部门提交复工复映申请,并报市电影局备案。在复映初期一定时间内,按隔排隔座售票,售票处实行观众信息登记制,需登记姓名、性别、住址、身份证号、联系电话、观影影片及放映时间、影厅号和座位号等信息。影院复映后,洗手间等场所应配备洗手液或消毒用品,公共区域每天消毒不少于8次,每个影厅每部影片放映结束后,须彻底消毒一次,并进行通风。

然而侯建彬最为看中的“口碑”正在“悄然崩塌”。时至今日,“虚假宣传”“重复卖课”“过度骚扰”等投诉声不绝于耳,充斥在第三方投诉平台上。

算法的验证评估是一个非常复杂的话题,统计学在其中可以发挥很大作用,数十年来一直应用于数据验证和评估。下面让我们更详细地了解这两点:

但如果它能换一种方式,告知我「目前我无法帮助您」并很快恢复如常,这对我来说,才是值得信赖的行为。即算法知道自己什么情况无法处理,并诚实地告知大家,这样的谦卑态度才是值得我们嘉奖的。

值得一提的是作业帮的社交板块,推荐、学习圈已经成为学生晒日常、晒笔记的阵地。用户想要在学习圈发布消息,首先要通过答题测试,而用户在学习圈发的内容显示用户头像、昵称以及用户所在的学校及年级。不过,和讯科技实测发现,学校及年纪可以任意输入,不需要实名认证等。

无独有偶,一批印有“NIKE”“LV”“GUCCI”等十余种知名品牌的塑料拖鞋也引起了宁波海关查验关员的注意。“这批塑料拖鞋涉及品牌众多,材质粗糙,而且有轻微的刺激性气味,显然不符合正品的特征。”海关查验关员说。

在现实世界进行尝试有什么益处? 是否能更简单,更透明,更可靠? 我能够向感兴趣的人解释清楚它是如何工作的吗? 我可以向一个人解释在特定情况下它如何得出结论吗? 它知道何时处于不稳定状态吗?它能够承认不确定性吗? 人们是否带着适当的质疑态度正确使用了它? 它在实践中真的有帮助吗?

最后,当听到关于任何算法的声明时,可提出的问题清单如下:

统计学应用于结构化评估中是极为常见的,我和 Stead 等人通过长期研究,类比药物测试评估模型,总结出了算法和系统的验证评估模型,表 1 展示了药物测试的四阶段评估模型,以及算法和系统的验证评估模型。

这要求人们能够辨别算法和系统的真实性,这也体现了在算法研究过程中应用统计科学进行评估和验证的可信度(即所谓的「智能透明」)的重要性。

对于过度骚扰用户的问题,一位作业帮员工告诉和讯科技,“这是由于普通销售人员的KPI导致的,比如目标用户是300个人,4元一个人头,每天需要完成多少任务,就不得不硬着头皮打电话和发调查问卷了,在岗时间是早10晚12,不达标不让下班。”

据悉,自开展知识产权保护“龙腾行动2020”以来,宁波海关加大对进出口侵权货物违法行为的打击力度,以维护品牌权利,保障消费者权益,净化口岸环境。(完)

最终的评判标准很重要:一个可信赖的算法应该有能力,向想要了解它推理过程的人展示它是如何发挥作用的。虽然大多数用户可能很乐意「信任」算法的判断结果,但利益各方还是有方法评估其可靠性。Lai&Tan 2019年发现,提供算法的个性化解释和提供算法质量的普适保证一样有效。

但正如哲学家Onora O’Neill)所言,我们不应该期望大众信任自己,而应该主动证明自身值得信赖,这需要自身的诚实,能力和可靠性。奥尼尔这一提议简单有力,英国国家统计局在修订版的职业准则中,也将诚信作为第一要素。

登贝莱同巴萨的合同将在2022年6月到期,而且他现在只有22岁,还有潜力可挖。不过,频繁的伤病却影响到了他的成长,本赛季他因为伤病只出战了9场比赛。因此巴萨愿意将登贝莱推向转会市场,听取其他球队的报价,国米和尤文都在这时伸出了橄榄枝。

剑桥大学丘吉尔学院院士、英国皇家学会院士、现任英国皇家统计学会主席、风险专家问题专家 David Spiegelhalter 从自身被算法误导的经历出发,基于算法在医药和刑事司法的应用案例,对算法的可靠性提出了质疑,因而利用统计科学对算法进行验证评估显得尤其重要。

从已发表的文献中发现,医疗和刑事司法行业的算法,其验证评估都聚焦于阶段 1,即数据集准确性。但数据集准确性仅仅是评估过程的开始。

统计科学主要集中在线性回归模型上,对特征进行加权,构建评分系统。例如,Caruana 等人使用广义相加模型 (Generalized Additive Model) 得出肺炎风险评分系统。

2)影响:实际使用中有什么益处和危害?

表1. 公认的药物测试四阶段评估模型,以及建议的算法评估模型

英国医学研究理事会应对复杂医学干预措施的评估模型与此类似,这一评估模型最初的版本与前文提到的药物测试评估模型非常相似,但其随后的修订版转为了更具迭代化的模型,对实验方法的重视程度有所降低,将影响验证的评估扩展到其他学科,而不再强调随机对照试验的应用。

目前迈入阶段 2 的算法正在由少变多,阶段 2 常应用图灵测试,即将算法性能用来与人类「专家」进行比较。将人类「专家」和算法得出的判断结果进行混合,由独立专家来评估判断结果的质量。在图灵测试中,判断结果是出自人类「专家」还是自出算法是不作考虑的。

文章最后,他也提到了在应用算法时,应该从哪些方面进行评估,遇到同样困扰的研究者不妨借鉴一二。

正如路透社最近的一份报告所言,如今在人工智能这一话题上,充斥着太多商业驱动的炒作言论。Eric Topol 去年在医学 AI 发表权威评论,表示目前 AI 的炒作言论已经远远超出了科学言论,尤其是在算法验证和实施准备阶段。

要成为大众所信赖的算法,需要在声明中表达清楚以下两点信息。首先,开发人员说清楚算法可以做什么,如何进行验证和评估。其次,算法在遇到特定案例时如何处理。

20 世纪 60 年代那场「反应停」药物灾难事件中,因药物造成胎儿四肢畸形,夺去了数以万计婴儿的生命。发生了这一史无前例的药害丑闻以后,所有新药的测试都需要经过极为严苛的评估模型。

2019年11月20日,作业帮被北京市海淀区市场监督管理局行政处罚,给予警告。天眼查显示,处罚原因具体为,经营者与消费者采用格式条款订立合同,经营者在格式条款中排除消费者解释格式条款的权利 。

雷锋网原创文章,。详情见转载须知。

易于访问:能够让感兴趣的人们轻松找到。 可理解的:能够让人们容易理解。 可用的:能够解决人们的担忧。 可评估的:如果有需要,算法决策的评估依据能够提供。

事实上,Liberty 评论司法预测算法的报告只是算法伦理问题的中的一个案例而已,目前从事算法,AI 和机器学习伦理问题研究的人甚至超过了从事技术研究的人,很多伦理问题的应对举措也随之而来,例如,针对司法的 Algo-care,FATML(ML的 公平性、问责制和透明度)社区建议所有算法需要发布一项社会影响声明,在声明中详细说明:

而算法不一样,其广泛应用是可能会对全社会造成影响的,因此药物测试评估模型在阶段 3 采用基于个体的随机对照试验这种传统做法,对于算法评估而言是不完全适用的,需要补充人群影响的研究作为辅助验证。

1)算法和系统结果的可信度

例如,医疗 AI 公司 Babylon曾进行了一项阶段 2 的验证评估,将他们的诊断系统与医生诊断结果进行对比,这一测试随后在《柳叶刀》杂志上被强烈批评。康奈尔大学人工智能专业的Kleinberg 教授等人类比了累犯预测算法的评估流程和药物测试的四阶段评估模型,对人类决策与算法决策阶段 2 比较进行了建模。

当前的案例是否在算法的能力范围内? 得出最终结果的推理过程是什么? 如果算法的输入被否定,结果会如何 (反事实思维)? 是否存在重要的信息能让算法「打破平衡」? 算法得出的结果是否存在不确定性?

“影院复工”也上了微博热搜,记者随机采访发现,人们对目前去影院还是缺乏安全感。有人表示,如果看电影还要进行实名登记、隔排隔座等措施,那本身就说明进影院是一件风险度很高的事,何必要冒险呢?可见,电影院要恢复正常运营,疫情防控才是重中之重,对于看电影,观众们还需要一段心理恢复期。

当前有许多创新尝试能让复杂的算法更具可解释性,减少「黑匣子」情况的出现。例如,由 Moorfields 眼科医院和谷歌联合开发的 Google DeepMind 眼部诊断系统,基于一种深度学习算法并精心设计,可以分层可视化地解释从原始图像到最终诊断结果之间的中间步骤。

我们不能完全被人工智能的“神秘感”所迷惑,如今大量媒体新闻充斥着机器学习和人工智能的「神话」,我们不能偏听偏信,因为这样的新闻通常都是基于商业主张而发布。

如今的转会市场也受到了新冠疫情的影响,流动的资金将会减少,俱乐部之间更希望采取交换球员的方式,而球员的身价也出现了贬值的情况。巴萨想要在今夏改善阵容,劳塔罗和内马尔都是他们的目标,而拉基蒂奇、库蒂尼奥和登贝莱则是清洗的对象。

经商标权利人法国科蒂简易股份有限公司、香奈儿股份有限公司、莱雅公司等14家公司确认,上述货物侵犯其在海关总署备案的相关商标专用权,按正品价值计算约260万元人民币。目前,上述货物已被海关依法扣留。

当罪犯必须接受累犯风险预测系统的预测结果时,或者患者需要接受医疗辅助系统的诊断结果时,他们或他们的代表应该有权利获得以下问题的明确答案:

要证明算法的可靠性,需要分阶段的质量评估过程并应用强大的统计学原理。Topol 指出,临床算法在推出和实施之前,需要进行严苛的研究,在同行评审的期刊上公布结果,并在真实环境中进行临床验证。刑事司法算法和系统应用需要采用同样的方法。

谷歌地图在本不确定的路线中给出了错误导航,让我对其不再信任。

显然,侯建彬对作业帮仅发挥工具属性商业变现并不满意,因此现在的作业帮不仅仅是学习软件,还成为了学生的电商、社交、资讯软件。

在电商方面,作业帮有专属的商城,售卖教辅书、打印机、记忆手卡、学习文具、名著等,但是相比淘宝等平台,作业帮商城虽然垂直,但教辅书、学习文具等品类仍不够丰富,其在供应链及售后服务等方面还存在一定差距。

但是该系统是专有程序,完全是个「黑匣子」,COMPAS 系统曾被指控存在种族偏见,受到了强烈质疑,有人上诉反对 COMPAS 的评分结果,但以失败告终。尽管如此,COMPAS 在大多数 FATM 标准上似乎都表现不佳。

联系相关权利人后,宁波海关确认,该批塑料拖鞋为侵权产品。经清点,该批涉嫌侵权塑料拖鞋共计10906双。按照正品价值估算,该批侵权货物价值超过32万元。

此外,学习圈的广告过多也是用户吐槽的重点,更有用户直接在作业帮APP评分评论下面吐槽称,“体验太差,广告过多,更像是交友软件。”和讯科技通过实测发现,在学习圈一分钟内能三次刷到同一个广告。

当然并不是完全没有算法评估应用了阶段 3,在心血管疾病预防领域,曾有 Cochrane 系统评价得出结论:「评分预测系统会稍许降低 CVD 风险因子水平,并在没有危害的情况下为高危人群开具预防性用药处方。」

算法要被大众信赖,需要透明化,不过这种透明化不是鱼缸式的透明,不能只是提供大量晦涩难懂的信息。而且透明化并不是必须要可解释的,如果系统确实非常复杂,即使是提供代码,也不能很好的满足可解释性。Onora O’Neill 再次为发展「智能透明」理念做出了重大贡献,她认为信息应该:

其中,我认为问题 5 特别重要。

对于巴萨来说,如果尤文和国米愿意给出合适的价格,那么他们会乐意完成这笔转会。

二、主动信任和值得信赖

我们尝试通过以上的评判标准完成一个算法的可信度声明。新诊断乳腺癌妇女的预测算法,通过输入疾病的详细信息和可能的治疗方法来辅助医疗诊断。我们将可能的术后治疗的潜在利弊以文字,数字和图形的方式表达出来,提供了多种级别和多种格式的解释,并公布了算法甚至是代码的全部细节,以供审查需要。

苹果商店作业帮APP评论

三、向使用对象公布算法结果的可信性

临床算法不一定要通过阶段 3 的随机试验,其更为注重的是技术,或者说是代码本身的可靠性。但前提是,算法必须在实验室中证明是具有合理性和准确性的,并能在实践中有所益处,能证明这几点有利于提高算法在社会影响声明中的可信度。