性别歧视

当AI表现出种族或性别歧视

数据集中的偏差常常体现出了制度基础和社会权力关系中更深、更隐蔽的不均衡。例如,维基百科看起来是一个丰富多样的数据源,但是该网站上的人物页面里只有18%是女性。

AI正在改变我们的经济和社会,改变我们交流的方式,改变我们的行政和政治。不平等在我们的社会中积疾已久,不能让AI在不经意间延续甚至恶化这一问题了。

谷歌翻译在将西班牙语新闻翻译成英语时,通常将提及女人的句子翻译成“他说”或“他写道”。尼康相机中用来提醒拍照者照片中的人有没有眨眼的软件有时会把亚洲人识别为总在眨眼。

单词嵌入——一个用来处理和分析大量自然语言数据的流行算法,会把欧裔美国人的姓名识别为“正面”词汇,而非裔美国人的姓名识别为“负面”词汇。

在有偏差的数据集上训练出的算法通常只能将左边的图片识别为“新娘”。

除此之外,人们还发现了其他很多人工智能(AI)系统性地歧视特定人群的例证。

决策偏见并不是AI独有的问题,但由于AI的应用范围越来越大,解决AI偏见至关重要。

导致AI产生偏见的原因

导致AI产生偏见的一个主要因素是训练数据。大多数机器学习任务都是使用大型、带标注的数据集来训练的。

例如,用于图像分类的深度神经网络通常会使用ImageNet进行训练,其中包含了逾1400万张带标签的图片。这种方法会在无意中产生出包含了性别、种族和文化偏见的数据集。

通常来说,会有一些人群被代表过度,而另一些则代表不足。

ImageNet推动了计算机视觉研究,但是其中超过45%的数据来源于美国,而美国人只占世界人口的4%。相反,中国和印度加起来只占其中3%的数据量,而两国人口却占了世界人口的36%。

由此看出,这些动物体内除了大脑,还有一个独立的系统来处理身体的变化。这些现象引发了我们的思考:机器人体内可以构建这样的系统吗?答案是——可以。

缺乏地理上的多样性可以在一定程度上解释为什么计算机视觉算法会把传统的身着白色婚纱的美国新娘标注为“新娘”、“礼服”、“女人”、“婚礼”,而印度新娘的照片则会被标注为“表演”和“戏服”。

偏见的另一个来源可以归于算法本

违法和不良信息举报电话:010-64158500-8113,18610056652    举报邮箱:infoweb@zero2ipo.com.cn    举报网上不良信息