万维读者网 > 信息时代 > 正文  

人工智能崛起:智商测试超过四岁儿童

www.creaders.net | 2015-10-31 11:31:38  新浪 | 0条评论 | 查看/发表评论

  如果你本来就担心自己的工作有一天会被机器人取而代之,那么下面这则来自麻省理工学院的最新消息可能会让你更加惶恐。

  研究人员最近对一个名叫ConceptNet的人工智能系统进行了测评。在一项为检测儿童智商而设计的测试中,ConceptNet的得分超过了一名智商正常的四岁儿童。

  该测试共包含五项与词语推理和词汇有关的测验,ConceptNet的总得分为69分,与之进行对比的学龄前儿童得分则为50分。并且专家认为,该系统的智能程度还会进一步加强。

  ConceptNet是一项由麻省理工学院常识计算计划团队(MIT Common Sense Computing Initiative)管理的开源项目。该团队研发的ConceptNet 4运用了所谓的“关系”这一概念。例如,当让该系统解释什么是“小鹿”时,它会明白“小鹿是一种鹿”,而不是”鹿是一种小鹿“。也就是说,它能够理解这种动物的概念,以及“小鹿”和“鹿”这两个词汇和概念之间的关系。同时,该系统还可以使用所谓的“对立标记”表示负相关关系,比如“企鹅不会飞”等。

  研究人员让ConceptNet 4参与了“韦克斯勒学龄前儿童智力量表”测试(WPPSI-III),并将研究结果发表在论文《Measuring an Artificial Intelligence System's Performance on a Verbal IQ Test For Young Children》上。WPPSI-III测试包含14项测验项目,以及一份针对操作智商和言语智商的完整评估表。

  操作智商测验通常会要求受测人完成绘画、解谜、记忆等任务。言语智商测验则会考察儿童的词语推理、词汇及理解能力。每种智商得分的平均分都为100分。本次研究则主要针对言语智商进行测试。

  在测试过程中,试题会通过语言处理工具转换成ConceptNet 4能够理解的语言,如“我们为什么要握手?”、“我们为什么要在夏天戴太阳镜?”和“为什么将刀子放入嘴中是不好的行为?”等等。

  该研究由芝加哥大学的斯特兰?奥尔森(Stellan Ohlsson)带领。在对单项测试计分时,研究人员先使用每道题目得分最高的答案计分,然后再使用每道题目得分最高的前五个答案中最好的答案计分。他们将前者称为“严格计分”,后者称为“放松计分”。

  在“信息”测试中,ConceptNet得到了20分,而同时参加测试的四岁儿童通过转换后的得分为10分。这名儿童在词语推理和理解上得分更高,均为7分,而ConceptNet在这两项上的得分分别为2和3分。此外,ConceptNet表现出了更丰富的词汇量,词汇得分为20分,而儿童得分为13分。

  “ConceptNet系统的得分与四岁儿童相仿,但低于五至七岁儿童的平均得分,”研究人员解释道,“该系统在每个单项中得分差异很大,说明还有改进的空间。在所有测试中,‘理解’是最关乎人类常识的测试项目。得分差异大、常识方面表现一般,这说明ConceptNet尚不具有四岁儿童的语言能力。但本次研究说明,儿童智商测试可以为人工智能系统的评估和比较提供一种客观的度量手段。”

  “此外,许多由ConceptNet给出的错误答案和儿童给出的错误答案不仅相去甚远,而且违反常识。”

  例如,在关于“狮子”的词语推理测验中,该AI系统和首测儿童被给予三条线索——“雄性长着鬃毛”,“该动物生活在非洲”,以及“它是一种体型很大的棕黄色猫科动物”。

  由ConceptNet给出的排名前五的答案按顺序排列为:狗,农场,生物,家庭,猫。

  研究团队解释道,“生物”和“猫”尚且还能与“狮子”沾边,但其它的答案就明显有悖于常识了。

  “按照常识,受测者应该至少能将答案限制在动物的范围内,同时能做出简单的推理:“既然线索说它是猫科动物,那只有猫科动物能够被列入考虑范围。”

  该论文被发表在期刊《arXiv》上,共同作者包括罗伯特?斯隆(Robert Sloan)、捷尔吉?图兰(Gy?rgy Turán)和阿隆?尤拉斯基(Aaron Urasky)。

  测试方法

  研究人员让ConceptNet 4参与了“韦克斯勒学龄前儿童智力量表”测试(WPPSI-III),并将研究结果发表在论文《Measuring an Artificial Intelligence System's Performance on a Verbal IQ Test For Young Children》上。WPPSI-III测试包含14项测验项目,以及一份针对操作智商和言语智商的完整评估表。

  操作智商测验通常会要求受测人完成绘画、解谜、记忆等任务。言语智商测验则会考察儿童的词语推理、词汇及理解能力。每种智商得分的平均分都为100分。本次研究则主要针对言语智商进行测试。

  在测试过程中,试题会通过语言处理工具转换成ConceptNet 4能够理解的语言,如“我们为什么要握手?”、“我们为什么要在夏天戴太阳镜?”和“为什么将刀子放入嘴中是不好的行为?”等等。

  该研究由芝加哥大学的斯特兰?奥尔森(Stellan Ohlsson)带领。在对单项测试计分时,研究人员先使用每道题目得分最高的答案计分,然后再使用每道题目得分最高的前五个答案中最好的答案计分。他们将前者称为“严格计分”,后者称为“放松计分”。

  什么是ConceptNet

  ConceptNet是一项由麻省理工学院常识计算计划团队(MIT Common Sense Computing Initiative)管理的开源项目。该团队研发的ConceptNet 4运用了所谓的“关系”这一概念。

  例如,当让该系统解释什么是“小鹿”时,它会明白“小鹿是一种鹿”,而不是”鹿是一种小鹿“。也就是说,它能够理解这种动物的概念,以及“小鹿”和“鹿”这两个词汇和概念之间的关系。

  同时,该系统还可以使用所谓的“对立标记”表示负相关关系,比如“企鹅不会飞”等。

   0


24小时新闻排行榜 更多>>
1 细节惊人!中国最臭名昭著情报部门特工逃离
2 无法想象!习近平或突然干这件事
3 别花冤枉钱 这类手机即将被淘汰
4 人的衰老不是匀速 斯坦福:以下3个年龄段老
5 警方深夜抓人 成都这事越闹越大

48小时新闻排行榜 更多>>
1 中国“最美死刑犯”穿露脐装上刑场 并提一
2 惊曝:北京放任“人民币持续贬值“ 为了…
3 在习近平的阴影下 彭丽媛与孔绍逊的故事
4 中国高铁,从基建狂魔神话变成“诅咒”
5 细节惊人!中国最臭名昭著情报部门特工逃离
6 无法想象!习近平或突然干这件事
7 三中全会可能重启改革路线吗?
8 中国人看不到的:在法国,过街老鼠般的习近
9 越来越多外国人不想去中国了,为啥?
10 分析:中国这行业即将衰落
热门专题
1
以哈战争
6
中共两会
11
秦刚失踪
2
中美冷战
7
台湾大选
12
火箭军悬案
3
乌克兰战争
8
李克强猝逝
13
台海风云
4
万维专栏
9
中国爆雷
14
战狼外交
5
美国大选
10
李尚福出事
15
普里戈津
一周博客排行 更多>>
1 李强和蔡奇 到底谁的实力更强 胡亥
2 蓬佩奥是个好同志 山蛟龙
3 马克龙眼中的左派和右派 施化
4 何与怀:莫言论争之我见 万维网友来
5 关于毛泽东离弃杨开慧的一点资 范学德2
6 看看这26张1972年的上海彩照, 弓长贝占郎
7 神奇的应许之地(6)—面朝红 湮灭之城
8 系列评论之三:在智驾领域 国 雷歌747
9 辛峰:不要把加拿大中国专业人 万维网友来
10 一群蠢人 体育老师
一周博文回复排行榜 更多>>
1 十发九中知名教授:米国大选谁 随意生活
2 坚持“大选舞弊论”对川普不利 渔阳山人
3 系列评论之三:在智驾领域 国 雷歌747
4 一群蠢人 体育老师
5 美国真的会出兵保护台湾吗? 山蛟龙
6 万维写博15年经历的3次事故 马黑
7 蓬佩奥是个好同志 山蛟龙
8 突发!俄罗斯把战术核弹运到乌 爪四哥
9 中共航母的软肋 山蛟龙
10 民主政治的3C原则 karkar
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. CyberMedia Network/Creaders.NET. All Rights Reserved.