快捷搜索:

科学知识

当前位置:betway必威官网手机版 > 科学知识 > 上网寻找后,第三局地

上网寻找后,第三局地

来源:http://www.abirdfarm.com 作者:betway必威官网手机版 时间:2019-06-27 23:02

原标题:原创 | 到底是你玩了手机软件还是它们玩了你

betway必威官网手机版 1

试想一下这样的经历:你在看一部电影,有一只鲜肉看上去特别眼熟,可是你就是想不起来他是谁。啊呀呀好捉急,脸盲症又犯了怎么办!于是你赶紧拿起手机搜索了一下片名,找到答案的同时长舒一口气,总算舒坦了!

现在,只要求助于万能的互联网,很多问题都可以轻松地找到答案。不过,这样便捷的手段也可能带来一些负面作用。近日,发表在《实验心理学杂志:综合版》(Journal of Experimental Psychology: General)的一项研究[1]就发现,在使用互联网搜索之后,人们可能会产生“掌握知识”的错觉,从而对自己的能力产生过高的估计。

Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

NVIDIA 深度学习系列

betway必威官网手机版 2

图片来自雷锋网

你看,现在,强迫症和脸盲症的小伙伴们都无需困扰了。遇上这种情况的解决方案非常简单:只要“搜一下”,任何你想要的信息都会在搜索引擎上以爆炸的方式显示出来。

互联网:史上最好记忆搭档

betway必威官网手机版 3theano

1

-- “报告deadline是什么时候?”“忘了,查下群记录吧”

我们不用再记住一些无谓的信息,等到需要他们的时候,再使用搜索引擎调出这些信息就好,何必要为了记下这些与我们的生活没多大关系的信息浪费时间呢?一切看来都很顺理成章,但是科学家们对此提出了疑问:在加速我们的生活方式的同时,搜索引擎是不是已经悄悄改变了我们的记忆和信息处理的模式呢?

在一个相互合作的团队当中,人们对信息的处理方式会与单枪匹马时有所不同。合作者们会共同组成交互记忆系统(transactive memory systems)——每个人都只需要掌握一部分知识或技能,然后彼此互相依赖,在需要时进行信息交换即可。在这样的系统中,人们需要拥有两种记忆:内部记忆(“我知道些什么”)和外部记忆(“谁知道什么”)。拥有这两种记忆,人们就能够在团队中贡献自己的力量,并且高效地获取外部信息来解决问题。

前面的系列文章中,我介绍了一种用来做机器翻译的简单的编码解码器模型。这个模型在英法翻译任务上效果很好。但是在本文中,我们会简要讨论这个模型自身的缺点,给出近期出现的引入软注意力机制来克服这些缺点并给出了显著性能提升的模型。另外,我还会列出一些近期的推广这种神经网络机器翻译模型的方法到其他的场景的尝试的研究成果,比如说图像描述生成和视频描述生成。最后我会对未来的研究方向做一个展望,并给出一些关于文中提及的模型开源实现。

好玩的软件层出不穷,还在互相攀比中不断进步,这事儿真是深得朕心!自从把手机从16G换到了128G,立刻如脱缰野马一般,在不到三个月的时间里召唤来了182个(不数不知道,一数吓一跳)。

-- “上节课讲了什么内容?”“忘了,看下老师的ppt”

网络已是“记忆银行”?

哥伦比亚大学的一位教授对这个问题进行了研究并得出了肯定的答复。贝特斯·斯帕罗(Betsy Sparrow)教授的研究结果表明,我们已经把网络变成了一个“个人记忆银行”。平时把不需要记住的东西放在这个“银行”里面,需要用的时候再提取出来。

斯帕罗教授认为,我们已经相对于古人已经拥有了超强的信息检索能力——想想“人肉”是怎么一回事吧。这个发现,她称之为记忆中的“谷歌效应”。大概三十年前科学家们就提出了“交互记忆”(transactive memory)的概念。人类作为社会动物完美地利用了自身强大的社交能力,将需要记住的信息分散复制给他人代劳记忆。

交互记忆是一个非常有效率的记忆方式。举个例子,你可能不需要记住你的每一件衣服放在哪儿,因为帮你叠衣服的你妈已经全部记住了(下次要找衣服的时候问她就好了)。这样的话就避免了重复记忆的麻烦,大大提高了效率(当然也可能挨麻麻一顿臭骂)。

在这样一个记忆网络之下,每个人的记忆是互相依赖的,其处理信息的能力也远远超过一个个体对于信息的处理能力。随着社会的发展,互联网逐渐成为了这个交互记忆中越来越重要的一个组成部分。网络就起到了和你妈妈一样的作用,帮你代为保管一些信息。但是它和你妈不一样的是,每个人都可以把记忆交给它存储,通过网络,人们形成了一个集体性的交互记忆机制。

betway必威官网手机版 4你的许多信息, 是不是已经存在云端了?然后你就忘了。图片来源:bestthinking.com

为了证实这个理论的可靠性,斯帕罗教授做了一系列的实验。

而随着科技的发展,交互记忆系统也加入了新的成员。除了人与人之外,人与互联网等外部信息来源之间也可以建立类似的关系。互联网上的信息非常丰富,检索起来也异常便捷,这使得它一跃成为了人类最全能的记忆交互搭档。

编码器将输入序列压缩成一个定长的向量,然后从这个定长向量来产生全句的翻译。简言之,定长向量,必须包含源语句中的每一个细节都包含进去。直觉上看,这意味着由编码器近似的真实函数必须是非常地非线性和复杂的。而且,上下文向量的维度必须足够大使得任意长度的句子都可以被压缩。在我的这篇 On the Properties of Neural Machine Translation: Encoder-Decoder Approaches 文章中,我们通过实验确认了在编码器-解码器模型规模很小的时候,翻译质量会随着源语句长度增加而急剧下降。加上 Sutskever et al. 的更好的结果,使用了同样类型的编码器-解码器架构,指出编码器的表示能力需要被扩展,也就是说模型必须变很大,来解决长句子的问题。

游戏12个、相机7个、 修图8个、 视频剪辑6个;

-- “你爸贵姓?”“忘了,(回过神)滚!”

人们会自发地上网搜索吗?

首先,她设计了很多类似“洋葱新闻”一样的假信息,比如“鸵鸟的眼睛比它的脑子还大”。人们看到这样的信息在觉得好笑的同时很有可能会冒出上网搜一搜这样的念头。

接着为了验证人们是否会自发地产生上网搜索心理,教授做了下面这个实验:她把颜色各异的单词出示给被试者看,并要求被试者说出单词的颜色而不是念出这个词。如果单词所对应的内容正好是被试者正在思考的,被试者辨识颜色的反应时间就会变慢(心理学中的斯特鲁普效应 Stroop effect)。她出示了很多和网络有关的单词,比如Google,Yahoo等等, 实验结果也确实证实了她的猜想,被试者在辨识这些单词的颜色的时候反应显著减慢说明他们脑子里想的可能就是上网检索刚才那些信息到底是不是真的。

betway必威官网手机版 5Stroop Task,看图说颜色。图片来源:15yan.com

不仅如此,互联网还是个“甘于奉献不求回报”的队友。和它一起工作时,人们可以不用给自己分配任何内部记忆的任务,只需要记住搜索方法,剩下的任务就都可以交给互联网了。这些特性也使得人们越来越依赖互联网强大的工作能力,减少了自己储存知识的过程。互联网上的信息检索正在改变人们的思维方式,我们所记住的只是找到信息的方法,而对知识本身的记忆则随之减少[2]

betway必威官网手机版 6图 1:编码器-解码器模型性能随着句子的长度增加急剧下降

新闻7个、 搜索4个、 音乐4个、 视频5个;

..............

网络帮助了人们记忆信息吗?

但是这个结果并不能有效地表明网络是怎么影响到我们的记忆方式的,于是教授又再次进行了实验。

她还是向被试者出示了那些假信息,并要求他们把那些信息输入到电脑里面。不过这一次,她告诉一半的被试者电脑会“自动记录”那些信息,告诉另一半的被试者电脑会“自动抹去”那些信息。然后在这些倒霉孩子好不容易打完字以后,她要求他们仅凭记忆把所有输入的信息写下来。

这回的实验结果非常明显,那些被告知电脑将“自动抹去”的被试者表现得比那些天真地以为有电脑帮他们记录的被试者好得多了。也就是说,如果人们觉得网络可以帮助他们记忆,他们对信息的记忆程度降低了。

好搭档带来的认识偏差

除了改变人们的记忆方式之外,便捷的互联网工具也可能让我们对自己的知识储备产生认识上的偏差。有学者指出,使用互联网查找答案会使人产生一种“我也拥有这些知识”的错觉。试想,当你想要了解一个学术问题的答案时,去图书馆寻找可能是一个相对漫长而痛苦的过程。这个漫长的过程时刻提醒着你“我并不知道这个问题的答案,所以我要寻找”。而在网上,只要输入关键词,你想要的答案可能立即就会呈现在你眼前。这样轻松获得详尽答案的过程并不是一个“自然”的过程,人们可能会因此将搜索到的知识与自己的内部记忆“合并”,产生自己懂得这些知识的错觉。

为了验证这一设想,耶鲁大学的心理学研究者设计了一系列实验。首先,研究者找来202名被试,把他们分成了“有网组”和“无网组”。两组被试都要回答一组自然科学类小问题(例如“打火机是如何工作的”),不同的是“有网组”可以上网检索帮助答题,而“无网组”只能靠自己既有的知识进行回答。在答题之后,研究者又给出了一些其他不相干领域的题目,要求被试预测自己回答这些问题的表现。实验结果发现,使用了互联网的被试在不相干的领域也表现出了显著高于“无网组”的自信。有意思的是,即使研究者给“无网组”被试看过“有网组”被试可以查到的资料之后,上述差异依然存在。由此看来,上网搜索似乎确实让人们产生了自己“更有学问”的错觉。

betway必威官网手机版,为了确保结果可靠,研究者们又改变评估方式重新进行了实验,并特意提醒被试在预测答题能力时“不要考虑任何外部资源”。而这一次的实验结果依然相同:“有网组”被试依然相信自己拥有更多的知识,可以更好地回答各种问题。

当然了,更大的模型带来的是更多的计算和内存需求。使用诸如 NVIDIA Titan X 这样的高级 GPU,可以帮助我们处理计算的问题,不过也还是不足以解决内存问题。现在能够达到的内存通常限制在几个 G 的规模,这就带来对模型大小的限制。(注意:使用多 GPU,并将单一模型分布置于这些 GPU 上是可以解决这个问题的。但是这里我们简化场景为单一 GPU 机器,存在着空间,计算能力和其他物理上的限制)接着,问题就是:“我们能够做得比简单的 编码器-解码器 模型更好么?”

购物类 9个、 时尚类16个、 艺术24个;

当你问以上问题时,得到的回答可能都是如此,可见我们对互联网、电脑和手机等机器已经非常依赖。关于这个现象,Sparrow等人做了一个非常巧妙的实验,发现了所谓的“谷歌效应” ,即人类记忆系统与搜索引擎的难舍难分的关系,实验结论如下:

网络让人们更善于“检索”

在第三次实验中,她依然向被试者出示了那些假信息,不过要求被试者认真学习并且在电脑上做笔记。一半的倒霉孩子还是被告知电脑不会保存他们的笔记,另一半被告知他们为每一条信息做的笔记会按照信息的类型被保存在六个文件夹之中的某一个。

在测试阶段,她向所有的被试者出示了经过修改的假信息,要求他们判断哪些信息是经过修改的。对于被告知信息将被保存的被试者,她还要求他们回忆信息被保存在哪一个文件夹里面了,“刚才那只鸵鸟被保存在哪儿了?”这些以为信息真的会保存下来的被试者虽然在随后的记忆测试中表现依然低于对照组,但是他们清楚地记得信息保存的地点。也就是说,他们对于如何找到信息的掌握程度已经超过了对于信息本身的掌握程度。

betway必威官网手机版 7也许你对信息的记忆程度下降了,但你更善于“搜索”这些信息了。图片来源:neurobabble.co.uk

错觉从何而来?

那么,产生这种现象的原因究竟是什么?是人们真的产生了对知识储备的错觉,还是有其他影响因素?对此,研究者提出了若干种假设。

首先,研究者提出,互联网的运用或许并不是影响了人们对知识储备的认识,而是带来了全面的自信心提升。不过,后续的研究发现,在知识性问题以外的方面,两组被试对答题能力的预测并没有差别。对于那些不能在互联网上找到答案的问题,被试的自我认知并没有发生膨胀。

此后,研究者将注意力转移到了“主动寻找答案”这个过程上。在实验中,“有网组”被试可以主动地上网搜索,而“无网组”一直被动地接受材料,这或许就是造成差异的原因。于是,研究者又重新设计了实验:他们让“无网组”被试也上网获取答案,但他们不需要自己搜索,而是可以直接获取包含答案的网站链接。实验结果显示,“有网组”被试对自己知识储备的评价再一次超过了“无网组”。在此之后,研究者又对实验中的搜索引擎动了手脚——一组被试所用的搜索引擎会将结果完全屏蔽,而另一组只能搜到近一周公布的信息。结果发现,即使是在搜索中遇到困难的被试,他们对自身知识的评价也会显著高于没有经过检索的人。

至此,研究者已经对1712名被试进行了一系列实验,他们终于得出了自己的结论——在使用互联网时,人们主动搜索信息的过程会使他们高估了自己的知识储备和答题能力。

我们如何理解这项漫长的研究?

不能否认,我们已将互联网当作亲密无间的“记忆伙伴”,而这项研究也提醒我们,互联网可能使我们产生“掌握知识”的错觉。

在互联网之前,人们也会依赖书籍、专家来进行信息的交互。但是这些资源并不是立即可得的。而互联网的便捷性、信息的广泛性则模糊了内部和外部资源的边界,增强了对自我知识储备的错觉。

这一影响看似微不足道,却可能会在决策中产生致命影响。当我们在进行高风险决策时,正确评估自己的能力是十分重要的。错误的高估自己会导致过度自信,从而带来盲目的决定。诚然互联网有着数不清的优点,但在依赖它的同时,也有必要认真审视它对我们产生的影响。(编辑:窗敲雨)

简单编解码模型的最大问题就是任意长度的句子需要被压缩成定长向量。当你思考我们一般处理压缩任务的方法时能体会到这个问题的诡异。当我们压缩文件时,压缩后的文件长度一般是和原始文件的长度成比例的。(这也说得不准确,应该是,压缩后的文件大小和原始文件中的信息量成比例,而不是简单的长度。然而,我们再简化一下,原始文件的长度反应了文件中的信息量。)继续类比数字计算机,我们不会按照定长向量来存放整个句子,而是根据源句子的长度来放置句子到内存单元中。通过BiRNN 来做到这一点。这是一种双向的 RNN,从正向和反向来阅读源语句。

社交4个、 工作13个;

1 当遇到问题时,人们下意识便会有向电脑、搜索引擎求助的冲动。

网络已经改变了我们的记忆模式

这个发现从侧面证明我们的学习与记忆的方法已经产生了一些变化。对于那些能在别的渠道不需要太多努力就能轻松获取的知识,我们不再劳神记忆。有了谷歌百度这样的搜索引擎,我们可以把大量的记忆任务交给它们代劳,只要掌握必要的搜索技能就好,记住那些知识似乎变得有些徒劳。

当我们产生对信息的需求时,我们的第一反应也是寻求互联网的帮助,好像谷歌已经取代了我们的朋友、家人、书本等等传统的信息来源成为了我们首选的交互记忆伙伴(transactive memory partner)。那么这是不是意味着,把信息交给网络保管,我们的记忆力(前文提到的是记忆模式,此处讨论的是记忆的能力)就变差了呢?

参考资料:

  1. Fisher, M., Goddu, M. K., & Keil, F. C. (2015, March 30). Searching for Explanations: How the Internet Inflates Estimates of Internal Knowledge. Journal of Experimental Psychology: General. Advance online publication.
  2. Sparrow, B., Liu, J., & Wegner, D. M. (2011). Google effects on memory: Cognitive consequences of having information at our fingertips. science,333(6043), 776-778.

现在我们记来自 正向 RNN 的隐藏状态为

还有很多看介绍觉得不错下载之后再也没打开过的软件若干……

2 当需要记忆的材料会被删除时人们的记忆效果会更好,而信息会被保存人们通常不会去努力记得。(“得不到的永远在骚动,被偏爱的都有恃无恐”之科学版)

网络会让我记忆力下降吗?

不过这到底是不是一件好事?我们对于互联网共享信息的依赖是不是愈发严重?如果这样的依赖继续下去,我们的记忆力和注意力会不会下降?最新的统计数据表明,2015年全美人均注意力广度(attention span,指一个人在单项行为中可以集中注意力的时间,和一个人的工作记忆相关)为8.25秒,2000年为12秒——而一只普通金鱼的注意力广度是9秒(是注意力广度,不是记忆)。

有25%的青少年会忘记亲密好友和家人的重要信息,有7%的人时不时忘记自己的生日。有研究显示,90后年轻人的工作记忆能力(working memory)要比老一辈的人差。甚至德国杜伊斯堡-埃森大学的研究人员发现网络性行为也会对人的工作记忆产生影响,对人的选择能力(decision making)产生危害。

然而不同的研究结果出现了一些差异。有的研究表明,活跃的互联网用户的大脑活动频率相对更高,重复的网络使用不仅不会减弱大脑活动,反而会造成持续的刺激。现在还没有大数据表明我们有任何记忆力减退的迹象,也没有实验证明依赖互联网提供的信息是一件坏事。

betway必威官网手机版 8依赖互联网,对我们的记忆是好是坏?图片来源:harvardmagazine.com

betway必威官网手机版 9Paste_Image.png

但其中每天都会频繁使用的软件不足10个。竞争激烈可见一斑啊!尤其是新闻类软件,内容就那么多,用户总量也就那么多呀!

3 与记忆材料本身相比,人们更偏向记住“怎么找到该材料”,即找到材料的路径。

我们更“依赖”网络了

生活在如此丰富的信息当中,是不是意味着我们偶尔偷点懒也没什么呢?记不得的事情就求助万能的搜索/朋友圈/微博,不是也挺好吗?这么想就太天真了,网络这个好伙伴很容易让我们患上“搜索引擎依赖症”、“朋友圈依赖症”、“微博依赖症”,好像不先上网查一查都不好意思和别人说话。

一项哈佛大学的研究表明,如果我们对于互联网共享信息的高度依赖越来越严重,我们极有可能将来自互联网的外部信息误认为我们自发产生的信息。这不是对我们记忆力的直接损伤,而是比较可怕的对我们“记忆源头”的影响。

在实验中,被试者被要求完成一个小测试,一半的人可以使用直接用谷歌搜索答案,另一半的人没有辅助资料。测试有三种难度的题型:简单、中等和难题。完成测试之后,被试者被告知会进行二次测验,需要对自己表现作出预计。除了基本无需搜索的简单题,使用谷歌的实验组对中等难度和高难度题型的成绩的预估都要比没网的对照组要高。

研究人员解释说,互联网上大量存在的信息会让我们产生一种“知晓感”(feeling of knowing),对自己的记忆产生错误的估计,即一种“这件事我早就知道了”的感觉。而事实上,很多时候我们对于某种信息只有很模糊的概念,根本称不上是“知晓”。

在不使用互联网的时候,我们会主动搜索自己的记忆探求答案,但是互联网的搜索能力甚至超过了我们检索记忆的能力。所以当我们打开网页看到搜索出的信息并迅速地接受这些信息时,实际上是一种对于脑海中模糊概念的“确认”。这种“确认”极有可能让我们认为之前自己其实早已经知道了。

比如文章开头那个例子,你真的记得那个看上去眼熟的小鲜肉的名字吗?你能立刻脱口而出吗?实际上并不能,但是互联网搜索让你觉得你“知道”他是谁,因为搜索引擎产生信息所需的时间,要比能够让我们意识到“自己并不知道这些信息”的时间短得多。我们不用去思考到底是不是真的记得,因为答案早就被端上了餐桌。

在前文提到的研究中,研究者把被试者的网速放慢25秒(也就是搜索结果延迟了25秒),这段时间足矣让被试者对自己是否真正掌握了知识重新判断。这时,我们对自我能力错误的估计也就不再产生了。

而 反向 RNN 的隐藏状态记为

世界每时每刻都在不停地向我们呈现无穷无尽的信息,来吸引我们的注意力。

(具体实验设计在文章最后面)

我们应该如何使用网络?

当然,这并不是一篇反对网络的讨论。但值得思考的是,我们依赖网络的方式是否正确。

我们的确拥有了超乎寻常的检索能力,但这并不意味着我们是全知全能的。在这个信息接近爆炸知识近乎廉价的时代,很多时候我们仅仅停留在获得答案本身带来的满足,拥有钻研和反思的学习态度反而变成了极为不易的事。

互联网固然可以带来知识储备量爆棚的假象,但是信息的轻易获取并不意味着真正的理解、消化、记忆、以及对自我能力的认知。学会利用信息、探求信息背后的意义,恐怕才是我们真正需要的吧。(编辑:Jerrusalem)

betway必威官网手机版 10Paste_Image.png

手机软件也在与时俱进,不断根据用户的兴趣、年龄、地域、职业、社交行为、阅读行为等测算出用户最感兴趣的内容进行个性化推送。

心理学界把借用外物,如备忘录、笔记本等帮助自己储存信息的现象称为外援记忆,Sparrow等人认为上述的结果显示人类已经把互联网当成了重要的外援记忆,人类的记忆系统已经开始适应新科技的发展,可能以后需要时时刻刻处在连接(plugged in)的状态。

参考文献

  1. Betsy Sparrow, Jenny Liu, Daniel M. Wegner, Google Effects on Memory: Cognitive Consequences of Having **Information at Our Fingertips, Science
  2. Laier, C., Schulte, F. P., & Brand, M. (2013). Pornographic Picture Processing Interferes with Working Memory Performance. Journal of Sex Research, 50(7), 642-652. 
  3. Nicholas D, Rowlands I, Clark D, et al. (2011) Google Generation II: web behaviour experiments with the BBC. Aslib Proceedings: New Information Perspectives ; 63:28–45. 

  4. Small GW, Moody TD, Siddarth P, et al. (2009) Your brain on Google: patterns of cerebral activation during internet searching. American Journal of Geriatric Psychiatry, 17:116–126. 

  5. Ward, A. F. (n.d.). One with the Cloud: Why People Mistake the Internet's Knowledge for Their Own. 

  6. Wegner, D.M. (1986). Transactive memory: A Contemporary analysis of the group mind. In B. Mullen & G.R. Goethals (Eds.), Theories of group behavior (pp. 185-208). New York: Springer-Verlag. 

本文由十五言的科学写作训练专栏“科学人的秘密发动机”孵化而成。欢迎科学写作同好加入其中。

正如我们在前面的文章中讨论的那样,RNN 通过一次读取一个符号来总结序列。所以

各大手机生产商也随之把手机内存容量扩大再扩大。

有人会觉得这种研究结果并不能代表什么,毕竟旧石器时代我们的老祖先就会在洞穴里记录捕获了几只野牛,那些粗犷原始的笔迹就是最早的外援记忆,如今只是把电脑、互联网作为另外一种形式的备忘录罢了,不值得小题大做。

betway必威官网手机版 11Paste_Image.png

这场注意力争夺战正愈演愈烈,激烈争夺的同时也证明着,在本质上,人的注意容量非常有限。可在我们有限的注意容量中,究竟哪些问题更吸引着我们呢?

betway必威官网手机版 12

是对源语句从开头到第 j 个词的总结,而

人类的注意和记忆极具选择性,它们被专门设计来关注、储存和提取那些与适应性问题密切相关的信息(Klein et al,2002)。

韦泽尔河谷岩洞原始人壁画

betway必威官网手机版 13Paste_Image.png就是对源语句从结尾到反向第 j 个词的总结。见下图,理解这两个状态的含义。betway必威官网手机版 14图2. 双向 RNN 对源语句的编码但是,在每个词处的总结并不是关于整个输入语句的最优总结。由于序列化的特性,RNN 倾向于记住出现更近的符号。换言之,输入符号越远离 j,RNN 的隐藏状态就越不可能记起这个符号。用来表示隐藏状态的连接的注解向量能够最好地表示当前词。这肯定不是一个已被认可的假设,但是为了更好地理解,我将注解向量看做是 上下文依赖的词表示。而且,我们可以将这个上下文依赖的词表示方法看成变长存储源语句的一种机制,而非简单的编解码器那样的定长定维度的表示。借助这样的变长表示,解码器需要能够对每个目标词选择性地集中在一个或者多个上下文依赖的词表示上。所以,每次我们需要选择哪个注解向量呢?假设,你正在翻译一个给定的源语句,已经写了前 i-1 个目标词序 (y_1, y_2, ..., y_{i-1}),下一步就是确定哪个目标词作为第 i 个目标词。此时,你如何决定翻译哪个源词呢?一种典型的翻译器是看每个源词 x_j(或者它的上下文依赖表示 h_j),将其与前面 i-1 个已翻译的词序 (y_1, y_2, ..., y_{i-1})合在一起,确定源词 x_j 是否已经被翻译过了(等价地看,就是源词 x_j 对下一个目标词有多相关)。然后对在源语句中的每个词重复这样的过程。betway必威官网手机版 15

2

然而,这一次我们的外援记忆对象不是洞穴字迹,也不是我们周围的人,而是计算机 —— 它们运算能力无穷倍大于我们,它们可以24小时工作,它们几乎不会忘记事情。自然而然,我们对这个能力强大的“仆人”也会是越来越依赖。

  1. 注意力机制考虑到了已经被翻译过了的词和源词之一

那哪些信息和适应性问题是密切相关的呢?

人类把计算交给了机器(计算导弹轨道等),把表达交流交给了它们(微博朋友圈),还有娱乐(打游戏看电影),再然后是决策(大数据机器学习),而现在我们在不知不觉中正把记忆也交给了它们——我们只记得我们拥有什么信息,却不记得信息本身;我们很少去记得事情,因为知道网上都有;我们可能有一大推的课程ppt,可是我们还是挂科了。

Dzmitry bahdanau 和我跟Yoshua Bengio在去年夏天提出了一个将小神经网络包含进解码器中的方法实现了这个想法。小的神经网络,我们称之为 注意力机制(图 3. 中紫色的部分)使用前面的解码器的隐藏状态 z_i 和一个源 上下文依赖的词表示 h_j 作为输入。注意力机制使用单隐藏层的神经网络实现,其输出是一个标量

有人做过一项非常有趣的研究,他们搜集了736份头条新闻,分别来自8个国家,时间跨度超过300年(从1700年到2001年)。

记得信息从来不是好玩的事,所谓的“Game Girl Gamble”3G需求刺激有趣得多,而人类的大脑从来都是好逸恶劳的,怎么省事怎么来。这种懒惰有其合理性,它使得我们不会每天头脑高度运转,七窍冒烟,但值得担心的是,人类的记忆能力是否在这个进程中会逐步退化。有研究已经发现网络上瘾者的海马等内侧颞叶出现了结构受损,而海马部位与人的记忆功能是息息相关的。虽然这只是特殊人群研究,但也可能会是对网络日益依赖的正常人在滑向的深渊。

betway必威官网手机版 16Paste_Image.png

研究发现,这些新闻的内容非常一致(Davis&Mcleod,2003)。

当然,我们只要拔掉电源,这些机器马上就是一堆废铁。可是,我们能保证我们离得开这些废铁吗,我们能保证拔了电源人类社会也能运行下去吗?当这个互联网这个外援信息系统已经高效智能到能够架空人类记忆的时候,我们还有没有能力或者决心励精图治,压制功高震主的外援呢?

参见图 4.

比如,《波士顿晚报》1735年的某期头条新闻是:“礼拜天早上发生一桩奇事,一对衣着得体的乡下年轻人正在举行婚礼,当牧师的宣誓仪式进行到一半时,准新娘产下一名女婴”(引子Davis&Mcleod,2003,p.211)。

这趟与魔鬼相爱想杀的旅程才刚启程,而梦靥不来自外敌,却来自我们日益倾颓的能力。黑暗的机房里一闪一闪的二进制信号灯,似是草原狼逼近的闪烁的眼。

betway必威官网手机版 17图 4.注意力机制返回一个标量对应于第 j 个源词的相关分数

又比如最近几天引人关注的滴滴顺风车司机事件。

betway必威官网手机版 18

一旦我们已经计算出了每个源词的相关分数,我们要保证归一化。这个通过 softmax 归一化就可以了

无论是过去还是现在,不管在哪个国家,人们关注的焦点始终集中在下列重要事件上:

参考文献:

betway必威官网手机版 19Paste_Image.png

死亡(自然死亡和意外死亡)、谋杀、暴力攻击、偷窃、声誉、英雄事迹、好人好事、自杀、婚姻问题、虐待子女、遗弃家人、表态或反击、强奸或性伤害。

1 Betsy, S., Jenny, L., & Wegner, D. M. (2011). Google effects on memory: cognitive consequences of having information at our fingertips..Science,333(6043), 776-8.

可以参看图 5的图形化解释。我们为何需要这样的归一化?这里其实有很多的原因,但是我最喜欢的解释是,这样的方式让我们可以用概率框架来解释通过注意力机制分配的分数。从概率上看,我们可以将注意力权重

而不论是拥有用户千万的软件还是刚出江湖的软件,所载信息都大多包含于此,那在这些不断发生又不断变化的重要事件中,如何能让我们持续关注甚至能让我们记住呢?

2 贺金波, 洪伟琦, 鲍远纯, & 雷玉菊. (2012). 网络成瘾者的大脑异于常人吗?.心理科学进展,20(12), 2033-2041.

betway必威官网手机版 20Paste_Image.png

进化心理学家James·Nairne及其同事认为,进化形成的记忆系统至少具有一定的领域特殊性。具体而言,人的记忆应该对那些与进化适合度有关的信息特别敏感,比如生存(食物、天敌和住所)和繁衍(择偶)。

具体实验设计:

看做是解码器从所有 T 个源词中选择第 j 个上下文依赖的源词表示的概率。所以,我们可以计算在这个由

所以在许多软件中你会发现,有一个你的现居城市一栏。更多发生在你周围的事,也会在一定程度上,吸引你的目光。

1 当被问某些问题的时候,人们更倾向于求助电脑互联网。

betway必威官网手机版 21Paste_Image.png

除了新闻类软件,搜索类软件的竞争也是如此。有了很多优秀的问答软件的优秀问答之后,如何搜索出更贴心的内容成了它们彼此之间的竞争点。

实验设置:两组被试分别被问简单和困难的问题,然后测试两组用户对与电脑相关的词汇(谷歌/雅虎等)和与电脑无关的一般品牌(如耐克等)的Stroop任务反应时。实验结果显示,和电脑有关的词语与和无关的词语的反应时差异上,回答困难问题的被试差异大于回答简单问题的,即被试在遇到困难问题时会倾向用电脑求助,有使用搜索引擎的冲动。

确定的分布下源词表示期望值

但搜索软件和新闻软件不同的是,搜索引擎的问世,对我们自身也造成了很大的改变。不论是“上次那个特别好吃的店叫什么名字来着?再搜一下吧。”还是“这词是什么意思啊?搜搜。”搜索软件都成为了我们生活中越来越密不可分的一部分。

2 当人们认为自己需要记忆的材料会被删除的时候,他们的记忆效果会更好。而当知道信息会被保存的时候,人们通常不会记得信息本身。

betway必威官网手机版 22Paste_Image.png

随之而来的,也是我们对它们的依赖。

实验设置:被试任务是读出40个简单的句子并把他们输入到电脑,采用2 x 2 实验设计,变量1是被试被告知输入信息将被保存或删除,变量2是被试是否被告知要努力记得输入的信息。实验结束后,用户被要求尽量多地写下能记得的句子,能正确写下的数量为因变量。实验结果显示,是否被告知要努力记得信息不会对因变量有显著影响,而被告知信息会保存的被试测试成绩显著差于被告知信息会删除的被试。

这个期望值向量

2011年,Sparrow等人(Sparrow et al.,2011)首次研究了互联网搜索怎样改变了我们的记忆。

3 与记忆材料本身相比,人们更偏向记住“怎么找到该材料”,即找到材料的路径。

betway必威官网手机版 23Paste_Image.png

在一项实验中,研究者检验人们是否会记住他们预期以后会轻易获取到的信息,就像在网上一样。60名大学生被分为A、B两组,每人阅读40段话,这些句子在网上可以找到。

实验设置:被试被要求把一些句子输入到电脑,并把他们存到特定的文件夹,文件夹命名是随意的。然后让被试尽量多地写下能记得的句子,再然后把之前所有的句子给到被试让他们写出每个句子所在的文件夹。实验结果显示,被试对文件夹的记忆效果好于句子本身,即相对于信息本身,人们更倾向记得“在哪里可以找到信息”。

总结了整个源语句的信息,但是包含了对不同位置的词的重要性的考量。任何注解向量通过注意力机制确定为相关的比那些低注意力权重的表示得更好。

如,宇宙飞船哥伦比亚号2003年在德克萨斯再次升空时爆炸等等。

betway必威官网手机版 24图 5 . 通过注意力机制返回的相关分数被归一化,帮助我们将这些分数解释为概率。从概率上看,我们计算出了在这个分布下的注解向量的期望值

为保证大学生被试阅读时专心致志,要求他们把句子输入计算机并告知他们,之后要进行记忆测验。

一旦,向量

实验者告诉A组被试,计算机将保存他们输入的句子,告诉B组被试,计算机将删除他们输入的句子。另外,还明确要求A组中的半数被试好好记住输入的句子,但对另一半被试没有这样的要求。在被试阅读与输入完句子后,要他们写下他们能记住的所有句子。

betway必威官网手机版 25Paste_Image.png

实验研究表明,相信计算机会删除被试输入句子的被试记忆成绩最好。

计算好了,每个步骤 i 其实就跟前面的解码器过程相同了,只需要把前面的

之所以会产生这样的结果,原因在于,相信以后会很容易在计算机上找到这些句子的被试在阅读时就不那么用心,因为需要这些信息时可以很快找到。

betway必威官网手机版 26Paste_Image.png

这场景有没有很熟悉呢?开会时跟不上领导的分享节奏,手机拍下或录音就瞬间感觉万事大吉了!看到一篇干货很足很不错的科普文章,收藏起来就觉得很安心了!

改成

我们给自己找到了后援,不用再“强迫”自己全神贯注记住它们了。可是,面对那些艰涩却需要我们真正掌握的知识,这也成为了我们逃避的手段。

betway必威官网手机版 27Paste_Image.png

Sparrow在随同报告发布的新闻稿中说道:“搜索引擎问世后,我们开始调整记忆知识的方式。我们的大脑依靠互联网来记忆,就像依赖朋友、家人或同事来记东西一样。我们的记忆方式不是记住知识本身,而是记住我们可以在哪里找到这些知识。”

引入注意力机制的方法已经成为深度学习领域最热门的话题之一(见Cho et al., 2015)而对引入注意力在神经网络中的后果的讨论——是否可以将我们带到另一个层次的成功,也是非常有趣的事情,这些讨论超过了一篇博文的篇幅了。看看图 6,这是一个没有任何相邻信息的考虑的学到的注意力例子。(尽管弱监督通常被用来表示强化学习,我任务这类模型同样是弱监督的。除了最终目标的翻译,其他部分都没有监督的过程(内部对应、注意力、相邻)存在)

久而久之,我们不和互联网接触就像要失去知识,不能上网的体验就像要失去朋友。这种感觉并不是那么好。

betway必威官网手机版 28图 6. 通过采用了软注意力机制的神经网络机器翻译模型翻译的样例。边的粗细表示注意力权重。很棒,这个模型已经自动找出了两个语言之间的对应结构。我很确定,如果你说法语或者德语的话,会比较认可它的效果。但是问题是,这样的注意力机制是不是能够提升翻译的性能?是的,当然!而且效果很显著。特别在 [Bahdandau et al., 2015] 中,我们看到,引入注意力机制,翻译的质量不会随着语句的长度增加而下降,甚至是模型的规模也不发生太大的情况下,正如图 7所示。betway必威官网手机版 29

3

  1. RNNsearch-50 是一种引入了注意力机制的神经网络机器翻译模型,在长度最多为 50 的语句对上进行训练最后的问题时,这看起来非常难以实现。那么,现在又是 Theano 表现的时刻了!仅仅需要写出一个前向的过程,使用 theano.tensor.grad 就搞定了。

那说到底,我们要怎么办呢?

读者 Zzzz 在我这系列之前的文章评论中说:

一、给自己的注意容量做减法

你们试过神经图灵机或者记忆网络进行这项任务么?这些方法是不是需要更多的训练数据才能得到更好的结果?

删除无用的信息获取源。不论是我们的注意力还是精力都是有限的,将它们用在真正需要的地方。

我本打算当时想给出回答,不过等到现在才给出来。为什么?因为,这两个模型可以被看成是软注意力机制的神经网络机器翻译的变体或者扩展。想想上下文依赖的词表示

二、控制时间,不被软件“套路”

betway必威官网手机版 30Paste_Image.png作为记忆中的内容,注意力机制作为神经图灵机的读头,而解码器就是神经图灵机的控制器。他们是很像的!实际上,如果你阅读了关于记忆网络最新论文Sukhbaatar et al. ,对于基于注意力的神经网络机器翻译模型就很清楚了,NTM 和记忆网络或多或少是等价的,除了一些细节和相应的应用场景的变化外。我,可能你也会,想知道这些观点最终极的推广形式,以及在未来这种终极模型能够给我们带来究竟什么样的效果。

软件越来越“贴心”,因此不知不觉刷了很久。不被软件牵着走,控制时间,才能有时间去做更重要的事。

关于整个神经网络机器翻译工作中最为让人吃惊的和重要的一点是方法并没有限制在语言这个场景上。特别地,这样的方法可以对任何类型的输入数据进行处理,只要数据本身能够对应某些合适的神经网络结构,或者返回定长的向量表示或者它的注解向量。蒙特利尔大学和多伦多大学最近发布的工作展示了设计基于注意力的编码器-解码器模型来通过用卷及网络替代解码器来描述图像的可能性,如图 8 所示。类似观点在[Donahue et al., 2014; Fang et al., 2014; Karpathy and Li, 2014; Kiros et al., 2014; Mao et al., 2014]也都有提及。

三、不过多依赖其他设备,锻炼自身

betway必威官网手机版 31

软件再便利,终究是辅助,只有自身强大,才能利用软件如虎添翼,反之则没什么用。

  1. 使用注意力机制的图像描述的生成

综上,生而为人,千万别让手机软件,玩了你。

Li et al. 工作将该模型的能力又向前推进了一步,用来进行视频的描述生成,让解码器使用视频的时态结构。类似地,使用简单的编码-解码器进行的视频描述生成也已经成功了,见 [Li et al., 2015; Venugopalan et al., 2015] 。

betway必威官网手机版 32

betway必威官网手机版 33Paste_Image.png而且,类似的引入注意力的进行结构化输入输出的映射已经被广泛地应用在众多应用中了。我最喜欢的是Vinyals et al. 对离散优化问题的应用,其中使用了这种基于注意力的神经网络来近似地解决旅行商问题!想要参看更多最新的应用,请看看我这篇综述文章paper。看到所有这些近期的研究工作,我不禁想知道未来会发生什么?读者朋友,您又是怎么想的呢?欢迎在评论中给出你们的想法。

文字 | 康福尔

我在文章中介绍了近期深度学习领域中最新的发展,聚焦于神经网络翻译。然而,仍然存在众多于机器翻译相关的问题。我列举如下:

排版 | 林佳

  • 超越�语句建模:语句,常表示为词的序列,是非常短的。用于RNN 的 BP 算法需要与语句成比例的时间。未来会否有适用于非常长的序列的算法呢?学习过程也可能是局部,而权重应该可以在处理序列时候在线更新。
  • 超越自然语言:神经网络机器翻译在语言上行得通,但是在其他方面能不能发挥作用?可能是在基因表达式序列上,蛋白质结构预测,图或者网络上,甚至天气数据?

本文为橙子YY心理网原创,转载请联系授权,否则将追究相关法律责任。本文图片皆来源于网络,版权归原作者所有,若有不妥之处请联系处理。返回搜狐,查看更多

天气数据彩云天气已经做的很棒了,欢迎使用彩云天气。

责任编辑:

  • 多模态学习:我们能够借助其他的信息资源来达到更好的翻译效果?什么才是自然地引入多源信息的有效途径呢?

本系列文章直到现在,我一直在避免对实际实现的讨论。然而,我们在蒙特利尔大学已经在积极地推进代码的公开了,因为我们相信开源鼓励大家对代码进行试用和定制开发,这样会加速研究的进程。近几年来,我们作出的重要贡献之一就是 Theano。这是一种使用 python 语言来符号化创建任意神经网络的工具。它对内部的计算架构进行了抽象,可以在平常的 CPU 机器上执行,也可以使用 GPU 计算架构运行。而且,Theano 实现了符号化的求微分的过程,这是训练神经网络的关键,也就使得我们可以快速地构建出复杂的神经网络(诸如 基于注意力的神经网络机器翻译模型)。不过,Theano 只提供了基本的原语操作,我们需要组合这些原语来设计神经网络,这也是比较困难的。我们(Razvan Pascanu, Caglar Gulcehre, myself, Dzmitry Bahdanau and Bart van Merrienboer)发布了GroundHog,实现了构建一个神经网络机器翻译模型所有必须的部分。不过这个项目的代码,可用性和可读性都不好。现在Orhan Firat, Dzmitry Bahadanu and Bart van Merrienboer在一个新的框架Blocks下重新给出了相关的脚本。然而,这同样只是一个例子罢了。今年10月份,我在DL4MT Winter School上于都柏林城市大学会给出关于神经网络机器翻译的报告。为了让这个课程更有价值和实用性更强,我正准备一个基于 Theano 的更加深入的神经网络机器翻译实现。代码here在这里,叫做 dl4mt-material,大家可以查看,还在着力准备中。当前,代码包含:session0, session1 and session2 三个部分。session 0 包含了使用 Gated recurrent units 的 recurrent neural network language model的实现;session1 则是简单的神经网络机器翻译模型的实现。在 session 2 中,你可以看到基于注意力的神经网络机器翻译模型。未来还会有更多的部分,保持关注!在我结束本章内容和整个系列之前。我明确地指出一点:永远使用 GPU 来进行训练!为了得到一个良好训练的模型,需要用 GeForce GTX Titan X 训练 3 到 12 天;而用 CPU,我并不知道合理的估计是多少天。当然你可能已经构建了一个跟 Google 差不多的计算集群,使用分布式的优化算法,但是我坚信这不是最有效的进行模型训练的途径(除非你是微软,Facebook或者IBM)。

I’ve covered a lot of recent research in this series of Parallel Forall posts on Neural Machine Translation. Hopefully I didn’t make it sound like I did all this work on my own. Any work introduced here has been done by all the authors in the cited papers including those at the University of Montreal as well as other institutes. Furthermore, most of my work in the past few years wouldn’t have been possible without the availability of Theano, and I’d like to thank all the contributors to Theano, and especially, Fred Bastien, Pascal Lamblin and Arnaud Bergeron.Note that any error in the text is my own, and feel free to contact me if you found anything suspicious here.

  • Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. “Neural machine translation by jointly learning to align and translate.” arXiv preprint arXiv:1409.0473 .
  • Bastien, Frédéric et al. “Theano: new features and speed improvements.” arXiv preprint arXiv:1211.5590 .
  • Bergstra, James et al. “Theano: a CPU and GPU math expression compiler.” Proceedings of the Python for scientific computing conference 30 Jun. 2010: 3.
  • Bridle, J. S. . Training Stochastic Model Recognition Algorithms as Networks can lead to Maximum Mutual Information Estimation of Parameters. In Touretzky, D., editor, Advances in Neural Information Processing Systems, volume 2, (Denver, 1989).
  • Brown, Peter F et al. “The mathematics of statistical machine translation: Parameter estimation.” Computational linguistics 19.2 : 263-311.
  • Cho, Kyunghyun et al. “Learning phrase representations using RNN encoder-decoder for statistical machine translation.” arXiv preprint arXiv:1406.1078 .
  • Cho, Kyunghyun, Aaron Courville, and Yoshua Bengio. “Describing Multimedia Content using Attention-based Encoder–Decoder Networks.” arXiv preprint arXiv:1507.01053 .
  • Denil, Misha et al. “Learning where to attend with deep architectures for image tracking.” Neural computation 24.8 : 2151-2184.
  • Donahue, Jeff et al. “Long-term recurrent convolutional networks for visual recognition and description.” arXiv preprint arXiv:1411.4389 .
  • Fang, Hao et al. “From captions to visual concepts and back.” arXiv preprint arXiv:1411.4952 .
  • Forcada, Mikel L, and Ñeco, Ramón P. “Recursive hetero-associative memories for translation.” Biological and Artificial Computation: From Neuroscience to Technology : 453-462.
  • Graves, Alex, Greg Wayne, and Ivo Danihelka. “Neural Turing Machines.” arXiv preprint arXiv:1410.5401 .
  • Graves, Alex, Greg Wayne, and Ivo Danihelka. “Neural Turing Machines.” arXiv preprint arXiv:1410.5401 .
  • Gregor, Karol et al. “DRAW: A recurrent neural network for image generation.” arXiv preprint arXiv:1502.04623 .
  • Gulcehre, Caglar et al. “On Using Monolingual Corpora in Neural Machine Translation.” arXiv preprint arXiv:1503.03535 .
  • Kalchbrenner, Nal, and Phil Blunsom. “Recurrent Continuous Translation Models.” EMNLP 2013: 1700-1709.
  • 上网寻找后,第三局地。Karpathy, Andrej, and Li, Fei-Fei. “Deep visual-semantic alignments for generating image descriptions.” arXiv preprint arXiv:1412.2306 .
  • Kingma, D. P., and Ba, J. “A Method for Stochastic Optimization.” arXiv preprint arXiv:1412.6980 .
  • Kiros, Ryan, Ruslan Salakhutdinov, and Richard S Zemel. “Unifying visual-semantic embeddings with multimodal neural language models.” arXiv preprint arXiv:1411.2539 .
  • Koehn, Philipp. Statistical machine translation. Cambridge University Press, 2009.
  • Mao, Junhua et al. “Deep Captioning with Multimodal Recurrent Neural Networks .” arXiv preprint arXiv:1412.6632 .
  • Mnih, Volodymyr, Nicolas Heess, and Alex Graves. “Recurrent models of visual attention.” Advances in Neural Information Processing Systems 2014: 2204-2212.
  • 上网寻找后,第三局地。Pascanu, Razvan et al. “How to construct deep recurrent neural networks.” arXiv preprint arXiv:1312.6026 .
  • Schwenk, Holger. “Continuous space language models.” Computer Speech & Language 21.3 : 492-518.
  • Sukhbaatar, Sainbayar et al. “End-To-End Memory Networks.”
  • Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. “Sequence to sequence learning with neural networks.” Advances in Neural Information Processing Systems 2014: 3104-3112.
  • Venugopalan, Subhashini et al. “Sequence to Sequence–Video to Text.” arXiv preprint arXiv:1505.00487 .
  • Weston, Jason, Sumit Chopra, and Antoine Bordes. “Memory networks.” arXiv preprint arXiv:1410.3916 .
  • Xu, Kelvin et al. “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.” arXiv preprint arXiv:1502.03044 .
  • Yao, Li et al. “Video description generation incorporating spatio-temporal features and a soft-attention mechanism.” arXiv preprint arXiv:1502.08029 .
  • Zeiler, Matthew D. “ADADELTA: an adaptive learning rate method.” arXiv preprint arXiv:1212.5701 .

本文由betway必威官网手机版发布于科学知识,转载请注明出处:上网寻找后,第三局地

关键词: