人工智能的前世今生

人工智能是当下的一个热门话题。人们把它看作工业革命之后的又一次技术革命。有人甚至认为,人工智能对人类的影响,远超工业革命,因为它涉及和改变到更为本质的伦理和哲学命题。

我们将在今后的几期视频里,介绍人工智能的历史演化;当前最热门的机器学习,深度学习的各种成就;然后开启脑洞,不负责任的聊聊人工智能的未来,和引发的各种问题。

我们今天的主题是人工智能简史,它的前世和今生。

智能和人工智能

在进行这个主题之前,我们先来讨论一下智能。智能这个词,Intelligence,中文也有智力的含义。它涵盖了很多不同的领域(domain)和能力(competencies):比如抽象、逻辑、理解、自我意识、学习、情感、推理、计划、创造力、批判性思维和解决问题的能力等等。它可以被描述为感知或推断信息的能力;并将其保留为知识,应用于环境或上下文中的适应性行为。人类对智能或智力认识有了很多具体的认识,但是远还没有达成一个共识,因为这涉及到了深刻的哲学问题,而人们为此争论不休。

需要指出的是,很多智能并非人类独有,也并非动物独有,有人甚至怀疑,人类的所有智能,都在其他动植物上有所表现。喜欢抬杠的人可能会要我举出一些例子。我们知道灵长类动物,各种宠物,鸟类比如鹦鹉有相当不错的智力。对植物、菌类的智力,我在这里举一些例子。首先很多植物有短期记忆,捕蝇草叶子上有许许多多的触发毛。它的触发毛中如果有两根在大约20秒内被物体触动,叶片就会闭合,抓住猎物之后,捕蝇草会在触发毛被触动5次以后开始分泌消化液。植物也有长期记忆:含羞草可以记住无害的刺激,以免在之后的日子里不必要地消耗能量。植物能够解决在生长环境中遇到的各种问题,甚至比人类还好,比如植物能根据阳光的方向,来决定生长的方向,根据土壤里的水分和营养分布而形成自己的根系,从而更好的吸收。植物还会交流,一些植物会通过分泌、传递和吸收化学物质来交换环境信息,比如虫害。

对于智能,我没有找到一个完美的、被人们普遍认可的定义。如果你对此非常有兴趣,你可以去阅读一下《Frames of Mind》这本书。中文译名是《心智解构》,作者是哈佛大学教育研究院教授 Howard Gardner。幸运的是,我们所要讨论的人工智能,目前只涉及到非常简单的部分,对此人们已经有比较一致的认识,这些部分包括:逻辑、推理、计划、抽象等。很多人可能认为,现在的人工智能已经具有了创造力,比如,它会画画,写诗,写作,制作音乐,对此我持否定态度。我会在以后的视频里介绍我的观点。

讨论了智能之后,我们再来讨论一下人工智能这个概念。现在很多人把深度学习,神经网络等同于人工智能。这其实抹杀了很多前人的梦想,研究工作和各种成果。没有这些,就不会有今天的深度学习和神经网络。

维基百科上说,人工智能(AI)是机器或软件的智能,而不是人类或其他动物的智能。对此我有些不同的看法。我的定义是,所谓人工智能,是人类在研究智能的本质后,推导出一般性原理,并运用这些原理制造出来的人造物。这些人造物在一定程度上实现了人类所认可的智能。这是个比较广义的定义,在这个定义下,普通计算机和一些普通(不是基于深度学习)的软件也是一种人工智能,因为它可以完成很多高阶智能,比如整理数据,进行运算,决策并操控机械等等。

我知道,热情的观众,对这个定义感到有些失望,所以我把这个定义再做些限定:这些人造物在一定程度上实现了人类所认可的类人智能,这些智能,不是程序化的计算和任务执行,而是涵盖了语义理解,视觉识别,包含语音在内的声音识别,情感识别等等一些难以用简单的结构化、形式化、程序化进行处理和模拟的智能。

对这个定义,我要补充几点:

首先,我们现在实现的各种人工智能,都是通过机械或电子的方式,主要是以电子计算机为平台来实现。但在今后的研究中,可能会出现其他形式和载体的各种智能,比如,生物、化学、晶体、量子等各种形式。尤其是直接以生物形式构建类脑,在我看来是非常有希望的一个途径。

其次,我们要排除人造生物类型生命。这里举两个比较科幻的例子。一个是通过基因手段,产生有智慧的物种。这种人造生命,其实是人类操作基因产生的副产品;而不是人类研究并理解了智能的机制,根据普遍的智能理论而制造出来的。另外一种是定向培养某些动物的大脑,实现部分人类需要的智能。这个例子的界定有些困难。如果人类只是碰巧发现这种方式,并加以利用,完全不理解其中的机制,那么这个还是生物智能,不是人工智能。如果人类完全掌握生物神经网络的原理,并用以此来定向培养生物脑,那么我认为它是人工智能,人们不从零制造的原因,或许只是因为这是成本最低的方法。

现在我们开始本期节目的正题:人工智能的历史。

人工智能的神话、传说、幻想和先驱

人类对人工智能的梦想开始于古代的神话和传说。希腊神话中就有火神制造的黄金机器人。很多古老文明中都制作了自动人偶的工匠,例如中国西周的偃师,古希腊的希罗。在十九世纪的科幻小说中,已经出现了人造人和会思考的机器。直到今天,人工智能和机器人依然是科幻小说的热门主题和不可或缺的元素。

逻辑学和前期积累

谈人工智能,绕不开一门关于思维规律的学科,逻辑学,逻辑学几乎和人类对人工智能的梦想一样古老,并和人工智能的发展息息相关。逻辑研究人类的思维规律,如果我们能够总结出思维的规律,并将它形式化,以某种装置实现,不就实现了人工智能吗?这个方法是人工智能里边,最初始,也是非常重要的一个发展方向。现代意义上的逻辑学,在早期属于西方哲学范畴,肇始于古代哲学家对人类思维过程的研究和归纳,这些研究的成果就是传统逻辑。直到近现代,它从西方哲学中脱离出来,成为数学的一个分支。

在古埃及和巴比伦都发现了逻辑学的萌芽,古希腊、印度和中国也独立地发展了逻辑学,在公元前第一个千年发展出了结构化的形式演绎方法。中国古代逻辑学代表为墨家逻辑,晚期的墨家中一批人已经开始研究形式逻辑。不过中国的逻辑学并未形成体系。汉朝以后独尊儒术,逻辑学的研究停止了。而后,印度的逻辑学随佛教传入中国。

我们现在所使用的逻辑学产生于古希腊时期,中世纪欧洲的哲学家和伊斯兰哲学家对逻辑学也做出了贡献。古希腊逻辑学的结晶就是形式逻辑和形式推理(formal reasoning),也被称作机械推理。他们的思想,集中体现在亚里士多德的逻辑学,欧几里得的《几何原本》和花剌子模的《代数学》。

亚里士多德是西方古典传统逻辑的集大成者,是近现代逻辑学的鼻祖。传统逻辑,也称作词项逻辑(Term Logic)。亚里士多德归纳和总结了一些普遍的思维规律,并以公式化(机械化)的方式进行表达。其中最耳熟能详的恐怕是三段论。欧几里得的《几何原本》确立并运用了形式推理的模型,这些形式推理在花剌子模的《代数学》中得到进一步的确立和发展。

中世纪的马略卡哲学家拉蒙·柳利,试图开发一些逻辑机器,将基本的无可否认的真理,通过简单的、机械式的逻辑操作的组合,生成所有可能的知识。这真是一个脑洞巨大又令人佩服的设想。我个人觉得,拉蒙·柳利的逻辑机器,是现代专家系统的原型。在当时的条件下,肯定无法实现。但对后人产生巨大的影响,其中一个就是莱布尼茨。在十七世纪,莱布尼兹,托马斯·霍布斯和笛卡儿等人试图将理性的思考系统转化为代数或几何学那样的体系。

霍布斯在其著作《利维坦》中有一句名言:“推理就是计算(reason is nothing but reckoning)。”

莱布尼兹设想了一种用于推理的普适语言,能将推理规约为计算,从而使“哲学家之间,就像会计师之间一样,不再需要争辩,而只需要计算。这是明确提出了形式符号系统的假设,而这一假设后来成为AI研究的一条重要指导思想和研究方向。

题外话:笛卡尔的方法论,为西方科学研究提供了一个明确、简洁,可以实施的方法,这些方法促进西方近现代科学的飞速发展,也被直接运用到人工智能的的领域。

仔细看一下这个时期的研究,你会发现,天才们的追求和设想即便在现代,也是超过了绝大部分普通科学家。

逻辑学在十九世纪中叶复兴,并且以一个全新的姿态发展成为一门严格而正式的数学分支学科。这一时期,布尔、弗雷格、罗素和皮亚诺等人创立并发展了现代“符号”或“数学”逻辑,现在称之为数理逻辑、符号逻辑或逻辑代数。数理逻辑是数学和哲学逻辑的交汇。数理逻辑的研究范围是经典(哲学)逻辑中可被数学模式化的部分,又称元数学。数理逻辑一般着重于研究公理系统的推断能力和表达能力,其研究对象是对证明和计算这两个直观概念进行符号化以后的形式系统。数理逻辑是数学基础的一个不可缺少的组成部分。数理逻辑已经发展成为一个庞大的学科,有很多子研究领域,这些领域是人工智能的理论基础。

数理逻辑和计算机科学尤其是理论计算机科学有许多重合之处,许多计算机科学的先驱者既是数学家、又是逻辑学家,如哥德尔、艾伦·图灵、阿隆佐·邱奇、克劳德·香农、斯蒂芬·科尔·克莱尼等,他们中很多人也是当代人工智能领域的先驱者。

这个时期研究硕果累累,我们着重介绍对计算机科学和人工智能又重大影响的部分。

数理逻辑上的突破使得人工智能好像呼之欲出。基于乔治·布尔和戈特洛布·弗雷格的研究,伯特兰·罗素与他的老师阿尔弗雷德·诺思·怀特黑德合著的《数学原理》中对数学的基础给出了形式化描述。这一成就激励了希尔伯特,后者向20世纪20年代和30年代的数学家提出了一个基础性的难题:“能否将所有的数学推理形式化?”这个问题的最终回答由哥德尔不完备定理,图灵机和阿隆佐·邱奇的λ演算给出。他们的答案令人震惊:首先,他们证明了数理逻辑的局限性,说人话就是,在这个宇宙里,没有完美的数学和理论体系,我们总是能构建一些悖论来反驳任何理论;其次(这一点对AI更重要),他们的工作隐含了任何形式的数学推理都能在这些限制之下被机械化实现的可能性,说白了就是,理论上我们可以制造按这些理论运作的机器,来实现人工智能。邱奇-图灵论题(Church–Turing thesis)暗示,一台仅能处理0和1这样简单二元符号的机械设备能够模拟任意数学推理过程。这里最关键的灵感是图灵机:这一看似简单的理论构造抓住了抽象符号处理的本质。这一创造激发科学家们探讨让机器思考的可能。

随着数理逻辑的发展,计算机科学的传奇也逐渐开启,人工智能也几乎随着当代计算机科学同步发展。现在我们开始回顾这段让人荡气回肠的历史。

当代人工智能的诞生

现代人工智能的孕育阶段是在二十世纪的四十和五十年代。在这之前,一系列的数学、科学和工程进展,预示了构建电子数字大脑的可能性,这里提一下,实际上,在二十世纪五十年代,人们曾经尝试过使用模拟电路的机器人。我们来看一下这些对人工智能的诞生至关重要的发现和进展:

神经学研究发现大脑是由神经元组成的电子网络,其激励电平只存在“有”和“无”两种状态,不存在中间状态。

诺伯特·维纳的控制论描述了电网的控制和稳定性。

克劳德·香农提出的信息论则描述了数字信号(即全有或全无信号)表达和处理信息的方法。

艾伦·图灵的计算理论表明任何形式的计算都可以用数字方式描述。

艾伦·图灵可能是思考现代意义上的人工智能的最早的那批人之一。1943 年,Walter Pitts 和 Warren McCulloch 分析了理想化人工神经元网络,并展示了它们如何执行简单的逻辑功能。这是人们第一次清晰的描述人工电子神经网络。年轻的马文·明斯基受到皮茨和麦卡洛克启发的,在1951年(与 Dean Edmonds)他建造了第一台神经网络机器 SNARC。明斯基后来成为人工智能领域最重要的领导者和创新者之一。

1950年,艾伦·图灵发表了一篇重要的论文《计算机器与智能(Computing Machinery and Intelligence)》,预言了一种可能性:即人类可以创造出具有真正智能的机器。由于人类对于智能的定义并不明确,他非常明智地绕过了这个定义,而提出了著名的图灵测试。需要着重指出的是,图灵测试不是一个严格意义上的科学测试,而是一个哲学意义上的测试,根据当时的技术条件,他的测试如下:如果一台机器可以(通过电传打字机)进行与人类对话,而无法被区别,那么可以合理地说该机器正在“思考”。 这个问题的简化版本使图灵能够令人信服地论证“思考机器”至少是合理的,并且该论文回答了对该命题的所有最常见的反对意见。

图灵测试如此的简单,但又直击智能的本质。它避免了无休止的纷争,又明确指出了研究进展的方向。伟大的科学人物,总是有一种化繁为简的神奇能力。

1951年,克里斯托弗·斯特雷奇使用曼彻斯特大学的Ferranti Mark 1机器写出了一个西洋跳棋(checkers)程序;迪特里希·普林茨(Dietrich Prinz)则写出了一个国际象棋程序。[亚瑟·李·塞缪尔(Arthur Samuel)在五十年代中期和六十年代初开发的西洋棋程序的棋力已经可以挑战具有相当水平的业余爱好者。游戏类人工智能一直被认为是评价AI进展的一种标准。

当五十年代中期数字计算机成为可能时,一些科学家本能地认识到,可以操纵数字的机器也可以操纵符号,而符号的操纵很可能是人类思想的本质。 这是一种创建思维机器的不同与神经网络的新方法。1955年,艾伦·纽厄尔和后来荣获诺贝尔奖的赫伯特·西蒙在J. C. Shaw的协助下开发了“逻辑理论家(Logic Theorist)”程序。这个程序能够证明《数学原理》中前52个定理中的38个,其中某些证明比原著更加新颖和精巧。Simon认为他们已经“解决了神秘的心/身问题,解释了物质构成的系统如何获得心灵的性质。”(这一断言的哲学立场后来被约翰·罗杰斯·希尔勒称为“强人工智能”,即机器可以像人一样具有思想。)

历史终于来到关键性的1956年8月,这一年约翰·麦卡锡、马文·明斯基、内森·罗切斯特、克劳德·香农等人发起了达特茅斯人工智能夏季研究项目研讨会,旨在召集志同道合者讨论“人工智能”“人工智能”一词本身是由约翰·麦卡锡 (John McCarthy) 在这次研讨会上正式提出的,这一关键事件标志着人工智能作为一门学科的正式诞生。这次会议持续了六到八周,本质上更像一次头脑风暴会议。1955年9月2日,他们四人发起了该项目的提案,寻求资助。提案中的部分内容如下:

“我们建议 1956 年夏天在新罕布什尔州汉诺威的达特茅斯学院进行一项为期 2 个月、由 10 人参加的人工智能研究。 这项研究是在这样的猜想的基础上进行的:学习的每个方面或智力的任何其他特征原则上都可以如此精确地描述,以至于可以制造机器来模拟它。 我们将尝试寻找如何让机器使用语言,形成抽象和概念,解决现在留给人类的各种问题,并改进自身。 我们认为,如果一组精心挑选的科学家一起工作一个夏天,就可以在其中一个或多个问题上取得重大进展。”

他们提到,他们将讨论计算机、自然语言处理、神经网络、计算理论、抽象和创造力。

达特茅斯会议前后有二十多个参加者,大多数人参与的时间并不长。也没有发表任何人工智能进展相关的论文。他们进行了大量一般性的讨论。这些讨论有些是没有明确目的的,有些受到了发起者的鼓励,比如符号系统、有限领域的系统(早期专家系统)以及演绎系统与归纳系统等。可以看到,他们更多兴趣在于如何整合以后的数学理论和技术发现,来实现人工智能。这次会议之后,他们中的很多人在今后的岁月里逐渐成为人工智能的鼓吹手和中流砥柱。

新兴的繁荣,黄金年代

达特茅斯会议确立了人工智能的各个研究任务,同时也催生并成就了最早的一批研究者。这次会议之后,就是人工智能的第一次黄金年代,一大批让当时的人们感到不可思议的人工智能程序纷纷涌现,很多新的研究方向也不断出现。我们来看一下这一时期的一些研究成果。

搜索式推理。推理是一种高阶的智能,是人类最强大、远超其他动物的智能,因此也一直是人工智能领域的一个核心问题。有趣的是,对人类而言,推理似乎更直观,更容易理解和形式化,也因此最先取得成果。最早的逻辑学就包含了推理规律的描述。搜索式推理,是这样一种方法:即尝试所有的选择,排除错误的选择,最终得到正确的答案。这就是我们常说的穷举法。在解决复杂问题时,人们还是遇到了巨大的困难,人们面临巨大搜索空间,仿佛一个无尽的迷宫,里面的可能路线随着问题难度,成指数爆炸式增长。因此迅速排除错误的选择,提高搜索效率,成为关键。艾倫·紐厄爾和赫伯特·西蒙试图通过其“通用解题器(General Problem Solver)”程序,将这一算法推广到一般情形,赫伯特·吉伦特(Herbert Gelernter)的几何定理证明机都给人留下了深刻的印象。

自然语言一直是人工智能的一个重要研究方向。在1956年达特茅斯会议之前,是一段漫长的酝酿期。达特茅斯会议之后,很多人投入到自然语言处理研究,到1970年代早期经历了一段快速发展期。早期的研究来自机器翻译的应用需求。研究人员在自然语言的研究上有两个大方向:一个方向是基于符号和规则符号派(symbolic),另一个是通过概率和统计的方法的随机派(stochastic)。

基于符号和规则的自然语言处理,起源于二十世纪初著名的语言学家,现代语言学之父费迪南·德·索绪尔。他的思想为二十世纪语言学和符号学的发展奠定了基础,是这两门学科的创始人。史蒂芬·克莱恩,是形式语言理论的先驱之一,他在1950年代初期,研究了有限自动机和正则表达式。然后是大名鼎鼎的诺姆·乔姆斯基,人们总是把他看作一个哲学家和社会活动家,但他也是一个杰出的语言学家,有些人把他看作现代语言学之父。他在1956年提出了上下文无关语法,并把它运用到自然语言处理中。1957年发表了《句法结构》一书,提出了转换生成语法,其后他和其他研究人员,展开了形式语言理论的研究和完善,在1960年代末期,还进行了形式逻辑系统的研究。这些研究对当时的自然语言处理产生重大影响,时至今日,依然是理论计算机科学、形式语言,和编程语言的重要理论基础。

1948年香农把离散马尔可夫过程的概率模型应用于描述语言的自动机。接着,他又把热力学中“熵”(entropy)的概念引用于语言处理的概率算法中。这是概率和统计的方法的起源。

总的来说,这一时期,符号派和随机派都取得了巨大的成就,但符号派更获得青睐。同一时期,约瑟夫·魏森鲍姆制作了的一个聊天机器人ELIZA。与ELIZA“聊天”的用户有时会误以为自己是在和人类说话,但实际上ELIZA根本不知道自己在说什么。它只是按固定套路作答,或者用符合语法的方式将问题复述一遍。

在黄金年代,还有一件值得一书的事情,就是由弗兰克·罗森巴特(Frank Rosenblatt)于1958年提出的感知器。感知器是模拟了人类的神经网络,他对这一发明的潜力非常乐观。整个六十年代,这一方向的研究工作都很活跃。

我们这里补充一个有趣的事情:人工智能的实现方式上有两大流派,就是符号派和联结派,对应于形式系统和神经网络。这两派的关系,有点类似于物理学中关于光子的粒子和波动学说。我个人感觉,粒子说可以对应符号派,波动说对应神经网络。而且,我个人的观点,他们的结局或许也会类似,最终互相依存,不可或缺。

在人工智能的第一次黄金年代,研究人员普遍乐观,喜欢做出一些惊人的预言。比如

1958年,艾伦·纽厄尔和赫伯特·西蒙预言:

“十年之内,数字计算机将成为国际象棋世界冠军”。“十年之内,数字计算机将发现并证明一个重要的数学定理”- 这个至今没有实现。

一直要到1997年代,由IBM的深蓝战胜了国际象棋冠军卡斯帕罗夫,虽然晚了二十多年,但不算太离谱。但人工智能发现并证明定理,迄今为止没有实现。

1965年,赫伯特·西蒙又预言:“二十年内,机器将能完成人能做到的一切工作。”- 机器的确在不断接替人的工作,但远没有达到接管一切的程度。

1967年,马文·闵斯基认为“一代之内……创造‘人工智能’的问题将获得实质上的解决。”1970年,他又预言“在三到八年的时间里我们将得到一台具有人类平均智能的机器。”- 实际上我们根本没有在本质上理解智能的工作原理,在这之前根本不可能创造和人类的智能匹敌的人工智能。

第一次人工智能低谷

研究人员对人工智能的低估,在十多年后,到了1970年代,遭遇了瓶颈,受到批评。即使是当时最杰出的人工智能程序,也只能笨拙的解决一部分最简单的问题,根本没有任何实用的价值,沦为玩具。从1974年到1980年时人工智能的第一次低谷期。

这一时期的困难主要体现在以下几个方面:

当时的计算机的运算能远远不足。

计算的复杂性导致了所需的时间呈现指数爆炸。

没有认识到大量的常识和知识是推理所必须的。比如机器视觉和自然语言,都需要大量对世界的认识信息。

莫拉维克悖论 – 即人类所独有的高阶智慧能力只需要非常少的计算能力,例如推理,但是无意识的技能和直觉却需要极大的运算能力。这就导致了机器视觉,自然语言识别等方面的研究进展缓慢。这个悖论的概念在1980年代由汉斯·莫拉维克、罗德尼·布鲁克斯和马文·闵斯基等人阐述。

框架和资格问题(The frame and qualification problems)这两个都是人工智能领域的问题。框架问题是,仅指定操作改变哪些条件并不意味着所有其他条件都不会改变。资格问题的核心是不可能列出所有所需的的先决条件从而使得人工智能在现实世界的行动达到预期效果。我个人的观点是,这个两个问题都预示着,如果我们基于规则、逻辑演算等形式化方法来实现人工智能来,那么现实世界的复杂度将导致异常复杂的规则和运算量的指数级增长。对这些问题研究,导致了新逻辑学的诞生,比如非单调逻辑和模态逻辑。

由于进展缓慢,导致了研究拨款的停滞。很多项目,尤其是没有明确方向和任务的基础研究失去了资助。研究者们还受到了许多批评。哲学家们反对研究人员的一些主张。我认为这些批评非常有道理。我们一起来看一下。

约翰·卢卡斯就认为哥德尔不完备定理已经证明形式系统(例如计算机程序)不可能判断某些陈述的真理性,但是人类可以。这就像能量守恒定律告诉我们不要去制作永动机,而我们偏不信邪。

修伯特·德雷福斯(Hubert Dreyfus)讽批评人工智能的一些基础假设,他认为人类推理实际上仅涉及少量“符号处理”,而大多是具体的,直觉的,下意识的“窍门(know how)”

约翰·罗杰斯·希尔勒于1980年提出“中文房间”实验,试图证明程序并不“理解”它所使用的符号,即所谓的“意向性(intentionality)”问题。希爾勒认为,如果符号对于机器而言没有意义,那么就不能认为机器是在“思考”。

这三个人提出的批评,我觉得完全正确。这些批评即便在今天值得我们重温。所谓的计算的复杂性困难,莫拉维克悖论,框架和资格问题等等,都指向一件事情,即符号逻辑远不是人类心智的全部,用形式化的方式只能覆盖人类心智极小的一部分,更何况哥德尔不完备定理已经证明形式系统自身的缺陷。希尔勒的断言则是对当前那些认为大语言模型已经产生自我意识的人最好的回答。

但是,我并非完全否定前人所取得的成就。符号逻辑和形式系统是人类区别于动物的重要标志,但它必须是基于其他庞大的、无意识的技能和直觉。

这一时期,約瑟夫·維森鮑姆后来开始思考AI相关的伦理问题。他在1976年出版的《计算机的力量与人类的推理》一书中表示人工智能的滥用可能损害人类生命的价值。

这一时期的研究方向上,联结主义遭受冷落。1969年马文·明斯基和西摩·帕佩特出版了《感知器》一书,书中暗示感知器具有严重局限。由于明斯基在人工智能领域的重要影响力和罗森巴特在《感知器》问世后不久离世,这导致联结主义的研究停滞了十年。

在形式系统方面,简约派(the neats)一个重要成果就是Prolog语言和专家系统。Prolog是一种逻辑编程语言,建立在逻辑学的理论基础(谓词逻辑)上,由爱丁堡大学的罗伯特·科瓦尔斯基在1972年建立。Prolog曾在北美和欧洲被广泛使用,尤其在专家系统开发方面。Prolog也对后来的很多语言产生重要的影响。Prolog语言的成功,并没有阻止批评者,一个最重要的批评观点认为,人类在解决问题时并没有使用逻辑运算,这是有心理学实验所证实的。但当时的研究人员,比如麦卡锡等,忽略了这些观点。

另外一派是所谓的芜杂派(the scruffies)。他们反对简约派,比如马文·闵斯基,Seymour Papert和Roger Schank等人。他们注意到不精确的概念,难以用逻辑进行表达。闵斯基提出了框架结构。Schank提出了scripts,这是框架的一个变种。多年之后的面向对象编程采纳了“框架”研究中的“继承(inheritance)”概念。

再次繁荣

1980年开始,人工智能进入一个繁荣期。

在1980年代,专家系统类的人工智能程序开始被很多公司采用,知识处理成了人工智能研究的焦点。简单来说,专家系统是一种模拟人类专家解决领域问题的计算机程序系统,本质上就是一个知识库加上推理机。专家系统仅限于一个很小的知识领域,从而避免了常识问题;其简单的设计又使它能够较为容易地编程实现或修改。实践证明了这类程序的实用性。

专家系统,使得人工智能研究者们注意到知识的重要性,智能行为与知识处理的关系非常密切。他们试图解决这一问题的方法是建立一个容纳一个普通人知道的所有常识的巨型数据库。但是这个工程迄今还未完成。

这一时期,另一个轰轰烈烈的大事情就是所谓的日本第五代计算机工程,其目标是造出能够与人对话,翻译语言,解释图像,并且像人一样推理的机器。令“芜杂派”不满的是,他们选用Prolog作为该项目的主要编程语言。现在大家都知道,日本点错了计算机发展的科技树,而美国人做对了,他们创建了Internet,成为网络时代的先锋和霸主。

另外一个可喜的进展是联结主义重新获得研究人员的关注。1982年,物理学家John Hopfield证明一种新型的神经网络(现被称为“Hopfield网络”)能够用一种全新的方式学习和处理信息。大约在同时(早于Paul Werbos),David Rumelhart推广了反向传播算法,一种神经网络训练方法。这些发现使1970年以来一直遭人遗弃的联结主义重获新生。1986年由Rumelhart和心理学家James McClelland主编的论文集“分布式并行处理”问世,使得联结主义得到了统一和促进。

第二次低谷,人工智能之冬

在人们追捧专家系统的同时,那些经历了第一次人工智能低谷的研究者们估计到了人们将面临的失望。他们创造了“人工智能之冬/AI Winter”这个词。时间来到1987年,人工智能硬件市场需求的突然下跌。由于个人PC性能的不断提升,那些昂贵的人工智能机器失去了存在的理由。而很多专家系统的维护费用居高不下,它们难以升级,难以使用,脆弱,实用性局限于很小的特定范围。人们的注意力转移到那些更容易出成功的项目。

在1980年代后期,一些研究者提出了一种新的人工智能方案。他们的方案是如此的直接,即真正的人工智能,必须具有躯体,能够感知和移动,就像人和动物那样可以生存。他们认为,感知和运动能力这种看起来低级的技能,对于常识、推理等高层次的技能是至关重要的。抽象、推理等能力,是人类最不重要、最无聊的技能。这个观点印证了莫拉维克悖论。因此他们主张应该自底向上的创造智能。这个主张,复兴了从1960年代就沉寂下来的控制论。这是人工智能的第三个流派:行为主义派。

另一位是在理论神经科学上造詣深厚的David Marr,他在另外一个极端,排斥所有的符号化方案,认为实现人工智能需要由下往上理解视觉的物理机制,符号处理应该在这之后。

在这里提一个很小的进展,Geoffrey Hinton,人有称其为深度学习之父,他在1986年发明了适用于多层感知器(MLP)的BP(Backpropagation)算法,并采用Sigmoid进行非线性映射,这个方法为深度学习和人工神经网络的下一波热潮埋下伏笔。

1990年,机器人研究者Rodney Brooks发表了论文《大象不玩象棋/Elephants Don’t Play Chess》中,批评“物理符号系统”即形式系统,他认为符号不是本质,是可有可无的。关键在于足够频繁地感知这个世界。

此外,在这个年代,还有许多认知科学家反对基于符号处理的智能模型,认为身体是推理的必要条件,并把这个理论推升到哲学的高度。

我们先停下来回顾以下,人工智能诞生后的这三四十年。我个人认为符号派在前期蓬勃发展有一个必然的逻辑,而不是研究人员走错了方向。

在人工智能的早期,也是计算机科学的早期,人类在人工智能理论上的储备,基本都有利于符号派的发展。逻辑学有两千多年的发展历史,并在十九世纪中叶发展成一门严格的数学。在此基础上创建形式系统是自然而然的事情。

另一方面,神经网络的工作机理虽然被发现,但是其真正的工作机制并没有被明确阐明。实际上,知道今天,我们还是没有一个完整的理论来解释它全部的工作机制。其他的概率和统计方法,虽然能很好的解释处理很多智能问题,但是我们并没有理解其中奥秘,只是因为它比较准确,比较好用。这个问题直到今天依然存在。

另外一个更为苛刻的事实是,当时的计算机性能远低于实现普通人工智能的基本需求。即便是采用形式系统,我们依然要面对指数级爆炸的计算量。而实现神经网络,基于概率和统计的人工智能,更是需要海量的计算资源。

尽管经历各种失败,这个过程依然是有价值的。这个过程中,数学家发明了新的数学工具,哲学家、认知学家、心理学家深入探讨了智能的本质,人工智能研究人员,创造出各种工具和理论,这些东西,很多都成为整个计算机科学的一部分,并运用到技术产业中。所有这一切,都在为下一次爆发做准备。

稳步发展期

在第二次低谷后,“人工智能”成了一块被人唾弃的招牌,不复1960年代的那种让人着迷的风光。但是它还是实现了一些最初的目标,很多研究成果,被运用在计算机技术的产业中。很多人离开有一些人出于某种坚定信念,还在坚持。由于种种原因,他们在人工智能的几个分支领域各自为战,有时候会用一个新的名称来掩饰。他们比以往任何时候都小心谨慎。正因为如此,在此后的近二三十年中,人工智能稳步发展,取得比以往更大的成功。而人们也能更平和地对待人工智能。

1997年5月11日,深蓝战胜了当时的国际象棋世界冠军卡斯·帕罗夫,这对整个人工智能领域来说,是一个里程碑。在随后的二三十年中,人工智能在一个又一个各种类型的智力比赛中,挑战并战胜人类。直至今天,在很多特定的领域,已近远远把人类甩在身后。

2005年,斯坦福大学开发的一台机器人在一条沙漠小径上成功地自动行驶了131英里,赢得了DARPA挑战大赛头奖。

2011年,IBM的沃森在《危险边缘》这个智力竞赛节目里打败了人类选手。

2016年,AlphaGo击败了围棋冠军李世石。2017年5月,在三番赛中击败了当时世界排名第一的中国棋手柯洁。

取得这些成就,并不是人工智能在某些方面取得了巨大的突破,而只是因为我们有摩尔定律。我这么说并非否定我们在深度学习方面取得的成就。深度学习之所以有这些成就,是因为我们有更快的计算机来验证各种的研究工作,并在此基础上进行突破。所以最根本的原因,还是要感谢摩尔定律,感谢Intel,AMD,Nvida和台积电等一大批计算机硬件设计、制造商。

1990年代,Judea Pearl,Alan Newell等人,延续前人的模块化的分治策略,将一些概念从决策理论和经济学中引入到人工智能中,形成了“智能代理”这一新的范式。他们把经济学中的“理性代理(rational agent)”与计算机科学中的“对象”或“模块”相结合,使得“智能代理”范式更加完善。这一范式让研究者们通过学习孤立的问题找到可证的并且有用的解答。它为AI各领域乃至经济学,控制论等使用抽象代理概念的领域提供了描述问题和共享解答的一种通用语言。

这一时期,越来越多的AI研究者们开始开发和使用复杂的数学工具。许多人工智能需要解决的问题,已经成为数学,经济学和运筹学领域的研究课题。共享数学语言,使得人工智能变成一门更加严格的科学分支,可以与其他学科进行合作,获得资助和支持,并且使得研究成果更易于评估和证明。Judea Pearl发表于1988年的著作《智能系统中的概率推理:合理推理网络/Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference》中将概率论和决策理论引入人工智能。在随后的岁月里,不断地有新的应用的新工具被开发和投入实际应用,这里边包括很多著名的理论、方法和算法:包括贝叶斯网络,隐马尔可夫模型,信息论,随机模型和经典优化理论。Russell和Norvig(2003)将这些变化视为一场“革命”和“简约派的胜利”

有趣的是,人工智能研究过程中开发出来的各种算法,对人工智能并没有多大的帮助,但是却解决了很多实际的难题。这些算法引起了产业界的重视,开始被应用到很多方面,比如:数据挖掘,工业机器人,物流,语音、视觉识别,医疗诊断,搜索引擎,服务行业自动化,金融等等。很多研究并未冠以“人工智能”,而是另取它名,比如“信息论”,”知识系统“,“决策支持”,“认知系统”等,一部分是因为“人工智能”已经烂大街了,没法申请到经费,一部分是因为,他们只是认为他们的研究是整个计算机科学里一个普通的分支,没有必要用这么博眼球的名字。

机器学习和深度学习是其中之一。他们借着“学习/learning”的名义,在默默地在推进基础性的研究,并且不断取得各种成果。1989和1990年间,Yann LeCun 提出了LeNet,这是最早的卷积神经网络之一,LeNet证明了深度神经网络的在实现人工智能方面的巨大潜力。

1997年,Schuster 和 Paliwal 发表了双向循环神经网络(bidirectional recurrent neural network)。

2006年,Geoffrey Hinton发表了深度置信网络(Deep Belief Network)和一种新的分层预训练技术(layer-wise pretraining technique),这是一次非常重要的突破,一场“深度学习”运动由此缓缓展开。

2009年,Salakhundinov 和 Hinton发表了深度玻尔兹曼机。

2012年,Geoffrey Hinton 提出了Dropout技术,这个简单的方法解决了深度学习中的过度拟合(Overfitting)问题。

总之,这一阶段,人工智能领域稳步发展,取得了很多成功,但是远没有达到早期估计的获得与人类相同或更甚智力。虽然很多人列举了一些失败的原因。马文·闵斯基觉得是忽略了常识推理等核心问题。约翰·麦卡锡归咎于资格问题。有人认为是计算机性能限制,还有人认为是神经网络的不完善。

以下是我的观点。形式系统或符号派,哥德尔不完备定理已经描述了它的缺陷,因此它至多作为人工智能的辅助方法,而不能作为基础和核心方法。

虽然我不认为人类或动物神经网络是实现智能的唯一方法,但是是目前我们确认的唯一有效的方法。但在我们搞清楚它的运行机制之前,我们无法模仿它而实现完全的人类的智能。然而在我们不断的研究中,我们或许会不断地接近目标,并在这个过程中完善人工智能。

快车道:深度学习和大数据

从2011年开始,人工智能进入了快车道。这要再次感谢计算机硬件生产厂商,尤其是Nvidia。

最近这十多年,人工智能领域最热门的技术就是深度学习。深度学习并非一个全新的领域,它是机器学习的一个分支。机器学习是实现人工智能的一条路线。它与其他方法的区别是,它是一种更通用的方法,它不依赖于由程序来体现特定领域内的定理和规则,而是通过领域内的数据集来训练一个复杂的数学模型,模型会学习并“记住”该领域内的知识,而后,模型可以根据未知输入自动生成或预测输出。这也是这一方法被称作“机器学习”的原因。

需要指出,虽然大部分的机器学习算法都是基于联结主义,但并非所有的机器学习算法都是如此。深度学习属于联结主义方法,和统计学和概率论有密切的关系。

尽管深度学习已经存在了几十年,但在 2000 年代初Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton 等科学家对这一领域进行了更详细的探索。前面已经提到他们对深度学习的推进,由于缺乏大型复杂的数据集和计算能力,直到2011年左右,深度学习进入一个大爆发时期。

机器学习有很多算法,主要分为无监督学习和有监督学习两大类,然后还有很多子类。深度学习,属于有监督算法,是人工神经网络算法的一个子集。深度学习具有多层网络结构,有些算法的网络层数/深度超过了150,这个记录还在不断被刷新。深度学习背后的数学机制是全局逼近原理(Universal approximation theorem)。简单来说,是如何快速地拟合任意函数。对于神经网络,深度不是必须的,一个拥有足够多激活单元的单层的网络,也可以达到拟合目的。但是深度网络的结构层次,使其能够快速拟合,同时避免浅层网络的各种问题。

深度学习是如此成功,以至于非常多的研究人员尝试用它来解决各种问题,并且都取得了巨大的进展和成功。研究人员发明了很多不同的网络结构,研究这些网络结构的优缺点,并利用优点来解决很多特别的人工智能问题。同时,也发明了很多针对性的技术手段来解决或缓解深度学习自身的很多缺点。

最先进的神经网络结构在某些领域已经能够达到甚至超过人类平均准确率,例如在计算机视觉领域,特别是一些具体的任务上,比如:手写数字识别,交通信号灯识别,棋类竞赛和游戏领域等,超过甚至远远凌驾于人类之上。

伴随着深度学习发展的还有大数据。大数据是指在一定时间内无法被传统软件工具捕获、管理和处理的,高增长和多样化的数据集合或信息资产。它具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。人们需要新的处理模式,这些模式具有更强的决策力、洞察发现力和流程优化能力来适应和处理大数据。大数据和深度学习的发展相辅相成。一方面是深度学习需要大量的数据集来训练模型,另一方面是深度学习,被应用到各个领域的大数据分析,完成了以前无法完成的分析工作。

随着机器学习,深度学习的发展,另外一种机器学习方法:强化学习(Reinforcement Learning)重新进入研究人员的视野,并迅速发展,并与深度学习融合,发展成为深度强化学习。强化学习区是区别于有监督学习,无监督学习之外的第三种学习方法。深度学习的缺点之一就是,需要提供大量已经贴了标签的数据来训练模型,这需要大量的工作来处理大型数据集,数据集合的规模和质量对模型的准确性有直接和巨大的影响。某种意义上来说,只使用深度学习方法,永远不可能创造出真正的人工智能。对照人和动物,除了一些从基因里来的基础本能,我们的智能大都通过在环境中学习来获得。强化学习和深度学习的根本区别是,强化学习是智能系统从环境到行为映射的学习,它使用外部反馈的有限奖励信号来学习。由于外部信号有限,强化学习系统必须依靠自身的经历进行自我学习,并改进行动方案以适应环境。强化学习最关键的三个因素是状态,行为和环境奖励。

强化学习最有趣的成就是AlphaZero击败AlphaGo。我们提过,AlphaGo在复杂的最高的棋类围棋比赛中连续击败曾经和当时的世界冠军。AlphaGo基于深度学习和部分强化学习,需要从已经被评价的人类选手的棋局中学习,属于有监督学习。而AlphaZero的训练完全基于自我对弈和强化学习的方式,没有来自任何围棋选手的指导,没有灌输任何形式的围棋技巧。强化学习证明了人工智能在没有先验知识的情况下,能够通过自我学习来获取适应环境的各种智能。这是继深度学习之后又一个深刻的进展。今天,基于强化学习的人工智能,可以通过快速的自我学习,几乎可以在各种开放式游戏中击败最顶尖的人类选手。

在1970至1980年代,学习理论的发展奠定了强化学习的基础。Richard Sutton,著名的强化学习奠基人和Christopher Watkins等人提出了自适应动态规划(Adaptive Dynamic Programming)和Q-learning 等基本方法。1990至2000年代,Christopher Watkins提出了基于差分学习的Q-learning算法,这被认为是现代强化学习的重要里程碑。2010年后,通过深度神经网络的引入,强化学习得到了重大的推动和突破。时至今日,深度强化学习取得了让人惊叹的成就,

最近令人惊叹的成就

基于深度学习,强化学习等最新的人工智能技术,出现了一些让人惊叹的成就,这些成就非常迅速地达到普罗大众的手中,对整个人类的社会生活,文化和文明产生巨大的影响。人工智能开始展现它惊人的影响力,即让人振奋,也让人恐惧。

现在的语音合成技术,已经可以以假乱真,语音识别也进入使用阶段。如果资金允许,人类可以训练模型,识别世界上任何一种语言。这两项技术,已经被大量使用到日常生活的各类电子电器产品中。

生成式人工智能在大语言模型,和视觉生成方面日渐成熟,几乎每个月都有新的产品问世,他们的生成质量和便捷性一再刷新人们对人工智能的期待。

大语言模型可以像人类一样交流,并提供各种咨询。大语言模型比以往的任何一种人工智能模型,更能深层次的理解人类语言在环境和上下文中的真实含义。因此它可以作为一种更高层级的搜索引擎,摆脱传统搜索引擎的简单罗列,它能根据对搜索的目标深刻的理解,从它学习过的资料中整合出提问者需要的内容。它也是一种高级的机器翻译系统,可以方便的实现很多语言之间的翻译。它还可以式一个高级的程序员,根据提问者的要求,写出所需代码。它还是一个比较优秀的作者,根据题目,写出有趣的故事,诗歌甚至论文。

视觉生成方面,各种图片、视频生成工具不断涌现,并在社交,视频,媒体,影视等很多领域产生重大的影响。

所有这些让人惊叹的成就,开始对各行各业和整个社会生活产生巨大的影响。我个人认为它会导致一场社会革命,就像人类曾经经历的农业革命,工业革命和信息革命。很多人重新开始探讨人类的未来,更多的人面临被人工智能取代并失业的境地,整个社会在被它不断的触及和影响。

现在人们普遍在问,人工智能会不会取代我的工作,人工智能会被会取代整个人类。有些科学家发出了这样的预言:人类只是通往更高级(人工)智能的途径,人类终将被取代。

这些打开脑洞的探讨,我们将在以后的视频里进行。

Category:

Related Posts