机器学习和人工智能

随着深度学习的大热,人工智能、深度学习、机器学习、神经网络等热词随处可见。今天我们就来捋一下这些概念,帮助你了解他们。

机器学习是人工智能领域的一个重要分支;深度学习,是机器学习目前最热门的机器学习分支。

我们已经在本系列的第一期视频里讨论了人工智能。我先重复一下我自己对于人工智能的定义:所谓人工智能,是人类在研究智能的本质后,推导出一般性原理,并运用这些原理制造出来的人造物。这些人造物在一定程度上实现了人类所认可的智能。我强调了关于智能本质的一般性原理。

机器学习的基本概念

学习是智能最为基础和本质的部分。机器学习的本质就是通过研究人类和其他动物的学习能力,归纳出其中的一般性原理,并运用这些原理,让机器像人类一样学习。网络有各种对机器学习的定义,它们本质上是从不同侧面来定义机器学习。比如:

  • 机器学习是能从经验中自动改进系统性能的程序。
  • 机器学习是对能通过经验自动改进的计算机算法的研究。
  • 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法,根据这些算法,程序能够从经验中自动改进系统性能,而无需进行其他显示的编程。这种观点由 Arthur Samuel 提出。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。

一位著名的机器学习研究者Tom Mitchell提出:如果计算机程序对于任务T的性能度量P通过经验E得到了提高,则认为此程序对经验E进行了学习。这个定义很抽象,但比较精确。(A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.)

机器学习的分类

经过几十年的发展,我们已经有了很多机器学习相关的技术和算法。这些可以按一些不同的标准进行分类。

目前比较主流和专业的分类方式,是分成以下几类:

  • 监督学习
  • 无监督学习
  • 半监督学习
  • 强化学习

监督学习:需要对训练数据进行标记,告诉模型数据对应的预测结果。本质就是,由人来总结规律,并通过标志数据的形式输给程序,程序以此来建立模型。

无监督学习:算法具有在数据中自己发现规律,并以此来建立模型。

半监督学习,介于上面两者之间,严格来说并非一种单独的学习方式。

强化学习,强调在与环境的交互工程中进行学习。

这里我们要区分一下无监督学习和强化学习。从使用方式上,两者有些类似,都不需要对数据进行标记,但他们有本质区别。无监督学习,是算法目的是从大量的数据中,发现其内在的规律、结构或模式。强化学习则对每次输入都进行试错,根据环境给出的反馈/奖励进行学习,目标是学习如何做出能够获得环境最大奖励的最优决策。

我还有一种最符合大众口味的分类,是分成这三类:

  • 传统机器学习
  • 深度学习
  • 比深度学习还牛逼的学习,比如强化学习等。

传统机器学习就是深度学习成熟并发扬光大之前的各种其他机器学习算法,包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost,以及和深度学习相关的感知器等。

深度学习,是通过模拟多层神经网络来构建学习模型,深度一词指的就是神经网络的层数远超过单层。深度学习具有强大的通用性,几乎可以轻松解决各种其他传统方法能够解决的问题。

比深度学习还牛逼的学习,比如深度强化学习,迁徙学习,很多都是复合方法,很多是基于深度学习,通过解决深度学习的一些缺点,提高模型的学习能力,比如深度强化学习。

传统方法有其自身的一些优点,但总体而言,深度学习和强化学习等提供了一种更通用,并且学习性能更优秀的机器学习方法。

机器学习中的人工智能流派

我们在人工智能的流派视频中介绍了三大流派,即符号主义、连接主义和行为主义和其他一些次要流派。所有这些流派在机器学习中都有各自的表现。

符号主义的算法有决策树,规则学习等。符号主义的算法在数学上大都是离散的。

连接主义的算法有感知器和深度神经网络等。这是目前最人们的学习方法,还在不断的进化之中。

行为主义是强化学习的理论源泉。当下的强化学习和深度学习高度结合,是的深度学习神经网络具有了强大的学习能力,而无需人类进行频繁的干预和指导。

在机器学习领域,还有一个我们之前忽略的次要流派,具有举足轻重的影响。人们对此有很多称呼,比如,统计学派,贝叶斯派,概率派等等。我全部称之为统计派。代表性的算法有:支持向量机,各种贝叶斯算法,各种统计分类算法等。这些算法的共同特点就是,是从连续的角度来分析数据,并利用了各种统计和概率论的数学方法。

需要指出的是机器学习的任务与模型是可以组合的。比如在传统学习方法中, 通过集成学习,我们可以使用多种学习算法来获得比单独使用任何单独的学习算法更好预测性能。又比如在深度强化学习,结合了深度学习和强化学习,使得机器获得了接近人类的学习能力。

机器学习的应用领域

机器学习一直是人工智能领域最有活力和生产力的部分。很多传统学习算法,早已被广泛使用到很多计算机和其他各个领域,比如,医疗,商业,金融,法律等等。比如:

欺诈检测:银行行和其他金融机构可以使用机器学习来甄别可疑交易。

自动股票交易:旨在优化股票投资组合,AI 驱动的高频交易平台每天可处理数千乃至数百万笔交易,而无需人工干预。

推荐引擎:AI 算法通过使用过去的消费行为数据,发现消费趋势,并用于制定更有效的交叉销售策略。 

计算机视觉:这项技术被广泛使用在医疗保健,自动驾驶,移动设备,安保,社交媒体等各个行业。

语音识别和处理:包括语音识别,文字转语音,自然语义理解,多国文字翻译等,已经深入到我们的日常生活。

机器学习的挑战

深度学习是当下最热门的机器学习方法,机器学习面临的挑战,主要来自深度学习。这些挑战有技术和伦理两个方面。

技术方面,由于强化学习还不够成熟,无法运用到很多领域,人们对深度学习模型的训练主要还是依靠监督训练,并且人们还没有从理论上完全掌握深度学习和神经网络,导致了模型的训练效率低下,需要海量的高质量的训练数据,和庞大的计算资源和漫长的训练时间。这导致了下面三个问题:

  1. 高昂的训练成本。
  2. 模型的输出严重依赖训练数据,恶意的、被篡改的数据,会导致离谱的预测结果。
  3. 模型的黑盒性,可解释性差,限制了模型在某些领域的应用。

伦理方面的挑战主要有以下一些方面:

  1. 被人工智能取代的焦虑,这种焦虑包括对失业焦虑,被超级人工智能取代的焦虑等。
  2. 对数字隐私、安全的焦虑。大量的生成式人工智能可以轻易的模仿人声,照片、视频,可以轻易的产生大量的虚假信息,这些人工智能被恶意使用,导致了人们对数字隐私和安全的焦虑。
  3. 对偏见和歧视的焦虑。深度学习模型,本质上是一种概率模型,即便是正常的训练数据,也会导致模型产生背离人们道德原则的预测。一些机器学习系统中的偏见和岐视事例导致,人们对使用人工智能的工作流程,产生一种被偏见和歧视的焦虑。
Category:

Related Posts