导读:本系列文章旨在对机器学习当前的概况与常用方法做一个梳理,所有内容均来自于笔者课堂所学、课后阅读与自己的思考总结。因自己接触机器学习时日尚短,所以文章中错误、纰漏之处在所难免,如有读者在阅读过程中发现文中错误,欢迎指正并一起交流探讨。

本章主要内容

一、什么是机器学习

二、机器学习的发展历程

三、机器学习的应用现状


一、什么是机器学习

在大家念小学的时候,一定记得小学语文课本上有着这样一些谚语“燕子低飞蛇过道,明日必有大雨到” “朝霞不出门,晚霞行千里” “久晴大雾必阴,久雨大雾必晴”,在没有天气预报的时代,这些古老的谚语为我们的生活提供了巨大的便利。我们在赞叹古代中华人民的智慧的同时,也不禁要问为什么看到燕子低飞就知道明天肯定会下大雨呢?这是因为在日常生活中我们已经遇到了很多类似的情况,今天观察到“燕子低飞蛇过道”这个特征,第二天通常都会下很大的雨。从上面这个例子可以看出,当我们对某一具有关联性的事件组合(燕子低飞蛇过道——明天下大雨)积累了许多经验的时候,我们就能够通过对这种经验的利用,做出有效的决策。例如:今天看到了燕子低飞和蛇过道,明天我们出门时就应该带把伞。

机器学习正是这样的一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。所谓“模型”这里泛指是从数据中学得的结果。

从上面的介绍中,我们可以看到,要进行机器学习,必须要有数据来对“模型”进行训练,当“模型”训练完成后,我们每给模型输入一组数据,模型都会产生一组输出,即我们希望预测的结果。有时我们需要预测的结果是离散的,例如我们希望预测明天是‘下雨’还是‘不下雨’,这类学习任务称为“分类”。有时我们需要预测的是连续的值,例如明天的‘温度’,这类学习任务称为“回归”。

此外我们还可以根据训练数据是否拥有标记信息将学习任务分为两大类:训练数据带有标记的任务(例子:在输入‘燕子低飞蛇过道’的同时,告诉机器这种特征的输出应该为‘明天下雨’)称为“有监督学习”,例如分类与回归;训练数据不带有标记的任务(例子:输入一堆数据,不告诉机器每组数据的正确输出,让机器依照数据之间的相似性将其划为若干类)称为“无监督学习”,我们经常听见的‘聚类’便是此类任务的代表。


二、机器学习的发展历程

从电子计算机诞生之日起,人类便一直试图让机器具有人的智能,能够完成人类所能完成的任务,即人工智能(Artificial Intelligence)。机器学习是人工智能研究发展到一定阶段的必然产物。

1950s——1970s:人工智能研究处于‘推理期’,那时人们以为只要能赋予机器逻辑推理能力,机器就能具有智能。这方面的研究在当时取得了令人振奋的结果,但随着研究的发展,人们逐渐认识到,仅具有逻辑推理能力是远远实现不了人工智能的。

1970s——1980s:在E.A.Feigenbaum等人的倡导下,从二十世纪中期开始,人工智能研究进入了“知识期”。在这一时期,大量的专家系统问世,在很多领域取得了大量的成果。但是,这种方法仍旧存在着很大的问题,专家系统面临“知识工程瓶颈”,简单地说,就是由人来把知识总结出来再教给计算机是十分困难的。于是,一些学者想到,机器如果能够自己学习知识该多好。

1980s—— :机器学习是在二十世纪八十年代被视为“解决知识工程瓶颈问题的关键”而走上人工智能舞台的,但事实上,早在1950年图灵发表的关于图灵测试的文章中,就曾提到了机器学习的可能。在二十世纪八十年代,机器学习的一大主流是符号主义学习,其代表包括决策树和基于逻辑回归的学习。除了符号主义学习外,此时另一主流技术是基于神经网络的链接主义学习。与符号主义能产生明确的概念表示不同,连接主义产生的是‘黑箱’模型,因此在知识获取的角度上看链接主义学习技术有明显的弱点。二十世纪九十年代中期开始,“统计学习”闪亮登场并迅速占据主流舞台,代表技术是支持向量机(SVM)以及更一般的核方法。

二十一世纪初,由于移动互联网时代的到来,产生了大量的数据,同时计算机的计算能力得到了大幅度的提高,链接主义学习又卷土重来,掀起了以“深度学习”为名的热潮。所谓深度学习,狭义地说就是“很多层”的神经网络,虽然这种方法缺乏严格的理论基础,但其模型复杂度很高参数众多,以至于只要肯下功夫“调参”,总能“靠运气”调到合适的参数,并获得良好的性能。


三、机器学习的应用现状

今天,在计算机科学的诸多分支学科领域中,机器学习跟模式识别,统计学习,数据挖掘,计算机视觉,语音识别,自然语言处理等领域有着很深的联系,机器学习已成为最重要的技术进步源泉之一。

本章对机器学习这些相关领域的介绍有助于我们理清机器学习的应用场景与研究范围,更好的理解后面的算法与应用层次。

模式识别(Pattern Recognition)

模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。这是模式识别的两个重要方面。市场上可见到的代表性产品有光学字符识别、语音识别系统。

数据挖掘(Data Mining)

数据挖掘利用各种技术与统计方法,将大量的历史数据,进行整理分析,归纳与整合,是从海量数据中“挖掘”隐藏信息,如趋势、特征及相关的一种过程。如今绝大多数数据挖掘的工作是通过机器学习提供的算法工具实现的。例如广告的ctr预估,PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型,从而提高互联网广告的点击率和回报率;个性化推荐,还是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。我们可以把数据挖掘理解为一种类型的工作,或工作中的某种成分,机器学习是帮助完成这个工作的方法。统计学、数据库和人工智能共同构造了数据挖掘技术的三大支柱,许多成熟的统计方法构成了数据挖掘的核心内容。

统计学习(Statistic Learning)

统计学习近似等于机器学习。统计学习是个与机器学习高度重叠的学科。因为机器学习中的大多数方法来自统计学,甚至可以认为,统计学的发展促进机器学习的繁荣昌盛。例如著名的支持向量机算法,就是源自统计学科。但是在某种程度上两者是有分别的,这个分别在于:统计学习者重点关注的是统计模型的发展与优化,偏数学,而机器学习者更关注的是能够解决问题,偏实践,因此机器学习研究者会重点研究学习算法在计算机上执行的效率与准确性的提升。

计算机视觉(Computer Vision)

计算机视觉=图像处理+机器学习。图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式。计算机视觉相关的应用非常的多,例如人脸识别、手写字符识别、车牌识别等等应用。这个领域的应用前景非常火热的,同时也是研究的热门方向。随着机器学习的新领域深度学习的发展,大大促进了计算机图像识别的效果。

语音识别(Voice Recognition)

语音识别=语音处理+机器学习。语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,一般会结合自然语言处理的相关技术。目前的相关应用有天猫精灵、讯飞语音输入法等。

自然语言处理(Natural Language Processing)

自然语言处理=文本处理+机器学习。自然语言处理技术主要是让机器理解人类的语言的一门领域。在自然语言处理技术中,大量使用了编译原理相关的技术,例如词法分析,语法分析等等,除此之外,在理解这个层面,则使用了语义理解,机器学习等技术。作为唯一由人类自身创造的符号,自然语言处理一直是机器学习界不断研究的方向。按照百度机器学习专家余凯的说法“听与看,说白了就是阿猫和阿狗都会的,而只有语言才是人类独有的”。如何利用机器学习技术进行自然语言的的深度理解,一直是工业和学术界关注的焦点。

参考文献

[1]周志华,《机器学习》

[2] Andrew Ng Courera Machine Learning

[3] 计算机的潜意识,《从机器学习谈起》

cnblogs.com/subconsciou