数据科学入门
介绍
如今,每个人都知道数据是什么,至少是外行人所理解的。数据统治着世界,数据科学正日益受到关注,接受时代的挑战,并提供新的算法解决方案。
数据是我们这个世界的新石油。以目前的速度,我们每天生成约 2.5 千万亿字节的数据,但随着物联网 (IoT) 的发展,这一速度只会加快。仅在过去两年里,世界上 90% 的数据都是由数据生成的。“数据科学”这个词让我们对处理所有这些数据的含义有了非常模糊的概念。阅读本指南后,我希望您能对数据科学领域有更深入的了解。
什么是数据科学?
维基百科将数据科学定义为使用科学方法从数据中提取知识和见解的领域。它是一个跨学科领域,可让您从结构化或非结构化数据中获取知识。数据科学不是一个单一的领域,而是专注于分析数据的多个流的组合。最初,这些任务由数学家或统计学家处理。随着时间的推移,专家们开始使用机器学习、深度学习和人工智能,这增加了优化和计算机科学作为分析数据的方法。
人工智能、机器学习、深度学习和数据科学——毫无疑问,这些重要术语是当今最常用的术语之一,我们应该了解这些领域之间的区别。
人工智能(AI)
人工智能专注于创造能够像人类一样行动或解决问题的智能机器。1936 年,艾伦·图灵制造了第一台人工智能机器,但随着技术的进步,以前定义人工智能的基准已经过时。例如,今天,计算基本功能或通过光学字符识别识别文本的机器不再被视为人工智能的体现。
机器学习 (ML)
机器学习是我们研究统计和数学算法的领域。它是一门研究领域,它赋予计算机无需使用明确指令即可学习的能力。它被视为人工智能的一个子集。机器学习算法在计算机内存中构建数学模型,这些数学模型在给定数据(称为训练数据)中寻找模式。然后,它们无需明确编程,就能对未见过的数据(称为测试数据)做出预测或决策。
机器学习有不同类型的算法。没有人能在不查看数据和了解要解决的问题的情况下知道该使用哪种算法。我提到了最常见的算法,它们对数据具有多种行为。
监督学习
监督学习是机器学习最先进的形式。在这种学习类型中,我们使用标记良好的数据来训练模型,这意味着正确的答案被标记在训练数据集中,顾名思义,监督者就是老师。一旦模型从标记良好的数据中训练出来,它就会被应用于一组新的数据,即测试数据,以预测结果。
监督学习涉及两类算法:
- 分类:输出变量是一个类别,例如“男人”或“女人”,“成人”或“儿童”
- 回归:输出变量是真实值,如体重、身高等。
无监督学习
顾名思义,无监督学习中没有监督,这意味着模型是在未分类或未标记的数据上进行训练的。无监督学习允许模型在没有任何指导的情况下根据信息采取行动。在这里,模型的任务是在输入数据中寻找模式并组合相似的数据。
无监督学习涉及两类算法:
- 聚类:根据多种因素将数据分组为各种组,例如按年龄对消费者进行分组。
- 关联:使用各种规则来描述大量数据输入;例如,如果消费者购买 X 东西,那么他们也倾向于购买 Y 东西。
强化学习(RL)
强化学习是指采取措施最大化特定条件的结果。它与各种软件和机器相连,以找到特定情况下的最佳行为或路径。强化学习与监督学习有很大不同,因为在监督学习中,模型是通过正确答案进行训练的,但在强化学习中,不使用标记数据。强化媒介或代理决定如何执行给定任务。在强化学习中,计算机或机器从经验中学习。
RL 的最佳例子是计算机学习玩视频游戏,其中用户通过连续阶段会获得奖励。
深度学习
深度学习是机器学习的一个分支,完全基于人工神经网络,其理念是模仿人类大脑的轴突、神经元、树突等。在需要更高级或快速分析的领域,会创建多层神经网络。深度学习可以在各种类型的数据(如图像、文本、文档、视频等)中发现复杂的隐藏模式。
数据科学过程
本节介绍整个数据科学过程的流程,从获取数据到进行准确的计算和预测。
数据积累
此步骤涉及从内部和外部来源获取或提取数据。
数据可以来自各种来源:
- 使用 API 从在线来源获取数据
- 来自 Web 服务器的日志
- 人口普查数据、地形数据或天气数据
- 从社交媒体收集的数据
所需技能包括:
- 数据库管理:SQL 或 NoSQL,取决于您的需求和要求
- 查询数据集
- 检索视频、音频、文本、文档等形式的非结构化数据。
数据整理
数据可能存在不一致的情况,例如缺失值、数据格式不正确、空白列或行,您必须摆脱所有这些问题。在建模之前,必须将这一点放在首位,因为模型的预测或结果取决于干净的数据。
所需技能:
- 脚本语言:Python、R、SAS
- 数据整理工具:Python Pandas、R
- 分布式处理:Hadoop
探索性数据分析
此步骤非常耗时,在很大程度上决定了机器学习模型的结果。在此步骤中,您将通过统计测试和可视化来了解数据。此阶段旨在从数据中得出隐藏的含义,这将让您了解使用哪种算法和哪些参数。
所需技能:
- 推论统计
- R 库:GGplot2、Dplyr
- Python 库:Numpy、Matplotlib、Pandas、Scipy
- 数据可视化 Python 库:Bokeh、Matplotlib、Seaborn
造型
这是一个关键步骤,因为在此步骤中,您将通过将数据集分发到测试和训练数据集来训练模型来开始构建模型。将关联、分类和聚类等不同技术应用于训练数据集。训练后,将针对测试数据集测试模型。
所需技能:
- 机器学习库:Python (Sci-kit Learn) / R (CARET)
- 机器学习:监督/无监督/强化学习算法
- 线性代数和微积分
结果
在此步骤中,您将提供最终的基准模型,其中包含报告、代码和技术文档。经过全面测试后,该模型将部署到实时生产环境中。关键发现将传达给所有利益相关者。
数据科学的应用
- 互联网搜索:谷歌在数据科学的帮助下每天处理大约 35 亿次搜索查询。
- 图像和语音识别:手机中的面部锁定系统在数据科学的帮助下运行。Siri、Google Assistant 和 Alexa 等语音识别系统也依赖于数据科学。
- 推荐系统:几乎每个推荐系统都是在数据科学的帮助下运行的。亚马逊和Netflix等公司都使用此类系统从数十亿种可能性中推荐产品。
- 航空路线规划:数据科学使航空公司能够预测航班延误、决定购买哪一等级的飞机以及确定何时降落在目的地。这些因素使航空旅行更具成本效益。
- 游戏: EA Sports、索尼和任天堂正在使用数据科学技术来增强游戏体验。游戏现在使用机器学习技术开发。
- 银行业:银行业是数据科学最突出的应用之一。大数据和数据科学使银行能够跟上竞争并有效地管理资源。
- 医疗保健:医学图像分析、遗传学和基因组学、药物发现、诊断预测模型、健康机器人和虚拟助手都是数据科学在医疗保健领域的应用。
结论
数据科学是一个令人着迷且广泛的话题,这个领域已经有很多成果。然而,我们还有很长的路要走,因为数据科学将带我们走向世界的下一个奇点。如果你有技术背景并且对数据感兴趣,那么这对你来说可能是一个令人兴奋的领域。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~