AutoML如何让业务分析师BA掌握AI的力量?

栏目: 数据库 · 发布时间: 5年前

内容简介:将人工智能和机器学习融入业务应用程序并非易事。特别是,当涉及到处理关键任务型的企业应用时,将ML与现有应用程序集成成为一项具有挑战性的工作。从组织决定将机器学习纳入完全训练模型的实际部署开始,有多个阶段涉及不同的团队和具有不同技能的个人。它必须通过下图中描述的工作流程。

将人工智能和机器学习融入业务应用程序并非易事。特别是,当涉及到处理关键任务型的企业应用时,将ML与现有应用程序集成成为一项具有挑战性的工作。

从组织决定将机器学习纳入完全训练模型的实际部署开始,有多个阶段涉及不同的团队和具有不同技能的个人。它必须通过下图中描述的工作流程。

机器学习管道

1. 数据采集​​涉及从各种数据源(如RDBMS,NoSQL数据库,数据仓库,第三方源等)中识别和提取数据。企业依靠高级ETL(提取,转换,加载)工具来聚合来自异构数据源的数据。

2. 数据探索将提供对采集数据集的深入了解,并帮助数据工程团队评估数据质量。此阶段将帮助团队在聚合数据集中查找隐藏模式,相关性,缺失数据点。

3. 数据准备阶段涉及清理数据集。缺少数据点可能会被丢弃,现有列可能会被拆分,多列可能会合并,最后,数据集将变为有价值的输入源。

4. 特征工程是数据科学家从数据集中识别相关(标签)和独立变量(特征)的关键步骤。会执行编码,缩放和规范化等技术,以使数据保持一致和同质。特征工程对ML项目的成功至关重要。

5. 下一阶段,即模型选择,就是从众多可用的统计模型中选择正确的算法。可能存在多个算法(有时甚至是十几个)来解决相同的问题。经验丰富的数据科学家将应用直觉与对业务问题的深入理解相结合,以精选一组算法。

6. 在训练阶段,完全准备好的特征工程数据集用于训练和测试模型的准确性。输入数据被分成训练和测试数据集,这有助于评估模型的准确性和精确度。

7. 超参数调整涉及调整训练作业的各种参数以演化准确的模型。对于用于训练的所有入围算法都进行了这种优化。此阶段是工作流程中所有步骤中最复杂的。

上面三个阶段 - 模型选择,模型训练和超参数调整 - 被多次迭代,直到结果令人满意。对于选择用于训练的每个模型,迭代地应用超参数调整。

最后,选择并部署最佳模型用于实时预测。开发人员可以像任何其他API一样调用REST端点来生成预测。

使用AutoML

AutoML尝试通过自动执行大多数步骤来加速培养训练模型的过程。期望用户上传数据集并等待预测变得可用。从特征工程到超参数调整,AutML可自动执行管道中最复杂的步骤。

AutoML创建了一类新的“公民数据科学家”,将高级ML的力量直接交给商业用户。这并不意味着使用AutoML平台的组织不需要数据科学家。他们在提供经验和领域知识方面仍然可以发挥作用。但是,AutoML使数据科学家的工作效率更高,因为模型构建过程中的重复步骤是自动化的,允许他们使用他们独特的专业知识来优化模型。

在处理AutoML平台时,业务分析师会专注于业务问题,而不是迷失在流程和工作流程中。大多数平台会提示用户上传数据集,然后标记类别。之后,在幕后处理准备数据,选择正确的算法,优化和超参数调整所涉及的大多数步骤。一段时间后,平台公开了一个可用于预测的REST端点。这种方法显着改变了培训机器学习模型所涉及的传统工作流程。

AutoML入门

AutoML是AI和ML领域不断发展的趋势。IBM,Google和Microsoft等公共云提供商通过提供自定义认知平台开创了AutoML革命。 DataRobot 等企业级企业正在为企业带来 AutoML 的强大功能。包括Scikit-learn和Keras在内的主流框架正在采用AutoML来简化工作流程。

AutoML完全适用于认知API和自定义ML平台之间。它提供了正确的自定义级别,而无需强迫开发人员完成精心设计的工作流程。与通常被视为黑盒子的认知API不同,AutoML具有相同程度的灵活性,但自定义数据与可移植性相结合。

某些AutoML平台(如Microsoft Azure)还支持导出与运行Android和iOS的移动设备兼容的完全训练的模型。开发人员可以快速将模型与移动应用程序集成,而无需学习机器学习的细节。

微软最近 宣布 可以在容器中运行认知服务。当AutoML模型导出到 Docker 容器中时,DevOps团队将能够大规模部署它们,以便在生产环境中进行推理。他们可以将容器托管在由Kubernetes和DC / OS管理的可扩展集群中。

随着每个平台供应商都试图使机器学习民主化,AutoML正在发展成为人工智能的未来。它将AI的力量交给了业务分析师和技术决策者。


以上所述就是小编给大家介绍的《AutoML如何让业务分析师BA掌握AI的力量?》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

计算机程序设计艺术(第3卷)-排序和查找(英文影印版)

计算机程序设计艺术(第3卷)-排序和查找(英文影印版)

(美)Donald E.Knuth / 清华大学出版社 / 2002-9 / 85.00元

《计算机程序设计艺术排序和查找(第3卷)(第2版)》内容简介:这是对第3卷的头一次修订,不仅是对经典计算机排序和查找技术的最全面介绍,而且还对第1卷中的数据结构处理技术作了进一步的扩充,通盘考虑了将大小型数据库和内外存储器。它遴选了一些经过反复检验的计算机方法,并对其效率做了定量分析。第3卷的突出特点是对“最优排序”一节作了修订,对排列论原理与通用散列法作了全新讨论。一起来看看 《计算机程序设计艺术(第3卷)-排序和查找(英文影印版)》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

html转js在线工具
html转js在线工具

html转js在线工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试