大规模机器学习-2018的DataOps/MLOps

栏目: 数据库 · 发布时间: 7年前

内容简介:数据科学可以被概括为两个工作流:当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。

动机

数据科学可以被概括为两个工作流:

  • 模型开发
  • 模型服务

大规模机器学习-2018的DataOps/MLOps

当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。

  • 需要维护的模型较少
  • 关于模型的知识在数据科学家的头脑中
  • 每个人有跟踪流程的方法

但是,随着数据科学需求的增长,将面临新的问题

  • 数据流的复杂度增加
    • 大量的数据处理工作流
    • 数据没有在标准化的流程中修改
    • 管理复杂的流和定时任务变得不可管理

大规模机器学习-2018的DataOps/MLOps

  • 每个数据科学家有他们自己的 工具

    • 一些喜欢tensorflow
    • 一些喜欢R
    • 一些喜欢Spark
    • 一些喜欢所有

    大规模机器学习-2018的DataOps/MLOps

  • 模型服务变得越来越难

    • 不同的模板版本跑在不同的环境中
    • 部署和回滚模型变得越来越复杂
  • 问题出现很难回溯

    • 数据科学家说是数据管道上的bug
    • 数据工程师说是模型出了问题
    • 变成了猫鼠游戏

    大规模机器学习-2018的DataOps/MLOps

    幸运的是,许多同行都面临这些的问题有段时间了,这是一个大家都要解决的问题。

    数据科学家:负责模型的开发

    数据工程师:负责数据管道的开发

    DevOps/DataOps/MLOps工程师:负责模型、数据管道和产品的生产化(由原型阶段部署到大规模的生产环境)

    概念

    因为技术功能变化了,因此基础设施也该对应的进化。

    大规模机器学习-2018的DataOps/MLOps

    大规模机器学习-2018的DataOps/MLOps

ML-OPS的两个原则:

  • 重现性(Reproducibility)
  • 编排

大规模机器学习-2018的DataOps/MLOps

原则1:模型和数据的版本

大规模机器学习-2018的DataOps/MLOps

数据科学重现性的古老问题。

解藕管道中每一步。

大规模机器学习-2018的DataOps/MLOps

每一步都包含代码/配置,以及特定的数据数据输入和输出。

每一步的抽象:

大规模机器学习-2018的DataOps/MLOps

  • 数据输入
$ cat data-input.csv

>            Date    Open    High     Low   Close     Market Cap
> 1608 2013-04-28  135.30  135.98  132.10  134.21  1,500,520,000
> 1607 2013-04-29  134.44  147.49  134.00  144.54  1,491,160,000
> 1606 2013-04-30  144.00  146.93  134.05  139.00  1,597,780,000
  • 代码/配置
$ cat feature-extractor.py

> def open_norm_feature_extractor(df):
>     feature = some_lib.get_open(df)
>     return feature
  • 数据输出
$ cat data-output.csv

>   Open 
>   0.57 
>   0.59 
>   0.47

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

老二非死不可

老二非死不可

方三文 / 机械工业出版社 / 2013-12 / 39.00

关于投资 价值投资者为啥都买茅台? 怎样识别好公司与坏公司? 做空者真的罪大恶极吗? 国际板对A股会有什么影响? 波段操作,止损割肉到底靠不靠谱? IPO真的是A股萎靡不振的罪魁祸首吗? 关于商业 搜狐的再造战略有戏吗? 新浪如何焕发第二春? 百度的敌人为什么是它自己? 我为什么比巴菲特早两年投资比亚迪? 民族品牌这张牌还靠谱......一起来看看 《老二非死不可》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

html转js在线工具
html转js在线工具

html转js在线工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试