使用Azure进行自动化机器学习 什么是自动化机器学习? 在 Azure 门户中创建和浏览自动化的机器学习试验 (预览版) 

自动化的机器学习,也称为 AutoML,让数据科研人员、 分析人员和开发人员,同时维护模型质量构建具有高缩放性、 效率和工作效率的机器学习模型。

与自动化机器学习将加快所需获取生产的 ML 模型很好的轻松和高效的时间。

然后,根据训练的分数,最拟合的模型是标识并向你推荐。

在实验中,每次迭代的训练流和由给定模型的影响最大功能,可以看到每个生成的模型。

如何自动机器学习工作原理

使用Azure 机器学习服务,可以设计和使用这些步骤运行自动化的机器学习训练实验:

  1. 确定机器学习问题待解决: 分类,预测或回归

  2. 指定的源和标记的训练数据的格式:Numpy 数组或 Pandas 数据帧

  3. 配置计算目标,以便为模型定型,如你本地计算机、 Azure 机器学习计算、 远程 Vm 或 Azure Databricks。


提交训练运行。


它将停止后它会命中在试验中定义的退出条件。

训练运行生成 Python 序列化对象 (.pkl文件),其中包含的模型和数据预处理。

在 Azure 门户中创建和浏览自动化的机器学习试验 (预览版) 

必备组件

  • Azure 机器学习服务免费版或付费版。

  • 创建 Azure 机器学习服务工作区。

开始使用

在创作 (预览版) 部分下选择自动机器学习。

如果这是你第一次执行任何使用自动化的机器学习试验,你将看到以下信息:

使用Azure进行自动化机器学习
什么是自动化机器学习?
在 Azure 门户中创建和浏览自动化的机器学习试验 (预览版) 

此处可以筛选和按日期浏览在运行过程中,试验名称,并运行状态。

创建试验

选择创建试验按钮以填充以下窗体。

  1. 输入试验名称。

  2. 若要创建新的计算,请执行步骤 3 中的说明。

  3. 选择创建新的计算按钮以打开下方窗格中,并配置对于此试验计算上下文。




    字段 描述
    计算名称 输入用于标识您的计算上下文的唯一名称。
    虚拟机大小 选择在计算的虚拟机大小。
    其他设置 默认值为 6 个节点的 AML 计算。

    这可能需要一些时间。

  4. 公共预览版仅支持本地文件上传和 Azure Blob 存储帐户。

  5. 选择一个存储容器。

  6. 使用预览和配置文件选项卡进一步配置你的数据对于此试验。
    • 在预览选项卡上,指示是否你的数据包含标头,并选择特征 (列) 是用于定型包含每个功能列中切换按钮。
      使用Azure进行自动化机器学习
什么是自动化机器学习?
在 Azure 门户中创建和浏览自动化的机器学习试验 (预览版) 
  7. 选择训练作业类型: 分类、 回归或预测。
  8. 选择目标列。 其想要对预测的列。
  9. 用于预测:

    • 选择时间列:此列包含要使用的时间数据。

  10. (可选)高级设置: 可用于更好地控制训练作业的其他设置。
高级设置 描述
主要指标 用于进行评分模型的主要度量。
退出条件 这可确保,如果您想要达到定义的目标度量值,则执行不花更多时间比实际所需的训练作业。
预处理
验证
并发 选择你想要使用多核计算时使用的多核限制。
已阻止的算法 选择你想要从训练作业中排除的算法。

使用Azure进行自动化机器学习
什么是自动化机器学习?
在 Azure 门户中创建和浏览自动化的机器学习试验 (预览版) 

数据事件探查

具体而言,我们的数据配置文件包括:

  • 功能: 这汇总的列的名称。

  • 这允许您快速了解数据的分布。

  • Null 值是其自己的类型,因此此可视化效果可用于检测异常或缺失值。

  • 可能的值包括: 字符串、 布尔值、 日期和小数位数。

  • 对于其类型不具有固有的排序 (例如布尔值) 的功能显示为空白条目。

  • 计数: 缺少和非缺少列中的项的总数。

  • 功能与不相关的类型显示为空白条目。

  • 功能与不相关的类型显示为空白条目。

  • 功能与不相关的类型显示为空白条目。

  • 功能与不相关的类型显示为空白条目。

  • 功能与不相关的类型显示为空白条目。

  • 功能与不相关的类型显示为空白条目。

高级预处理

因此,这样做意味着自动执行以下数据预处理和特征化步骤。

预处理 步骤 描述
删除较大的基数或者无差异的特征 请先删除这些从训练和验证集,包含所有缺失,相同的值之间的所有行或具有极高基数 (例如,哈希、 Id 或 Guid) 值中包括的功能。
估算缺失值 分类特征、 输入与最常用的值。
生成其他特征 对于文本特征:根据获得、 双元语法和三元字符语法的字词频率。
转换和编码 独热编码为较小的基数分类; 执行为高的基数,一个热的哈希编码。
词嵌入 在文档中的每个单词嵌入向量被聚合在一起以生成文档特征向量。
目标编码 基于频率的权重和 k-折叠交叉验证用于减少通过映射和干扰引起的稀疏数据类别中调整。
文本目标编码 文本输入具有包的单词的堆积线性模型用于生成每个类的概率。
证据 (出错) 的权重 此步骤中输出每个类的一个数字特征列,并且无需显式用户输入缺失值和离群值处理方法。
分类距离 输出 k 新功能,每个群集,其中包含每个示例与每个群集的形心的距离的一个新数字功能。

运行实验并查看结果

实验准备过程需要几分钟的时间。

查看实验详细信息

使用迭代图表以获取到目前为止生成的模型的快速度量值的比较。

训练作业可能需要每个管道完成运行一段时间。

查看训练运行详细信息


使用Azure进行自动化机器学习
什么是自动化机器学习?
在 Azure 门户中创建和浏览自动化的机器学习试验 (预览版)