热议的谷歌推出一个开源的机器学习框架,高跟鞋,微软已经发布了名为DMLT(分布式机器学习工具包)一个类似的项目。它通过允许模型在一次接受培训(学习机的核心部件)的多个节点上简化了在分布式系统中的机器学习的工作。
“更大模型倾向于产生在各种应用中更好的精度,”微软写入其介绍在框架上。 “但是,它仍然是常见的机器学习研究人员和从业人员学习大车型的挑战。”
[同样在InfoWorld的:如何学习机吃了微软|了解如何处理所面临的开发人员,与InfoWorld的专业程序员的企业生存指南的现实问题。 |跟上热点话题在节目与InfoWorld的应用程序开发的通讯。 ]
DMLT的核心是一个C ++ SDK的客户端 - 服务器体系结构。 “一些服务器实例在多台机器上运行,并负责维护全球模型参数,”微软表示,它的文档。 “在训练程序访问和更新了一些调用底层通信设备客户端API的参数。”
微软希望DMLT,使其更容易进行数据科学家,而不必担心基本事实管理线程或工作负载进行跨多个机节点模型训练。它简化了进程间通信,同样,作为两种不同的库为该(MPI和ZMQ)可用,并且可以互换使用。
两大算法模型训练附带DMLT。 LightLDA将可能是最常用的大数据模型的快速培训。微软声称,它已经能够在只有八节点系统LightLDA训练模型“万亿参数”。此外,还包括分布式字嵌入和分布式的多传感字嵌入,确定单词的关系,彼此的算法。
DMLT被赋予一个非常低调的发布微软。唯一的大张旗鼓,似乎对DMLT网站是博客文章宣布的源代码已被公开发布的11月9日的这就是说,微软声称这是它计划提供与DMLT只是一个开始,其他算法都在。