机器学习下的持续交付
这篇文章将讲述在实现CD4ML时我们发现的重要技术组件,我们使用一个ML样例应用来解释概念,同时演示怎样把不同的工具放在一起来使用进而实现一个完整的端到端的流程。在合适的情景下,我们将会突出我们所选择的可代替的工具。也将使用我们在行业上的成熟实践经验来讨论未来的开发和研究的领域。
这篇文章将讲述在实现CD4ML时我们发现的重要技术组件,我们使用一个ML样例应用来解释概念,同时演示怎样把不同的工具放在一起来使用进而实现一个完整的端到端的流程。在合适的情景下,我们将会突出我们所选择的可代替的工具。也将使用我们在行业上的成熟实践经验来讨论未来的开发和研究的领域。
这里有四种离岸交付合作模式:Team Extension Model,Hybrid Collaboration Model,E2E Collaboration Model和Onshore/Offshore Collaboration Model。每种模式都有其优势和挑战,需要根据组织自身情况选择合适的模式。其中E2E Collaboration Model是一种全面的离岸交付模式,适用于团队成熟度较高、业务模块相对独立的情况。
在工业环境中开发基于机器学习的解决方案包括四个阶段:数据管理、模型学习、模型验证和模型部署,而这些阶段没有严格的时间轴,在一定程度上存在并行和反馈循环。本节将讨论从业者在最后一个阶段中面临的常见问题和挑战,并讨论涉及到的其他问题。
近年来,机器学习无论是作为学术研究领域还是实际商业问题的解决方案,都受到了越来越多的关注。然而,就像其他领域一样,在学术环境中起作用的研究和实际系统的要求之间往往存在着显著差异,所以在生产系统中部署机器学习模型可能会带来许多问题。
本文介绍一篇剑桥大学2020年发表的研究综述,其调研了在各种用例、行业和应用中部署机器学习解决方案的公开报告,提取了与机器学习部署工作流阶段对应的实际考虑因素。对于从业者而言,了解在机器学习部署的各个阶段所面临的挑战是非常重要的,本文将对这方面进行主要阐述,最后介绍潜在的解决方案,共分为上、下两篇,本篇为上篇,希望各位能从中受益并引发更多思考。
美团图灵机器学习平台在长期的优化实践中,积累了一系列独特的优化方法。本文主要介绍了图灵机器学习平台在内存优化方面沉淀的优化技术,我们深入到源码层面,介绍了Spark算子的原理并提供了最佳实践。希望为读者带来一些思路上的启发。
在Thoughtworks,我们通过对最佳实践(Sensible Default Practices)、能力和度量的持续治理和改进,在保障交付正确的客户价值和减少浪费的基础上,使交付质量更好,速度更快,反馈更及时,从而达到追求工程卓越和形成发展工程师文化的目的,最终产生客户影响力。
互联网应用在给用户带来便利的同时,也引入了新的风险。屡见报端的网络欺诈事件,已经给许多互联网用户带来了严重危害。本文将介绍几种基于机器学习的能够有效监管和防御网络欺诈的技术手段。
伴随着数据化、智能化的浪潮,很多大企业为了沉淀通用技术和业务能力;加快企业智能化、规模化智能开发,开始了自建机器学习平台。 从零搭建一个机器学习平台的复杂度是不容小觑的,关于平台的定位、需要解决的问题;及其架构、技术选型等需要提前考量和设计。本文根据几个从零到一的机器学习平台构建经历,再结合目前新兴热门的云上机器学习平台,试图对机器学习平台做一个概念和技术拆解。