BR 技术头条
yq yq.aliyun.com / 2019-03-07 15:22 / by @可耐芊小仙女

助力深度学习!阿里开源可插拔 GPU 共享调度工具

根据 Gartner 对全球 CIO 的调查结果显示,人工智能将成为 2019 年组织革命的颠覆性力量。对于人工智能来说,算力即正义,成本即能力,利用 Docker 和 Kubernetes 代表云原生技术为 AI 提供了一种新的工作模式,将 GPU 机器放到统一的资源池进行调度和管理,这避免了GPU 资源利用率低下和人工管理的成本。因此,全球主要的容器集群服务厂商 Kubernetes 都提供了 Nvidia GPU 容器集群调度能力,但是通常都是将一个 GPU 卡分配给一个容器。这虽然可以实现比较好的隔离性,确保使用 GPU 的应用不会被其他应用影响;对于深度学习模型训练的场景也非常适合,但是,针对模型开发和模型预测的场景还是会显得比较浪费。基于此,大家有了共享 GPU 的集群调度需求。

发表评论

相关分享

bl blog.codingnow.com / 2026-05-10 18:35

嵌入主线程消息循环的任务调度器

这篇文章记录了 soluna/ltask 在移植到 wasm 和非 Windows 平台过程中遇到的一个典型工程难题:如何在主线程事件循环中执行特定任务,同时仍保留原有多线程调度模型。

问题的核心来自图形 API 和平台约束。sokol 并非线程安全,OpenGL 又依赖当前线程状态,而 wasm 环境下主线程、worker、pthread API 的边界进一步放大了调度复杂度。

作者的解决思路不是重写整个调度器,而是在 ltask 中“打洞”:让某些必须在主线程回调中执行的 Lua 任务,临时从调度表中移出,由主线程接管执行,完成后再归还给调度器。

文章最有价值的地方,是把 coroutine、Lua 虚拟机、C 栈、主线程事件循环和图形 API 约束放在同一个工程场景中分析。它不适合泛泛阅读,但对做游戏引擎、wasm 移植或复杂运行时调度的开发者很有参考价值。

无图
ix ixyzero.com / 2025-01-12 12:08

学习了解数据仓库中的分层概念

本文详细介绍了数据仓库的分层概念,包括数据运营层(ODS)、数据仓库层(DW)和数据应用层(APP)。其中,DW层进一步细分为数据明细层(DWD)、数据中间层(DWM)和数据服务层(DWS)。文章阐述了各层的功能和作用,并通过实例说明如何在实际业务中应用这些分层概念。该内容适合数据工程师、数据分析师、数据架构师以及对数据仓库设计和实现感兴趣的技术人员阅读。

无图
zh www.zhangxinxu.com / 2025-01-03 00:13

如何使用JS获取系统内存、CPU/GPU、电量等信息

这篇文章讲解了如何通过 JavaScript 获取设备的内存、CPU、GPU 和电池等硬件信息,详细介绍了可用的 API、兼容性及实践场景。通过代码示例和性能分析,展示了如何在前端优化中合理利用这些数据。内容适合从事前端开发的工程师以及关注性能优化和用户体验提升的技术人员,提供了实用的开发参考。

无图
pa paper.seebug.org / 2025-01-03 00:07

探索 AI 驱动的网络安全框架:深度学习技术、GPU 支持和未来增强

这篇文章详细分析了现代网络攻击中的 DGA(域名生成算法)技术,涵盖了其工作原理、分类及在恶意软件中的应用实例。通过技术解析和实际案例,展示了如何检测和防御 DGA 带来的安全威胁。内容适合网络安全研究人员、安全工程师以及对恶意软件分析感兴趣的技术爱好者,提供了系统化的学习参考。

无图
du dusays.com / 2024-11-02 16:54

Linux 安全 Auditd 审计工具使用说明

本文介绍了 Linux 的 Auditd 审计工具,用于监控和记录安全相关事件。内容涵盖工具安装、审计规则配置、日志管理和规则持久化。审计规则包括文件、系统调用的监控,适合检测敏感操作。通过 `auditctl`、`ausearch` 和 `aureport` 等工具,管理员可以分析日志并生成报告,提升系统的安全性和合规性。

无图
wi wiki.eryajf.net / 2024-11-02 16:52

AWS运维部署实践--route53私有域跨账号共享

如果你的业务场景有多个 AWS 账号,那么私有域共享就是一个绕不开的话题。aws 中的 route53 私有域配置跨账号共享有两种方案,一种是直接跨账号关联 VPC,一种是通过配置文件共享的形式实现。本文采用第一种方案,只需要两条命令即可完成此需求。

无图
hu hubojing.github.io / 2024-08-06 08:11

【大模型系列】提示学习

本文介绍了提示学习(Prompt Learning)的基础概念和应用场景。作者详细讨论了提示学习在大语言模型中的作用,以及如何通过优化提示来提高模型的任务表现。文章还分享了在实际应用中调整和设计提示的技巧,并探讨了该技术在自然语言处理中的未来发展趋势。这篇文章为希望利用大模型进行高效自然语言处理的开发者提供了有价值的见解。

无图
te tech.meituan.com / 2024-04-23 23:26

美团外卖基于GPU的向量检索系统实践

到家搜索业务具有数据量大、过滤比高等特点,为了在保证高召回率的同时进一步提高检索性能,美团到家搜索技术团队与基础研发机器学习平台团队基于GPU实现了支持向量+标量混合检索的通用检索系统,召回率与检索性能均有较大提升。本文将介绍我们在GPU向量检索系统建设中遇到的挑战及解决思路,希望对大家有所帮助或启发。

无图
l1 l1n.wang / 2024-01-17 23:19

Java SPI机制学习与常用框架SPI案例

SPI(Service ProviderInterface)是JDK内置的服务提供机制,常用于框架的动态扩展,类似于可拔插机制。提供方将接口实现类配置在classpath下的指定位置,调用方读取并加载。当提供方发生变化时,接口的实现也会改变。Java生态中JDK、Dubbo、Spring等都通过SPI提供了动态扩展的能力。

无图