近日,数人云与清华大学交叉信息研究院开放计算项目实验室(OCP实验室)合作共建深度学习平台,该平『台通过数人云操作系统实现GPU资源共享,利用Docker技术交付深度学习的运行环境,让深度学习项目组师生可以▃更加灵活地使用GPU资源,并解决深度学习环境部署繁琐的问题。
深度学习算法的计算性能依赖强大的GPU计算能力,为了尽可能〓提高GPU资源利用率,数人云利用Mesos将GPU资︽源汇聚成资源池实现资源共享,并借用Docker交付深度学习的运行环境。
深ζ度学习平台利用nvidia-docker ( https://github.com/NVIDIA/nvidia-docker )容器化深度学习组件,同时,借助数人云〓搭建GPU集群,共享GPU资源。最终,为用户提供了可一条命令部署深度学习环境的平台。
在节点内♂部,数人云利用nvidia-docker帮助容器内←部的程序调用外面主机上的CUDA Driver。CUDA Driver及GPU Driver安装在外部Host上,CUDA Toolkit,及其它深度学习组件及用户应◣用程序运行在Docker容器中。这样既能快速∏配置环境,又保证了HOST不受用户应用程序污染。
数人云打Ψ造的GPU集群,将深度学习的任务分配到服务器上,采用分╲布式计算方法,极大程度上提高了GPU的资源利用率。
2015年6月,Facebook资助清华大↙学交叉信息研究院,成立中国唯一的一家OCP实验室,自2015年9月开始,数人云和清华大学交叉信息研究〒院助理院长徐葳博士合作在OCP实验室开展数据中心方面的相关研究工作。今年3月,数人云联合清华大学∑OCP实验室完成“百万并发”压力测试,数人「云通过10台OCP服务器成功承载了百万并发HTTP请求,并进行了广泛的性能测卐试。
关于数人云
数人云创始团队来自谷歌、红帽和惠普㊣ ,在今年3月初公司完成A轮融资,由云启资◆本领投,思科、策源以及唯猎跟投。作为领↙先的云计算创新技术↑实践者,数人云致力于为客户提供领先的企业级容器解决方╲案,帮助传统企业实现IT业务转型,更好地应对∏业务变化。数人云重点聚焦于打造轻量级PaaS平台,使用户能够在云主机、虚拟机甚至物理机上∞快速建立并稳定运行一个高扩展性的生产环境,将应用弹性做到极致。数人云操作系统基于领先的容器技术,实现了☉一站式的微服务架构集群系统,最大化地帮助客户实现应用业务在云端的快速部署,解决应用◆上云的最后一公里。