云天励飞首席科学家王孝宇这个国际开源AI平台让你秒变算法专家

  • 手机
  • 2024年10月08日
  • 近日,由云天励飞首席科学家王孝宇博士等多位国际AI科学家共同发起的AI基础软件平台YMIR正式发布。 什么是 YMIR? YMIR(挖米匠),是一个数据驱动的开源算法训练平台,能够做到以无代码开发的方式,实现数据管理、数据挖掘、模型训练、模型验证等功能。YMIR遵从Apache 2.0 许可协议,商用及个人使用均免费。 YMIR是由国际AI科学家共同发起的AI基础软件平台。发起成员包括

云天励飞首席科学家王孝宇这个国际开源AI平台让你秒变算法专家

近日,由云天励飞首席科学家王孝宇博士等多位国际AI科学家共同发起的AI基础软件平台YMIR正式发布。

什么是 YMIR?

YMIR(挖米匠),是一个数据驱动的开源算法训练平台,能够做到以无代码开发的方式,实现数据管理、数据挖掘、模型训练、模型验证等功能。YMIR遵从Apache 2.0 许可协议,商用及个人使用均免费。

YMIR是由国际AI科学家共同发起的AI基础软件平台。发起成员包括:前Snap计算机视觉主席,云天励飞首席科学家王孝宇;美国硅谷NEC 实验室媒体分析部主管、UCSD教授,印裔科学家Manmohan Chandraker;前谷歌、亚马逊、Snap机器学习研究员,硅谷初创公司Heali联合创始人、首席AI官,法裔科学家William Brendel等。

云天励飞首席科学家 王孝宇

美国硅谷NEC 实验室媒体分析部主管、UCSD教授 Manmohan Chandraker

前谷歌、亚马逊、Snap机器学习研究员,硅谷初创公司Heali联合创始人、首席AI官 William Brendel

YMIR 的五大特点?

YMIR是一个高度自动化的AI模型开发产品。其将模型开发行为抽象为数据收集、模型训练、数据挖掘、数据标注等基本操作,并形成标准流程,提供一站式服务。实际使用时以图形化的交互界面完成数据与模型不断更新迭代的完整流程。由此,YMIR极大降低了AI模型研发的技能要求,不再要求从业者具备专业的AI技能。只要对系统操作员加以数据集、模型训练、模型迭代等概念知识的少量培训,其便具备模型开发的能力,因而对人工智能向各行各业的普及具备重大意义。

针对具备一定专业能力的算法开发人员,YMIR平台提供开放API,使用者可籍此将自己开发的模型训练、数据挖掘、数据标注、模型诊断等工具对接YMIR开放接口实现端到端的一站式模型开发。

YMIR 主要以数据为中心,集成了数据和模型版本控制,同时引入工作空间等概念,实现多个模型开发任务的并行快速迭代,为模型的大规模批量生产提供平台性支持。

YMIR V1.0 新增模型生产项目管理

1、傻瓜式迭代操作流程(保姆式模型开发流程指引)

YMIR 新版本与上一版本相比,引入项目管理式的工作流程,使AI模型的生产进一步标准化。与老版本相比,模型生产操作员上手时间大幅缩短,并通过标准化的生产方式实现AI模型品控。

在以项目管理为理念的研发制式下,模型研发项目被切分为几个关键模块。每个模块对应一个任务,这些任务具备前后依赖关系形成研发流程。只有流程前方任务完成后,流程后方任务才能被启动。如下图所示,当一个模型研发项目被创建后,即能看到页面上方的任务迭代流程指引,清晰说明当前步骤与下一步骤,仅需按照指引点击鼠标操作即可,操作对小白用户十分友好、非常银杏化。

账号登录后即可见项目创建页面

项目创建成功后的页面

项目创建后的任务流程指引页面

2、数据集自动整理

在AI模型开发的周期里,模型迭代占据90%以上的时间。而数据的迭代是模型迭代的关键部分,数据也是AI研发过程中最为重要的资产,因此数据更新的追踪和管理显得尤为重要。能重现数据的更新过程,便能重复模型生产过程。

YMIR新增数据集版本管理功能,能自动生成数据集版本并记录每次对数据集的操作。一方面,与上一版本相比,使用者无需通过手动命名数据集对不同功能数据集进行区分,系统会自动进行数据整理,归入训练集、挖掘集、测试集等,并对这些数据集的更新进行版本控制。数据集和模型的一一对应关系亦被记录下来。此功能对有大量数据挖掘的模型研发十分友好,减少数据集版本的冗余,提高数据集管理效率。YMIR用户再也不用对着上百个雷同的数据集无从下手。另一方面,模型的研发过程被完整的记录下来,可轻易重新生产模型。传统的算法研发人员工作交接涉及,数据集、模型、训练流程等多个复杂环节的交接,很难重复之前的工作。而在YMIR平台上产生的研发过程,尤其是数据集的迭代均有完整追踪,基本不需要交接流程,企业再也不用担心员工突然的离职。

数据集版本管理页面(1)

数据集版本管理页面(2)

模型迭代版本管理页面

YMIR V1.0 无缝对接开放免费的标注工具LabelFree

数据标注的质量与效率直接影响模型训练的质量与效率,一个好的标注工具可以让模型训练事半功倍。LabelFree是一个开放的、可私有化部署的高性能数据标注系统。其操作简单、数据可靠,为算法服务提供可靠的底层数据支撑。

LabelFree项目管理页面

1.大幅提升标注质量

LabelFree支持在数据标注的早期阶段对标注质量进行严格把控。其支持多角色用户管理功能,当角色为质检员时,可对标注结果进行检查与复核。

2.大幅提升标注效率

LabelFree可大幅提升个人标注效率。其支持大量标注步骤快捷键操作,通过人机交互的优化显著提升标注效率。

快捷键使用说明

LabelFree亦支持团队标注。其支持多人协作完成同一标注任务,并实现任务自动分发。

同时,LabelFree提供一键标注服务,帮助需要的个人及企业用户在最短的时间内获取质量可靠的标注数据。

3、可靠的数据安全管理

数据的完全私有化管理,最大程度的保护数据安全。数据集管理服务依托具有弹性伸缩能力的原生对象存储,为机器学习、大数据分析平台提供高性能、高可用的数据基座。

4、完全的免费开放平台

LabelFree平台对数据集大小、用户数量、项目数量等功能均无限制,用户可在平台上进行各种自定义的数据标注任务并获得良好的体验。

重磅!挖米要开直播啦!手把手教大家使用 YMIR,小白也能成为算法工程师!

欢迎大家试用新版本,接受所有吐槽哦~部署或试用过程中有任何问题都欢迎联系小助手“挖米匠”(微信ID:itsymir)。


猜你喜欢