正文内容 评论(0)
我们正值数据井喷时代,据 IDC报告显示,目前全球数据量正以平均年增长率50%的速度增长,预计到2025年全球数据总量将达到175ZB。1ZB相当于1万亿GB,假设每一个比特是一枚3毫米厚的1英镑硬币,一摞硬币组成的1ZB将会有2550光年那么高,可以让你到达最近的恒星系统半人马座阿尔法星600次。
在数字化浪潮下,企业正在因为技术创新的应用产生海量非结构化数据,如图像、语音、视频等,据统计80%的企业数据由非结构化数据组成,具有规模海量且分散、形式多样、关系复杂等显著特点。企业机构每年因糟糕的数据质量而造成的平均损失达到1290万美元。
“以数据为中心”的时代已然来临,人工智能和机器学习领域国际最权威学者之一吴恩达在今年反复强调了这个观点。他认为,整个AI行业正在由以模型为中心的开发模式,向着以数据为中心的开发模式发展,人们应该以数据为中心来开发机器学习系统。
决定AI模型效果的影响因素有两个:数据和算法。现实中的数据集往往都是有噪声的,对于有噪声的数据,一种是修改算法,提出能处理噪声、有泛化能力的算法,显然难度较大;还有一种修改数据集,提升数据集的质量。用工具链和系统化的方法来提升数据质量,通过不断地喂给高质量数据,让模型保持轻微调整,这会使模型的效果批量提升成为可能。
可以看到,更好的数据可以带来更优的性能提升。Gartner预测到明年,70%的企业机构将通过指标来严格追踪数据质量水平并将数据质量提高60%,以此显著降低运营风险和成本。
格物钛智能科技是一家专注打造人工智能新型基础设施的初创企业,定位为面向机器学习的数据平台,致力于以数据为中心的开发方式,帮助AI开发者解决日益增长的非结构化数据难题。借助非结构化数据管理平台TensorBay和开源数据集社区Open Datasets,机器学习团队和个人可进行数据管理、查询、协同、可视化和版本控制等高效操作,降低高质量数据获取、存储和处理成本,加速AI开发和产品创新,释放海量非结构化数据的商业价值。
据悉,格物钛正在向全球AI创新企业及团队、前沿高校实验室和机器学习开发者社区提供数据平台支持,涵盖自动驾驶、智慧零售、智慧物流、智慧医疗、视频直播等各业务场景。以自动驾驶为例,格物钛TensorBay可以帮助企业把数据准备过程从原来的以月为单位缩短到以小时为单位。某物流企业使用TensorBay短短数月,模型识别率显著提升30%之多。
“TensorBay是我们AI开发流程中的关键部分,不同于传统的本地文件系统管理模式,它提供了一个全新的云端数据管理解决方案,让我们看到了AI非结构化数据管理的全新未来,”格物钛获得客户算法负责人高度评价,“强大的数据管理平台能够和我们的开发流程无缝衔接,为我们的数据准备过程提供了非常便利的功能和开发者工具。”通过优化现有的AI项目工作流程来提升数据质量,从而加速AI产品迭代开发,格物钛这一创新未来将在更多行业场景中产生长远价值。