近日,世界领先的高质量训练数据提供商澳鹏 Appen Limited(ASX:APX)发布了第七份《人工智能与机器学习现状年度报告》。报告显示,各企业AI预算金额较去年大幅增长55%;同时,企业更加关注AI项目的实际实施,AI项目的负责人正在从企业决策者转变为技术骨干。“人工智能”不仅仅只是一个概念,如今已经成为许多企业寻求新机遇的突破口,亦或日常运营中不可或缺的角色。
2021澳鹏Appen《人工智能与机器学习现状年度报告》2021全球AI市场5大发展趋势
“七年前,当我们第一次开始调研AI与机器学习现状时,全球企业都迫不及待想要启动AI项目,但并未取得实质性进展。如今,AI已被视为企业生存的核心,而相关调研结果也证实了这一点:企业增加了AI预算和负责该领域的技术人员,同时对外部训练数据提供商也更加依赖。”
-- 澳鹏Appen首席执行官 Mark Brayan
1. AI发展的瓶颈:高质量数据
研究机构O'REILLY最近发布的一份调查报告显示,人工智能应用的两大瓶颈:一是缺乏技术熟练的员工;二是缺乏数据资源(或数据存在质量问题)。事实上,大多数AI项目迟迟未能投入到“实战”阶段,也反映出在AI研究过程中,数据科学家在获取高质量数据时所面临的挑战和成本。此时,寻求外部专业机构的支持就显得尤为重要。
2. 更精准的AI应用场景
越来越多的AI企业已经开始缩小其AI模型所针对的业务范围,并将目标具体化。例如,Appen最近参与的几个该类型的AI项目:
商务术语:一家公司构建了一个能对商务术语提出改进建议的AI模型,而这些商务术语之间仅有着非常细微的差异;
身体动作:一家公司在研究个人训练自动化模型时发现,动作轮廓会随着年纪增长而改变,需要补充老年人翻跟斗的视频并作相关标注;
小语种:新冠疫情的实时信息需要在全球内发布,但翻译技术并不支持所有语言,Appen开展了针对罕见语种的数据采集和标注工作,比如达里语、丁卡语及豪萨语等。
3. 从以模型为中心向以数据为中心转变
是优化代码,还是提升训练数据质量?这是过去几年间AI行业最为关注的前沿问题之一。以模型为中心的AI是指利用现有数据来构建模型,以弥补任何无关因素和不准确性,而以数据为中心的AI则重点关注数据体量和质量。目前可以看到AI行业从以模型为中心向以数据为中心转变的趋势。
4. 训练数据管理的新需求
随着市场对于训练数据需求的日益增加,为规范化管理数据训练的工作流程制定管理框架,就变得尤为重要。有效的数据管理框架应包含以下关键点:
用于追溯的版本控制
数据安全协议
访问控制
数据传输监控
合作协议
5. AI辅助数据标注愈发火热
自动化机器学习技术的应用日益增加,AI企业也已开始利用人工智能来辅助进行数据标注,以节省时间和降低成本。以下是数据标注自动化的3种主要类型:
预标注:先由AI模型对标注进行合理猜测,然后再由人工标注员进行检查和更正;
快速标注:利用AI功能来节省标注员的标注时间,如澳鹏Appen人工智能辅助数据标注平台的自动补全、一键贴合等功能;
智能验证器:AI对标注员的数据输出进行验证,如标注不在阈值范围内,则会作出提醒。
2021澳鹏Appen《人工智能与机器学习现状年度报告》要点
“高质量的数据是每一个AI项目成功实施的基础,再多的算法调整也无法抵消不良数据带来的后果。企业已经意识到,为了更快地取得更好的成果,寻求第三方高质量数据是必要的。”
-- 澳鹏Appen首席技术官 Wilson Pang
1. 新冠疫情的影响
2020年,由于新冠疫情的影响,不同规模的企业都在加速推进AI战略,并且表示将在2021年继续保持这种势头。其中,和外部数据提供商合作的企业更容易快速发展其AI项目,成功率约为其他企业的两倍。
2. 决策负责人的转变
2021年,AI项目决策和实施的负责人中,技术人员的比例显著提升。只有39%的企业依然由高层管理人员负责AI项目,低于去年71%的比例。
3. 预算增加
AI预算金额范围从50万美元至500万美元不等,整体同比去年增长55%。其中,只有26%的企业在AI项目上的预算低于50万美元。
4. 对数据的关注
绝大多数企业已和外部训练数据提供商达成合作,对AI项目进行大规模部署和更新,而他们相比其他企业在AI部署方面取得领先的概率亦高出50%。
欲了解完整版2021澳鹏Appen《人工智能与机器学习现状年度报告》,请至澳鹏Appen官网或官微下载。