作为 2012 年推出的“大数据研发计划”的一个重大里程碑,2016 年 5 月 23 日,美国发布“联邦大数据研发战略计划”,旨在为在数据科学、数据密集型应用、大规模数据管理与分析领域开展和主持各项研发工作的联邦各机构提供一套相互关联的大数据研发战略,维持美国在数据科学和创新领域的竞争力。
该计划提出了以下 7 大战略:
(1) 充分利用新兴的大数据基础和技术,创建新一代能力
不断增加对下一代大规模数据采集、管理和分析的投资有助于各机构逐渐适应和管理规模和复杂性日增的数据,并利用这些数据创建全新的服务与功能。
在新方法开发方面,计算与数据分析技术的进步将改进复杂数据处理、简化可扩展并行系统的编程;计算机科学、机器学习和统计学的发展将提升未来数据分析系统的灵活性和可预测性;社会计算研究将帮助人类协调计算机无法胜任的任务;新的数据交互和可视化技术将改善“人类-数据”接口。
(2) 探索与理解数据及知识的可信度,实现突破性科学发现和更好的决策,开展有把握的行动
为确保源自大数据的信息和知识的可信度,需要开发合适的方法来捕获数据的不确定性并确保结果的可再现性和可复制性。提升数据驱动型决策的透明度需要开发相应的技术与工具,而对数据分析结果进行解释并由此采取适当行动可能需要人力的介入。
(3) 创建并改善科研网络基础设施,实现大数据创新,为各机构完成其任务提供支持
需要制定一份协调的国家战略来确定对安全、先进的网络基础设施的需求,支持对海量数据包括物联网产生的大量实时数据流的处理与分析,并实现个人隐私保护。共享的基准、标准和指标对网络基础设施生态系统的良好运作至关重要。
(4) 通过促进数据共享与管理的政策提升数据的价值
保证对更多数据的可持续访问,以实现数据的价值并最大化其影响。促进数据共享和相关基础设施的互操作性,可以提升现有数据的可获取性和价值,提高联合数据集分析能力。开发数据共享的最佳实践和标准以及能改善数据易用性和数据传输的新技术,可以提升资源使用效率。
(5) 针对隐私、安全和伦理,理解大数据的收集、共享与使用
隐私、安全和伦理是大数据创新生态系统重点关注的问题。隐私关系到数据收集者和提供者如何看待和管理信息,安全涉及个人信息,其重点是数据保护,伦理方面,数据分析有可能导致差别对待并波及民事权利。应制定新的政策来保护隐私和明确数据所有权,开发数据安全评估技术与工具,以确保高度分布式网络中的数据安全。
(6) 完善大数据教育与培训的国家布局,满足对高级分析人才的需求,并帮助更广泛人群具备分析能力
要满足对大数据人才日益增长的需求,需要制定综合性教育战略,确定数据科学家的核心教育需求,为下一代的数据科学家提供资金支持,壮大数据科学员工及研究人员的队伍。随着科学研究产生的数据日益增多,领域科学家需要通过与数据科学家合作、参与短期课程培训等进一步提升自身的数据科学技能。数据科学教育研究应探索数据素养的概念、课程模式,以及各阶层需要学习的数据科学技能。
(7) 在国家大数据创新生态系统中建立各种联系并加强这些联系
建立可持续的机制,提高联邦各机构合作开展大数据研发的能力。可能的机制包括:创建跨机构测试床,帮助各机构合作开发新技术并将研发成果转化为创新能力;制定相关政策,实现快速、动态的跨机构数据共享;形成关注重大挑战应用的大数据“基准中心”,确定达成美国关键优先领域的目标所需的数据集、分析工具和互操作性。