对外交流
当前位置: 首页 > 对外交流 > 交流动态

《第七届全国高校大数据基础及实践师资培训》

吴莉霞

2017年7月27日—8月1日,我很荣幸地参加了由北京普开数据技术有限公司承办的第七届全国高校大数据基础及实践师资培训。在这次培训的过程中,让我开阔了眼界,我感觉到从未有过的充实。经过数天培训,普开数据技术有限公司通过研讨会的方式让高校教师进行了讨论,通过研讨会让我了解了目前国内大数据专业申报的主要情况、了解了大数据专业的人才培养方案、大数据专业的主要课程设置以及大数据实践环节操作所需环境。下面将本人参加此次培训内容进行简单的介绍。

一、大数据的发展现状

1.大数据背景:网络上海量视频、图片、文本、语音及社会关系数据涌现,每个人都是大数据的“生产者”,大数据对各行各业产生了有用的价值和一定的影响。

2.大数据基本概念:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。具有数据量大、类型繁多、价值密度低、速度快时效高特征。

大数据=“海量数据”+“复杂类型的数据”

3.大数据的战略意义:不在于掌握庞大的数据信息,在于对这些含有意义的数据进行专业化处理。在于提高对数据的“加工能力”和实现数据的“增值”。

二、大数据带来的机遇和挑战

大数据案例:金融(阿里金融)、政府(智慧交通)及医疗健康案例。

三.大数据技术:包括数据的展现与交互、数据计算、数据存储、数据采集、基础框架支持。

1.Hadoop:是Apache开源软件基金会开发的运行与大规模普通服务器上的大数据存储、计算、分析的分布式存储系统和分布式运算框架。Hadoop由三部分构成:分布式文件系统HDFS,资源分配系统Yarn及分布式运算框架MapReduce。

2.HDFS:为了做到可靠性创建了多分数据块的复制,并将他们放置在服务器群的计算节点中,MapReduce就可以在它们所在的节点上处理这些数据了。HDFS适合存储并管理PB级数据、处理非结构化数据、注重数据处理的吞吐量、应用模式为:write-once-read-many存取模式。

3.HBase核心功能模块和基本概念

4.Java爬虫Webcollector

5.Servlet和JSP应用

6.YARN架构设计和核心概念

7.给予电商日志数据的MapReduce高级编程

8.Sparka安装不熟与运行模式

9.基于电商日志数据的Spark SQL开发

10.流式计算组件Spark Streaming使用

通过研讨会了解到了大数据专业建设及课程设置的大体情况,以后还需进一步学习来提高自己的知识面和技能,尽可能将自己所学用到教学中。