数据旅游机器学习

来源:www.xysxzl.com时间:2021-04-12 10:03

大数据 旅游

一. 背景

一.1 数据挖掘和大数据分析行业背景和发展趋势。

数据旅游机器学习

但新常态对旅游行业却是速度加快的,为国内旅游业提供大数据解决方案,旅游业也在“新常态”下迎来了升级的挑战和变革的机遇,旅游大数据的解决之道,旅游行业有行业广、规模大、移动性强的特点,形成旅游大数据生态,促进旅游业的转型升级,新常态对于一般的经济部门是经济速度放慢、人均GDP增速减小,在于整合国内多途径的大数据源,很多传统行业在调整结构,因此更加依赖大数据,当前。

一.3 数据挖掘与大数据分析科研平台建设的必要性。

数据挖掘与大数据分析是以计算机基础为基础,科研平台不仅要提供基础的编程环境,因此该学科对于科研平台具有较高的专业要求,其主要技术涉及概率论与数理统计、数据挖掘、算法与数据结构、计算机网络、并行计算等多个专业方向,还要提供大数据的运算环境以及用于科学研究的实战大数据案例,这些素材的准备均需完整的科研平台作为支撑,以挖掘算法为核心,紧密面向行业应用的一门综合性学科。

需要建设一个便利、操作简易、算法全面、可视化的大数据科研平台是非常有必要的,这些专业的在使用科研平台时的侧重点各不相同,对算法的使用也不相同,在我国高校的专业设置上与数据挖掘与大数据分析相关的学科专业包括:计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息、旅游以及公共卫生等,使用人员层次水平也不相同,目前,因此。

二. 数据挖掘与大数据分析科研平台总体规划。

二.1 科研平台规划

科研平台建设的基本原则是科研为主,同时为教学实验提供部分计算资源及安全资源,系统在授权范围内共享科研系统的计算资源,提高教学实验的真实性。

项目的总体架构如图1所示。

图1.总体架构图

上层集成便于操作的大数据科研应用系统,系统整体由千兆核心交换机作为核心节点,集成10TB大数据案例集及可拖拽的数据算法和可视化算法,并以两个千兆接入交换机作为科研与实验环境的交换节点,科研环境由我司开发的商业Hadoop集群为基础。

二.2 科研平台功能规划

既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点,本科研平台针对数据挖掘有大数据分析研究内容,兼顾科研与教学的需求。

大数据资源规划

内置商业级数据资源,具有数据资源授权管控功能,按常见科研分类规划数据资源,可以直接用于科学研究。

大数据分析功能规划

系统提供MapReduce以及Spark等大数据挖掘功能,系统具有完整的管理调度功能,建设以商业版Hadoop为核心的大数据分析平台。

硬件资源功能规划

系统具有24个Intel Xeon E5 CPU计算能力,提供超过40TB的存储能力以及1T以上的内存,可满足1000任务共时计算内能,方便扩充。

三. 数据挖掘与大数据分析科研平台建设方案。

三.1 大数据科研平台设备架构

图3.设备架构

三.1.1 主节点和备份主节点

主节点负责整个分布式大数据平台的运行,每个文件有哪些分块及每个分块保存在哪个计算上,使得分布式大数据平台仍然能够正常运行,主节点始终在内存中保存整个文件系统的目录结构,每个目录有哪些文件,并将这些子任务分配到各个计算节点上,主节点还负责将作业分解成子任务,备份主节点在主节点发生故障时承担主节点的各种任务,用于处理读写请求,同时。

三.1.2 管理节点

管理节点用于管理整个分布式大数据平台,可进行节点安装、配置、服务配置等,提供网页窗口界面提高了系统配置的可见度,而且降低了集群参数设置的复杂度。

三.1.3 接口节点

并可以用其他数据分析工具做进一步处理,与外界进行数据交互(如连接关系型数据库),终端用户通过接口节点连接和使用分布式大数据平台,提交任务并获得结果。

三.1.4 计算节点

每个计算节点周期性地和主节点通信,计算节点是系统中真正存储数据和做数据运算的节点,分布式大数据平台包含了多个计算节点,计算节点还维护一个开放的socket服务器,让客户端代码和其他计算节点通过它可以读写数据,还时不时和客户端代码以及其他计算节点通信,这个服务器还会汇报给主节点。

三.2 大数据科研平台底层架构

大数据科研平台低层架构以我司自主研发的商业版Hadoop为基础架构,包含和大数据分析、数据挖掘、机器学习等功能模块,并以HDFS以及Hbase作为存储基础。

图2. 软件架构

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统,非常适合大规模数据集上的应用,HDFS能提供高吞吐量的数据访问,来实现流式读取文件系统数据的目的,它和其他的分布式文件系统的区别也是很明显的,它和现有的分布式文件系统有很多共同点,适合部署在廉价的机器上,HDFS是一个高度容错性的系统,HDFS放宽了一部分POSIX约束,但同时。

HBase不同于一般的关系数据库,另一个不同的是HBase基于列的而不是基于行的模式,HBase是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于BigTable的能力,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”,它是一个适合于非结构化数据存储的数据库,HBase是Apache的Hadoop项目的子项目,就像Bigtable利用了Google文件系统(所提供的分布式数据存储一样。

ApplicationMaster 承担了以前的 TaskTracker 的一些角色,这个实体控制整个集群并管理应用程序向基础计算资源的分配,ResourceManager 还与 ApplicationMaster 一起分配资源,ResourceManager 承担了 JobTracker 的角色,ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础 NodeManager(YARN 的每节点代理),与 NodeManager 一起启动和监视它们的基础应用程序,YARN分层结构的本质是 ResourceManager,Yarn是Hadoop2.0的MapReduce 框架,在此上下文中。

Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce算法,Spark是UC Berkeley AMP实验室所开源的类Hadoop MapReduce的通用的并行计算框架,从而不再需要读写HDFS。

三.3 科研平台的功能

三.3.1 科研项目管理

在科研平台中,后期还可以调整算法和基于新的数据资源进行计算,计算项目中也包括了算法组件、算法流程和数据集,一旦设计完后,从技术角度来说,包括了计算项目建立、计算项目维护、计算项目设计、计算项目运行和结果可视化等几个环节,科研计算是以计算项目来保存的,就可用于计算。

形成一次训练多次使用的算法实现,可以训练出算法模型,在新的计算项目中使用已经训练好的模型进行数据的预测,计算项目完成后。

三.3.2 平台内置数据集

尤其是经过数据清洗和治理后的高质量数据,如何获取到海量高质量大数据资源是最大的难点,目前在互联网等渠道是很难找到科研工作所需的数据源,在科研工作中。

为高校的科研工作提供优质数据资源:,通过外部的资源,数据超市平台利用以下模式。

直接与数据所有权拥有者进行灵活的商务沟通,获得科研的数据使用授权;,1)通过商务合作的模式。

2)邀请行业内优质的第三方数据服务提供商入驻数据超市平台;。

3)通过数据采集的方式,经过数据寻源、采集、治理、清洗后,引入具有公开版权的数据资源;。

所有引入数据都会经过数据工程师的严格审核,可以直接用于数据计算,保证数据的清洁和质量。

如平台内置的专利数据,数据超市直接提供了原始的数据,包括了国内近2000万各类商业数据,可以打通其他的行业数据,用于深层次的数据分析和经济预测,并且不断更新,可以直接用于旅游各方面的科学研究,有别区目前行业提供的数据库。

三.3.3 科研数据上传

然后把本地数据文件上传到数据表中,科研老师已有的数据可以上传到平台参与数据计算,老师可以在平台上建立数据表,也可以维护外部的JDBC数据源,平台会把外部数据自动抽取到平台中进行计算和预测。

三.3.4 集成算法组件

为了便于科研老师快速进行科研数据的加工、分析和计算,只需要拖拽绘图完成即可进行计算,数据超市平台集成了50多种通用大数据算法组件,包括回归算法、分类算法、聚类算法、关联规划算法、推荐算法、预测评估、数据预处理算法、机器学习等,所有的算法无须重新编程,如下图:。

算法组件经过配置可以实现强大的自定义计算功能和效果,调整后的模型可以完成老师需要的数据分析和预测。

三.3.5 科研平台可视化功能

根据需要展示对应的纬度,一键选择,一键切换,可按使用者需求展示大数据之美,提供20余种可视化展示模式,并可以一键生成高质量PNG文件,保存到本地后可用于科研报告和论文等。

四. 平台数据集清单

包括各类标准科研数据等,科研平台为方便用户快速开展科学研究、生成科研数据报告,平台提供了一些通用的数据集。

分为多个数据包,平台也内置了数百款可选数据集,总量近10TB,并且随商务和采集工作推进,仍在不断增加中。

五. 定制数据服务

数据引入后,可以直接引入数据超市,由老师来进行使用,根据科研老师的需求,数据超市平台提供数据采集和商务合作等定制数据引入模式。

可以直接通过数据超市内的数据定制模块提出数据需求,可以通过数据超市平台进行数据的准备,经数据超市平台管理员汇总后,如老师需要旅游服务评价类数据进行服务情况的分析和预测,交给老师进行使用。

六. 科研平台算法清单

平台集成的算法包括72种,引入平台后完成了分布式优化,全部来自科研网站,经过了商业机构的验证,可以高效执行,详细如下表:。

  • 旅游景区食品安全论文
  • 中小学生全国竞赛白名单公布
  • 北京详细景点攻略北京旅游必去景点亲历游记
  • 春运怎么才能买到
  • 郴州市2017国民经济社会发展统计公报
  • 西沙旅游
  • 皮鞋脚后跟怎么办
  • 旅行什么
  • 公务员考试申论完美作文四部曲环球网
  • 中国旅游历届主题宣传口号
  • 精品行程推荐