旅游景点现状分析基于旅游网站评论数据

来源:www.xysxzl.com时间:2021-02-22 19:18

国内旅游网站研究现状

文档格式:PDF|

页数:86页|

浏览次数:411|

上传日期:2019-|。

文档星级:。

万方数据

目录 IV 目录 第一章 引言 ............................................. 1 第一节 研究背景及意义 ........................................... 1 一、 研究背景 ........................................................... 1 二、 研究意义 ........................................................... 2 第二节 国内外研究综述 ........................................... 3 一、 国外研究现状 ....................................................... 3 二、 国内研究现状 ....................................................... 4 第三节 研究方法及基本思路 ....................................... 4 一、 研究对象 ........................................................... 4 二、 研究方法 ........................................................... 5 第二章 相关技术及理论 ................................... 6 第一节 数据预处理技术与文本表示 ................................. 6 一、 数据预处理技术 ..................................................... 6 二、 文本表示 ........................................................... 7 第二节 文本分析算法 ............................................. 8 一、 Jieba 分词 ......................................................... 8 二、 word2vec 工具包.................................................... 11 三、 主成分分析(PCA) ................................................... 12 四、 支持向量机(SVM) ................................................... 13 第三章 去哪儿网和携程网评论数据分析 .................... 15 第一节 数据来源 ................................................ 15 第二节 描述性统计分析 .......................................... 15 一、 分网站统计评论数 .................................................. 15 二、 分景区级别统计热度 ................................................ 16 三、 分省和直辖市根据评分绘制热力图 .................................... 16 第三节 文本分析 ................................................ 18 一、 情感分析 .......................................................... 18 万方数据。

目录 V 二、 知识发现 .......................................................... 22 第四节 KANO 模型与 IPA 分析法 ................................... 25 一、 KANO 模型 ......................................................... 25 二、 IPA 分析法 ........................................................ 29 三、 旅游景区服务质量提升模型 .......................................... 30 第四章 结论及展望 ...................................... 35 第一节 结论 .................................................... 35 第二节 建议与展望 .............................................. 36 参考文献 ................................................ 37 附录 ................................................... 41 附录 A 爬取网站评论代码 .......................................... 41 附录 B 分析网站评论代码 .......................................... 48 致谢 ................................................... 79 万方数据。

意思是说把 Jieba 自带的这两万多条词语,Trie 树又称字典树,然而不能处理词语的歧义问题,但是这个 Trie 树是有带有名字的前缀树,( ( 二) ) 原理 1. 生成 Trie 树结构及前缀字典,放到这个 Trie树中,将拥有同一个前缀的词语归一到一棵树下,第二章 相关技术及理论 8 第二节 文本分析算法 一、 Jieba 分词 ( ( 一) ) 特点 1. 三种分词方法 (1) 精确模式:尽最大努力把句子最精确地切开,Trie 树构造方法: (1) Trie 树的根节点为空,形成有向无环图(DAG) 生成 Trie 树结构,里面可以组合成词的所有的词语都扫描出来,3. 自定义字典 Jieba 自带了名 dict,(3) 搜索引擎模式:在第一种分词方法精确模式的基础上,虽然Jieba 具有新词识别的能力,2. 繁体分词 若文本中包含繁体字,Jieba 分词可自动与简体字相应识别,弥补 Jieba 词库里没有的词,包含了词条出现的次数和词性(Jieba 开发者根据人民日报语料等资源训练多次得出来的),对相对长的词语进行再次切分,使用者可以根据自己的需求添加自己自定义的词典,一种十分常见的数据结构,但自行添加新词构成的自定义的字典可以提高正确率,比较适合大型的搜索引擎分词,主要可以用于在一个包含字符串的列表中进行字符串的匹配,也就是说如果几个词语的前面几个字一样,(2) 全模式:针对每一个句子,里面有两万多条词,这就说明他们具有相同的前缀,一般文本分析有的 比较多,txt 的词典,不具有任何含义,万方数据,扫描速度非常快,防止出现偏差,它的核心思想是,大大减少查询的时间复杂度。

所有词语中以‘他’开头的单词的第二个字构成的集合作为‘他’子树下的第一层叶节点,以字符‘他’开头的词语挂在以‘他’为根节点的子树下,句子中以该键的单词或词在句子中的位置以及可能与之组成词语的结束位置,即把句子中所有可能成构成词的情况词形成有向无环图,首先查找句子中已经切分好的词语,其中字典的键是单词或词在句子中的位置,查找关键词的第二个字母或词,(2) 获得要查找关键词的首字母或词后,对该句子反向计算(从右往左)最大概率(某些资料中可能是从左往右计算,(3) 从根节点到某根节点或叶节点,Trie 树查找过程: (1) 从根结点开始进行第一次搜索,对每个句子 DAG 是以 python 中字典结构形式进行存储,根据该首字母或词选择相应的子树,词典中的所有词语的第一个字构成的集合,且转到该子树的叶节点继续进行检索,寻找基于词频的最大切分组合 在动态规划中,就把在给定的词典中出现频率最小的词语的频率记为该词语的频率,记为第一层叶节点,基于动态规划寻找最大概率路径的方法,关键词包含的所有字母或词已被获取,其他每个节点都只有一个字符,即作为该节点相对应的字符串,2. 利用动态规划获得最大概率路径,且继续搜寻对应的子树进行检索,对所有的词语计算词语出现的频率(次数与总数的比值),字典中相应的值存放的是,第二章 相关技术及理论 9 (2) 除根节点外,DAG 是由生成的前缀字典来构造,则读取存储在该结点上的全部信息,但 Trie 树的主要缺点是占用相当大的内存空间,句子后面的才为主干,若没有某词语,由汉语构成的句子的重心常常落在后面,路径上经过的任意个数的字符连接起来,即完成查找,2014 年正式提出构造一个前缀集合用以解决该问题,(3) 在对应的子树上,反向计算,形成有向无环图,(5) 直到在某个结点处,而且通常情况下,如,以此类推,(4) 循环进行第三步,其他操作均可以类似处理,经实验,其次,反向是由于,即落在右边,形容词太多,所以,正确率要高于正向万方数据。

基于隐马尔可夫模型预测分词 Jieba 自带的词典 dict,(3) 根据第二步中的状态序列获得分词结果,最终得到最优的分词结果的状态序列,一条最优路径对应一个状态序列,利用隐马尔可夫模型进行分词,可以基于 Forward-backward 算法解决有效计算这一观测序列出现的概率,分词的结果为状态序列,分词结果为状态序列,其实就是用动态规划求解隐马尔可夫模型预测问题,Baum-Welch 和 EM 算法解决如何求模型参数以使观测序列的概率尽可能的大,状态初始概率为每个词语的初始状态的概率,Jieba 中的状态转移概率,可以基于 Viterbi 算法解决寻找满足这种观察序列意义上最优的隐含状态序列,Jieba 分词中使用的是 BMES四个状态来标记,根据隐马尔可夫模型中观测值之间的独立性假设,待分词的句子为观测序列,最后获得最大概率路径,对应的值是当前词到某个已经录入词典中的词的概率值求对数后的值,即用动态规划获得概率路径最大,隐马尔可夫模型是一个简单强大的模型,也就是每个词处在词语中的四种可能的状态,根据语料信息训练出隐马尔可夫模型相关的模型,状态发射概率,对于分词状态标记,即只取决于当前状态的观测值发生的概率,将分词问题可以视为一个序列标注问题,采用了隐马尔可夫模型,3. 针对 Jieba 自带的词典中未录入的词语,再由获得的状态序列,从而得到最大概率的切分组合,句子为观测序列,过程如下: (1) 根据隐马尔可夫模型获得相应的五元组,在 Jieba 中是主要涉及第二个问题,txt 中没有录入的词语,也就是最优路径,发射概率,(2) 利用 Viterbi 算法,然后经Viterbi 算法进行求解,即概率问题,(2) 预测问题,输出分词结果,在实际中主要用于解决三类问题: (1) 评估问题,B、M、E、S 分别表示某字位于词语的开始位置(Begin)、位于词语的中间位置(Middle)、位于词语的结束位置(End)、该字是单字成词(Single),也即预测问题,是一个嵌套的词典,类似于逆向的最大匹配),第二章 相关技术及理论 10 计算,可以基于极大似然估计的方法,(3) 学习问题,依次类推,即解码问题,其中,此时,万方数据。

以达到对所有自变量数据进行全面分析的目的,即构造的模型使根据当前词与获得上下文词语的概率最大,变量维数多的样本数据无疑会为研究提供了丰富的信息,再利用随机梯度上升法获取目标函数最大值,也利用随机梯度上升法获取目标函数最大值,然后用随机梯度上升法获取目标函数最大值,如果对每个自变量分别进行分析,三、 主成分分析(PCA) 在许多领域的研究与应用中,主成分分析的本质就是“降维”,收集大量的数据以便进行数据分析,盲目减少自变量会损失很多维度信息,由这棵树构造目标函数,使获取上下文词语的概率最大,使变量之间的关系更加复杂,使获取当前词的概率最大,Negative Sampling的Skip-gram模型本质上利用了CBOW模型,讨论的全部变量中可能存在信息的重叠,Skip-gram 模型的输出层对应一 棵二叉树,将观测值的两个维度 x 1 和 x 2 作为一组坐标轴,因此主成分分析应运而生,3. 输出层:与 CBOW 模型输出层一样,( ( 二) ) Skip- - gram 模型 1. 输入层:仅含当前词的词向量,尽量减少原自变量包含信息的损失,再逻辑回归建立目标函数,根据逻辑回归建立目标函数,将 CBOW 模型的投影层得到的累加向量拆开,它在减少自变量的同时,将原来的高维数据转化地位数据来处理,许多变量之间可能存在相关性,只需随机抽取除当前词以外的词作为负样本,词语在语料中出现的次数作为权值,可以用较少的综合指标存储存在于各变量中的所有信息,第二章 相关技术及理论 12 Negative Sampling 则不需构造复杂的 Huffman 树,并且主成分之间相互独立,2. 投影层:与输入层结果相同,往往需要对研究问题的多个维度进行大量的观测,叶节点为所输入语料中的所有词语,若把原来的坐标万方数据,把两个变量的值点(x 1,但在一定程度上加大了数据采集的工作量和难度,分析的结果往往是孤立的,x 2 )绘制在平面上,作为它的负样本,从而生成 Huffman 树,可见所有的观测值均在一个椭圆区域内,以二维正态分布样本点来说明,而不是全面的,更为重要的是在多数情况下,然而,容易产生错误的结论,如图 2.3 所示,但是。

将距离最大间隔超平面最近的两个不同类别的样本点称为支持向量,正确分类的可信度就越高(与超平面的距离表示分类的可信度,图中中间直线表示的是训练出的一个最大间隔超平面,根据这连个点构成了两条平行于最大间隔超平面的长带,距离越远表示正确分类的可信度越高),两条长带之间的距离越大,所有的点在 y 1 轴上的方差达到最大,虚线表示由离超平面最近的两个分类中的两个点构成的平行与超平面的两条长带,说明分类的可信度越高,称这个线为最大间隔超平面,即样本的大部分信息可在 y 1 方向上获取,很容易可以看出这些这样样本点主要体现在 y 1 轴上,二者之间的距离越大,可选择 y 1 表示的主成分,将所有的数据根据对应的类别分隔在平面两侧,图 2.4 SVM 线性可分 万方数据,尝试寻找一条尽可能使所有分类分开的线,第二章 相关技术及理论 13 x 1 和 x 2 替换成新坐标 y 1 和 y 2,图 2.3 主成分分析 四、 支持向量机(SVM) 支持向量机(SVM,Support Vector Machine)是一个分类算法,将所有数据有效的分隔开,若将二维空间的点投影到一个维度上时,如下图 2.4 所示,从而达到分类的目的,使损失的信息最少,因此,其思想是。

可以直接由这个函数得到非线性变换的内积,并且把函数值利用SVM的高斯核函数进行分类,则需要确定非线性的映射函数形式、参数以及特征空间维数等问题,因此可以使得高维特征空间根据线性算法对数据的非线性特征进行线性分析成为可能,正好在低维空间中又存在某个函数等于在高维空间中的内积,利用非线性映射算法转化为高维特征空间使其线性可分,核函数包含线性核函数、多项式核函数和高斯核函数等,图 2.5 左边的图是在三维空间中,图 2.5 SVM 线性不可分 万方数据,把低维空间线性不可分的数据,那么 SVM 就不需要进行复杂的非线性变换,为利用 SVM 对线性不可分数据分类的一个简单的例子,这个函数称为核函数,SVM 采用的核函数技术能有效地解决这个问题,偏绿颜色的圆与黄色的圆中间的部分表示函数值位于中间的一类,黄色的圆表示函数值比较大的一类,但最大的问题是在高维特征空间进行运算时存在的“维数灾难”,然而如果直接在高维空间进行分类或回归,为类别三,由高斯函数随机生成的函数值,其中高斯核函数最为常用,即类别一,最外边的蓝色的圆与绿颜色的圆中间的部分即为函数值偏小的一类,分类结果如右图所示,如图 2.5 所示,即类别二,可把数据映射到无穷维,即非线性问题,通过空间变换,倘若 SVM 的求解只用到内积运算,也叫做径向基函数,第二章 相关技术及理论 14 对于线性不可分问题,大大简化了计算。

第三章 去哪儿网和携程网评论数据分析 16 图 3.1 携程网和去哪儿网评论数据占比 二、 分景区级别统计热度 在所获得的全部景区信息中,以及基于百度地图 API 绘制的全国每个省及直辖市所有景区的评论数量构成热力图图 3.3,根据不同级别景区和相应的热度绘制图 3.2,图 3.2 不同景区级别的热度对比 绝大多数游客选择旅游景点时,热力图的点均显示在各省的省会以及直辖市,根据去哪儿网的信息,很少计划去一些非 A 级景点旅游,三、 分省和直辖市根据评分绘制热力图 根据景区所属的地理位置,各省及直辖市拥有的景区数量信息如表 3.1 所示,5A 级景区的热度最高,3A 级以下的景区热度最低,归类到相应的省份或直辖市,其中 5A 级景区包含 294 个、4A 级景区包含 1480个、3A 级景区包含 853 个以及 3A 级以下景区包含 11337 个,上图情况与实际情况相符,热度值与景区级别成正比,万方数据,由此,所以,一共包含国内(不含香港、澳门和台湾)13964个景区,都会优先选择名气比较大的景区。

江苏省和山东省的评论数量并不是很多,第三章 去哪儿网和携程网评论数据分析 17 表 3.1 全国各省及直辖市景区数量 省或直辖市 景区数量(个) 省或直辖市 景区数量(个) 省或直辖市 景区数量(个) 安徽省 420 湖北省 504 陕西省 377 北京市 1152 湖南省 437 上海市 407 福建省 479 吉林省 151 四川省 596 甘肃省 176 江苏省 981 天津市 251 广东省 1038 江西省 319 西藏自治区 83 广西壮族自治区 427 辽宁省 459 新疆维吾尔族自治区 225 贵州省 229 内蒙古自治区 242 云南省 398 海南省 158 宁夏回族自治区 90 浙江省 1234 河北省 648 青海省 75 重庆市 276 河南省 550 山东省 910 黑龙江省 300 山西省 372 图 3.3 全国各省及直辖市景区评论数量热力图 由表 3.1 可知,说明尽管景区数量很多,景区评论数量位列全国第二,四川省仅有不到 600 个景区,北京市、广东省、江苏省、山东省和浙江省包含的景点个数最多,然而并没有很大程度吸引游客,具有相当大的吸引力,表明四川省的的景点别具一格,可能这就是很多人去参观的原因,都是中外闻名的景区,均含有大概 1000 多个景区,但从热力图中得知,万方数据,比如九寨沟、黄龙、峨眉山、都江堰等等。

图 3.4 游客认知情况排名前 300 位的词条 一、 情感分析 ( ( 一) ) 分词绘制情感词汇词云 从图 3.4 中已经看出词频较高的一些情感词条,图 3.4 通过评论的文本信息排名前 300 的词条,利用 word2vec 的 Skip-gram 模型得到与情感词条相近的词条,然后利用 Jieba 分词工具将评论的文本数据进行分词并且将分好词的文本利用 word2vec 进行 50 次训练,将获得的词频较高的情感词条逐一列出如表 3.2,第三章 去哪儿网和携程网评论数据分析 18 第三节 文本分析 由于通过评论获得的文本信息十分冗杂,绘制成包含所有情感词汇的词云,表明游客对景区的主体和分体认知意向比较集中,首先将所有游客的评论文本整理到一起,最后将分词的结果进行文本分析,展示了游客对景区的整体认知情况,可以发现“不错”、 “值得”、 “好玩”、 “很漂亮”、“景色宜人”、“景区”、“项目”、“文化”、“历史”等词条在图中显示比较明显即词频很高,而且对景区的自然类意向和人文类意向感知度也比较高,从而获得比较全面的情感词汇,得到词向量为 100 维的 Skip-gram 模型,如图 3.5所示,万方数据。

第三章 去哪儿网和携程网评论数据分析 19 表 3.2 词频较高的情感词条 词条 词频 词条 词频 词条 词频 词条 词频 不错 662995 值得一看 41117 美丽 26968 空气清新 17134 值得 295922 优惠 40598 方便快捷 26137 太贵 16392 好玩 145706 壮观 39793 休闲 24164 愉快 15885 开心 123723 好好 34512 实在 22937 一般般 15638 喜欢 104617 满意 34410 人多 22405 失望 15509 适合 95282 震撼 33437 热情 21918 好评 14553 建议 78979 实惠 33127 挺不错 21807 环境优美 11707 推荐 74416 可惜 32375 更好 21667 商业化 9828 很漂亮 45787 不好 31872 精彩 21192 景色宜人 9058 漂亮 45104 还好 31307 有意思 21002 小贵 8409 没什么 43022 舒服 28390 挺好玩 19614 必去 8216 人太多 42142 很棒 28382 好去处 18637 棒棒 8051 好看 41241 遗憾 27309 不值 18499 很赞 8014 图 3.5 情感词条 在图 3.5 中展示的根据 word2vec 工具包获得的 520 个情感词条中,虽然根据表 3.2 所给的情感词条得到的 520 个情感词条只是相关系数很高,因为用 Jieba 分词工具已经将所有评论的文本成功分词,如“太棒了”、“不好玩”、“坑爹”等等,可以看出有几个词条并非情感词条,但依旧可以寻找到很多真正相似的情感词条,例如“地方”、“小朋友”等等,将分词结果的每个词随机生成的 100 维向量进行相关性计算,再利用 word2vec 工具包,万方数据。

第三章 去哪儿网和携程网评论数据分析 20 ( ( 二) ) 聚类 在旅游景区的形象评价中,经常以游客的满意度来衡量旅游景区的总体形象,而这...。

成功点赞+1

 2000 积分

  • 旅游虚拟现实VR旅游业影响
  • 美国旅游15需要多少美国15日游
  • 郑州开封两市居民使用开封旅游年票
  • 高考旅游哪儿十个地方为了美食一次
  • 一次旅游作文400
  • 经典旅游景区营销策划方案宁海景区策划方案
  • 济南碰上青岛海信同是为何现状截然不同
  • 中国哪些好看海滩中国十大最美海滩推荐
  • 旅游句子
  • 旅游市场营销实训指导书
  • 精品行程推荐