大数据变革背景下的顾客网络满意度比较-满意度调查网

阅读量: 1,539

大数据变革背景下的顾客网络满意度比较

2018年04月12日　|　作者: adminlin　|　分类: 企业顾客满意度　|　

　总结、归纳大数据变革的内涵及特点，比较大数据变革中顾客满意度与传统顾客满意度的研究在研究方法、数据的收集、数据的筛选、样本的选择等方面的差异。选取3家知名火锅连锁企业作为研究对象，根据mapreduce原理收集、处理样本数据；然后，采用在线分析处理（On-Line
Analytical
Processing，OLAP）技术从时间、区域、满意度指标三个维度来实现大数据环境下顾客网络满意度的可视化。最后，对3家企业顾客网络满意度评价进行比较分析，指出它们在不同时间、不同区域存在的差异。结果表明OLAP技术能够以最直观的方式反应大数据环境下顾客网络满意度的差异及变化趋势，能够为企业网络口碑建设及网络营销策略的制定提供直接的参考依据。

　　1 引言

　　大数据顾名思义所涉及的数据量规模巨大，且大到无法通过人工在合理时间内实现截取、管理、处理、并整理成为人类所能解读的信息。大数据时代，数据的性质发生了质的改变，从简单的处理对象转变为一种基础性资源，这种变化必然导致数据管理方式的变革[2]。近十年来，随着社交网络、博客、LBS（Location
Based
Service）等信息产生、传播方式爆炸式的发展，数据以多种多样的形式表现出来，而且其增长速度、表现形式仍在以更快的速度增加。因此，即使经过一定的过滤，由于数据源众多、较长的积累周期也会形成海量的数据，例如顾客网络评价，由于越来越多的消费者喜欢通过网络交流消费经历、感受并且对消费结果做出评价，经过一定时期的积累，必定会形成大量反映顾客整体满意度的数据。同时，网络评价对消费者的行为具有一定的影响，而且影响到顾客对经营者的信任程度，关系到被评价对象的长远发展。所以，通过有效的方法实现大数据情境下顾客网络评价信息的可视化，对消费者满意度特性研究以及企业通过提升满意度来增加自身价值等方面具有重要的意义。

　　本文在分析大数据的特点以及所带来的变革的基础上，选取3家火锅餐饮连锁企业进行顾客网络满意度比较。结合mapreduce原理完成数据的筛选和样本的确定，通过OLAP技术实现数据的可视化，将时间、区域维度下的比较结果直观的展示出来，为企业发展战略的制定提供了一定的参考，也是大数据研究及应用的重要探索。

　　2 大数据变革的内涵

　　由于市场的压力和技术的演化，大数据计算正在以极快的速度发展[7]，先进的数字传感技术、通讯技术、计算存储设备创造了巨大的数据，通过大数据计算收集了海量的关于商业、科技、政府和社会的数据[8]。Bryant，
Katz et
al同时指出：大数据计算不仅改变了公司的经营活动、科学研究、医疗活动，而且关系到国家的国防建设以及情报工作。例如，Wal-malt目前正在建立的能够存储4

千兆字节（4000万亿字节）的数据库，记录每一个消费者的消费记录，为实现消费者的数字化管理奠定了基础；在医疗应用领域，大量医疗数据的收集，能够实现病情更有效地诊断，提高医治效率等等。在此基础上，我们将大数据变革的内涵归纳为：由于海量的关于经济、社会、文化、科技、自然环境以及政治等各个方面的信息、数据通过收集、存储、分析处理后所产生的能够对以前认知、行为产生一定影响甚至完全颠覆的巨大变革。

　　2.1 大数据变革的特点

　　大数据变革的特点主要是由大数据3V特点（Volume、Velocity、Variety）所决定，表现为数据量大、输入和处理速度快、数据多样性[8]三个方面，但是更强调于对于现有认知或行为的影响和改变。当然有些也有一些机构认为大数据还具有价值性（value）、真实性（veracity）等特性[9]，然而并没有达成一致的共识[2]，因此，我们从3V的角度分析大数据变革的特点。
　　（1）海量的数据增加量。大数据与传统数据相比，从GB（Gigabyte）、T
B（Terabyte）达到PB（Petabyte），网络大数据甚至达到了EB（Exabyte）、ZB（Zettabyte）级别[10]，仍然呈爆炸式的快速增长并且远超过摩尔定律的增长速度。（2）高速的数据传输、处理。由于计算机、通讯技术、网络设施的发展，数据实现了即时传播，时间的影响呈现进一步弱化的趋势。（3）多样的数据形式。主要体现在两个方面：1）在数据类型方面可分为科学数据、Web数据、多媒体数据等多重数据类型；（2）在数据结构方面体现为结构化数据、非结构化数据以及半结构化数据，而且后两种占的比重越来越大。

　　2.2 大数据变革的挑战

　　2.2.1 大数据研究的两个矛盾

　　大数据基于数字化、网络化、物联化、智能化、个性化等特征，反映的信息具有真实性、连续性以及区位性。虽然大数据展现出在真实性、时间、空间等方面的优越性，但是由于数据量巨大，必然产生一些新的问题。其主要表现在如下两个方面：

　　（1）可获取数据的爆炸式的急剧增长与用户有限的信息选择能力之间的矛盾。随着网络信息的急剧增加，信息的内容、结构、呈现形式都发生了显著的变化，然而对数据的筛选、应用受到个人的知识水平、价值取向、生活经验、自身性格等多种因素的影响[15]。（2）海量信息的呈现与用户有限需求之间的矛盾。大数据的一个显著特点就是所呈现的数据量巨大，据统计twitter上每分钟就有700个youtube视频分享[16]，然而用户对数据的需求是有限的，更多的关注于与自身相关的信息的收集，从而经过选择性注意过滤掉其他不相关的信息，但这并不是信息的浪费，而是用户需求的局限性，从而产生了数据量巨大与用户需求有限之间的第二类矛盾。

　　2.2.2 数据管理要求的变化

　　目前大数据得到了多层次、多领域的关注，但是这并不表明人们对大数据的了解很深入，而是从另一方面反映出过度炒作的危险，另外大数据不仅规模庞大，而且具有分布式、异构、不准确、不一致等特性，加大了数据的管理难度。大数据是把双刃剑，一方面为人们提供了获得新知识的源泉，另一方面却因为大数据的多元性以及非结构性特征导致数据的管理成本的增加。因此，大数据管理要求更高的性能的数据收集、存储以及处理设备，来支持包括大量非结构化、动态的数据的筛选、传递、存储等工作；同时，对数据管理人员具有更高的要求，不仅要具备数学、统计学知识，更要拥有创新精神、相应的交叉学科知识以及对有价值信息的把握能力。所以大数据管理与传统的数据管理相比无论是在基础设施、管理模式，还是在管理人员的要求方面都发生了显著的变化。

　　3 大数据变革对顾客满意度评价的影响

　　3.1 数据的收集方法

　　对顾客满意度的研究过程中，国外学者通常采用美国消费者满意度指数（American
Customer Satisfaction Index，
ACSI）来代表顾客的满意度；国内学者通常采用问卷、访谈等为最主要方式来研究顾客的满意度。不管是国内还是国外对顾客满意度的研究，满意度的计算通常采用主动获取的方式得到，即参与相关满意度评价的主体不是自发的而是被动的受访，因此这种情况下可能产生敷衍、厌烦情绪，导致数据的效果较差。

　　大数据时代，网络已经成为人们日常表达情感的一种方式，同时大众点评网、天猫、苏宁易购等多种网络平台为非问卷、调研方法获得消费者对某种消费的满意度提供了可能性，而且通常是自发的、对消费感受的真实评价（排除极少数商家通过一些非诚信手段提高顾客评价的情况），面对如此巨大、有价值的信息，怎样获取、筛选、深入挖掘是一项首要解决的问题。因此，本文依托于网络爬虫技术原理在特定网页上以特定检索词或符号如顾客对消费的评语、打分等等来收集相应的顾客满意度数据。

　　3.2 数据的筛选方法

　　顾客网络评价数据伴随着时间的积累形成多条数据流，不同的流由于被评价对象的不同被划分成不同的区间。因为数据流的持续到达、速度快且规模大，因此，数据流的处理具有一定的难度，而且很难把握数据的全貌[2]。Goole早在2004年就提出使用MapReduce技术来简化大量数据的处理[22]，其基本流程如图1所示。Mapreduce技术由于模型简单、拓展性良好，支持大规模并行运算，具有容错性，而且数据分析能力正在不断增强，在大数据分析中具有显著优势。因此，本文在对数据流分析过程中以mapreduce原理为基础，来实现数据输入到输出的处理。

　　3.3 研究样本的确定

　　在研究样本的确定过程中，首先根据某研究中心2012年评选出的10大火锅品牌，选取其中的A、B、C三家作为研究对象（为了避免本研究结果对所涉及企业日常经营的影响，本文不直接指出企业名称）；然后根据mapreduce的基本思路，以大陆以内的省、直辖市为基本的单元确定split，并以满意度或其相关的符号、标识等在大众点评网、美团网、QQ美食等相关网络消费评价平台上搜集相关的数据，对不相关的信息予以删除；最后，通过相应的mapreduce类似条件的设定，形成最终的数据输出结果，样本数据处理过程如图2所示。

　　在数据收集的过程中我们发现A、B在全国31个省、直辖市都有连锁店，C在全国26个省、直辖市存在连锁店，但是在数据收集过程中对网络评价总数小于100的区域予以删除，则A、B、C的reduce

result分别为10、8和7；同时选取北京、上海、重庆三个城市进行三家公司的深入比较，因此，output设定为3；另外，在数据的选取方面选取2011年7月1日-2013年7月1日这2年作为数据获取的时间间距，括号内为对应的收集的数据的量，具体每一步的数据处理结果如表1所示。
　　4 Olap在顾客网络满意度评价比较中的应用

　　OLAP是一种多为数据处理模型，由于其在企业多维数据处理方面表现出的灵活性、动态性、快速性而得到广泛的应用[24]，如企业的营销管理决策、专利的挖掘、网络教学管理、家电零售业数据仓库的管理等多个领域。OLAP以多维方式进行数据分析处理，通过切块/片、旋转、积存、下钻等操作实现数据的大规模分析及统计计算，数据可以柱形图、饼图、折线图、三维图等多种形式输出，实现有价值信息的直接显示。

　　4.1 构建相关数据仓库

　　顾客网络满意度通常包括时间、评价对象（具体的连锁店）、评语三个方面，因此，可以从这三个维度构建数据库结构，如图3所示。其中指标维表即为顾客网络评价的分值，其又可以根据具体情况可以细化到二级指标或者更多级指标。时间维即为数据统计分析的时间段，本文以半年为基础时间段，虽然顾客的网络满意度评价每天都在变化，但是这些变化是零散的、随机的，点式的数据往往不能反映一个拥有几十、甚至上百的连锁店的企业的整体满意度；另外，通过前期的数据分析，发现顾客网络满意度评价在月、季度、半年、年等时间段中会呈现出整体性变化的一般规律，但是由于网络评价的人数在较短时间内相对较少，通常在半年及以上才会累积到几百个评语。因此，本文为了减少数据量不足引起的偏差，选取半年为数据收集、分析的基础时间段；区域维度指连锁店所在的具体省、直辖市，区域的划分是为了了解不同区域内顾客满意程度，指出不同地区存在的差异。

　　4.2 顾客网络满意度评价的可视化

　　本文顾客网络满意度评价的可视化分别采用切块和切片两种方式进行处理如图4所示。所谓切块就是在整体顾客网络满意度评价中，提取固定区域、固定时间段的信息；而切片处理则是固定时间、某一区域或者固定区域、某一时间段的顾客满意度。

　　作为OLAP系统必须体现基本的功能，包括数据选取的节点、切片和切块位置的设定、时间次序的排列等基本信息，OLAP在顾客网络满意度评价应用中的基本数据格式语句形式如下。

　　4.3 顾客网络满意度比较

　　通过将表1的数据进行OLAP可视化计算，得到三家火锅连锁企业的整体累计顾客网络满意度评价指数CSI（customer satisfaction index）其计算公式如下：

　　S表示对消费非常满意和十分满意的顾客评价，US表示对消费不满意和非常不满意的顾客评价，N表示评价总数。

　　计算得到
，，
，因此，A的整体顾客网络满意度评价较高。那么，在2011年7月1日-2013年7月1日的两年的时间里A、B、C三家企业的满意度是怎样变化的呢？从图5中可以看出A、B两家企业的顾客网络满意度都在0.50以上且都高于C，C的顾客网络满意度在0.50的水平波动，与A、B存在一定的差距。以北京、上海、重庆三地进行切块可视化（图6），可以看出在北京A的满意度明显高于B和C，但是在重庆却低于B和C，而且C在重庆的满意度略高于A和B。经过进一步对顾客的网络评语及查阅A、B、C的相关信息，对可能的原因做了归纳：1）A成立较早，具有较高的知名度，而且从北方向南方逐步扩大经营范围，所以在产品设计上往往更符合北方人的习惯；2）B和C都是从南方成长起来的品牌，在重庆都很受欢迎，较A而言也更符合重庆居民的偏好，因此在重庆的顾客网络评价满意度略高于A；另外，因为重庆和北京在饮食习惯方面存在一定的差异，北京消费者对B、C的消费相对较少，B、C在北京也没有形成规模优势，所以顾客网络评价满意度相对较低。这也反映出火锅行业受区域的饮食习惯的影响较大，企业必须充分考虑目标市场消费者偏好的差异性。

　　5 结论

　　本文参考mapreduce原理，从大量数据中筛选得到顾客满意度信息，不仅可以用于企业自身的管理，而且还可以应用于企业间的比较及行业分析。结合OLAP可视化技术将顾客网络满意度评价进行同一企业及多个企业在时间、区域、维度下的消费者满意度比较，为企业了解自身及竞争者情况提供了直观的依据，具有重要的应用价值。

　　当然本文也存在一定的局限性，其主要表现为：（1）在数据收集过程中有的连锁店虽然有大量的消费者，但是在网上对消费体验进行评论的比例却不高，导致本文的数据量与实际消费者的数量仍存在较大差距；（2）本文选取的是结构化数据，非结构化数据的收集、处理相对不足；（3）文中的顾客满意度是一个相对量，尽管选择的都是全样本数据，但是不同企业的样本量存在很大的差异，因此比较过程中存在样本容量产生的误差。总之，大数据环境下的顾客洞察和市场营销策略将会是一个重要研究方向[24]，本文只是一个初期的探索，接下来还有很长的路要走，而且会面临更多的难题。

想获取更多信息，或者咨询相关业务可以关注我们的微信公众平台：SMR_gz

或者扫描下面二维码

微信平台二维码-50.jpg