第一节 大数据的概念和基本特征
在2012年以后,“大数据”在各种场合被无数次提及,风靡全世界。一份来自著名的信息数据公司高德纳(Gartner)的报告称,64%的企业已经计划采用大数据技术,这带给了市场很大的信心,各巨头积极通过研发加并购的策略加紧布局大数据产业,仅国际商用机器公司(IBM)一家就收购了30多家大数据公司……随着投资的剧增,大数据与各产业结合的落地应用层出不穷,各国政府也紧锣密鼓地发布大数据政策,从研发、应用和政府数据开发等角度积极助推大数据发展。2012年3月美国率先推出“大数据的研究和发展计划”(Big Data Research and Development Initiative)全面部署大数据关键技术研发,美国政府还积极推动数据公开,已经开放了37万个数据集,并在2013年5月初进一步要求新增和经处理的政府信息必须实现开发和机器可读,为大数据发展提供坚实的支持。2013年的“棱镜门”事件,从侧面曝光了美国国家安全部门对大数据的掌握十分惊人。英国、日本、澳大利亚等国也积极推动大数据发展。在大数据技术上谷歌(Google)处于绝对领先,谷歌于2012年推出了新的大数据“三驾马车”,即Caffeine、Pregel、Dremel,并发表了数以千计的大数据领域论文,为业界输出大量的原创技术。随着大数据应用的逐渐落地,除了互联网领域,大数据也加速与其他行业进行融合,并对社会各领域产生了巨大的影响。在影视行业,大数据在影视产业的创作、宣传发行和上映等环节都有应用价值。当我们要了解大数据与影视产业的结合路径与影响,我们首先要了解大数据的基本概念和技术特征。
一、什么是大数据
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态,以及相互关系等进行记载的物理符号或是这些物理符号的组合。它是可识别的、抽象的符号。在计算机科学中,数据指由计算机执行操作的数字、字符或符号,其可以以电子信号的形式存储和传输并记录在磁、光或机械记录介质上。大数据,简而言之,指的是大规模的数据。
在过去数年中,由于信息技术的飞速发展驱动社交媒体、协同创造、虚拟服务等新型应用模式的出现,持续拓展着人类创造和利用信息的范围和形式,并使得全球数据呈现出飞速增长的状态。国际数据公司(International Data Corporation, IDC)的研究报告称:2011年全球创建和复制的数据总量超过1.8ZB,且增长趋势遵循新摩尔定律(全球数据量约每2年翻一番),预计2020年将达到35ZB,与此同时,数据复杂性也急剧增长。
高德纳公司给出了这样的定义:“大数据是需用新处理模式才能具有更强的决策力、洞察发现力和流程化能力来适应海量、高增长率和多样化的信息资产……是在一个或多个维度上超出传统信息技术的处理能力的极端信息管理和处理问题。”这种通过对海量数据进行分析并从中提取有价值的信息从而引导我们决策的过程,我们可以将之称为“大数据”。涂子沛在《大数据之巅》一书中,将大数据描述为“大价值+大容量”的总和。大数据是海量信息和资料,是描述传统数据处理应用软件不足以处理的大或复杂的数据集的术语。
数据挖掘(Data Mining)则是在探讨用以解析大数据的方法。大数据需要特殊的技术,以有效地处理海量数据。数据挖掘是在大型数据集中发现模式的过程,是一种涉及机器学习、统计和数据库各学科交叉综合的分析方法。数据挖掘是计算机科学和统计学的跨学科子领域,其总体目标是从数据集中提取信息(使用智能方法),并将信息转换为可理解的结构以供进一步使用。除了原始分析步骤,它还涉及数据库和数据管理方面、数据预处理、模型和推理考虑因素、兴趣度量指标、复杂性考虑因素,以及发现结构、可视化和在线更新等后处理。数据分析与数据挖掘之间的区别在于数据分析用于测试数据集上的模型和假设,例如,分析营销活动的有效性,而不管数据量如何;相反,数据挖掘使用机器学习和统计模型来发现大量数据中的秘密或隐藏模式。
二、大数据的类型、技术特征和优势
我们可以把大数据按照其格式分成三种类型:结构化(Structured)数据,非结构化(Unstructured)数据和半结构化(Semi-structured)数据。任何可以以固定格式存储、访问和处理的数据都称为“结构化”数据。结构化数据可格式是搜索与人类产生的查询和使用的数据和字段名称类型的算法,如字母或者数字、货币、日期等。结构化的数据可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的,例如Mojo的票房排名系统,就是一个典型的结构化数据的例子(见表2-1)。近年来,计算机科学在开发处理数据的技术方面取得了很大的成功并且也从中获得了价值。任何具有未知形式或结构的数据都可归类为非结构化数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解,如何从规模庞大的非结构化数据中获取价值对现有的数据挖掘技术仍然是个极大的挑战。半结构化数据可以包含两种形式的数据。半结构化数据不符合关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等。严格讲,结构化与半结构化数据都是有基本固定结构模式的数据。
表2-1 2019年Mojo全球票房排名
(续表)
(来源:https://www.boxofficemojo.com)
道格·莱尼(Doug Laney)指出数据的长期挑战和机遇有三个方向:海量(Volume)、速度(Velocity)与多变(Variety),合称“3V”或“3Vs”。大数据的“大”指的是在Volume, Velocity和Variety都超过一台计算机可管理的级别,则数据可定义为“大”。“大数据”这个名称本身就与数据的数量有关,数据数量在确定数据价值方面起着非常关键的作用。此外,特定数据是否实际上可以被视为大数据,取决于数据量。因此,数量是处理大数据时需要考虑的一个特征。多样性是指大数据的异构来源和数据的本质,包括结构化、非结构化和半结构化数据。在早期,电子表格和数据库是大多数应用程序考虑的唯一数据源。如今,在分析应用程序中也考虑了电子邮件、照片、视频、监视设备、PDF、音频等形式的数据。这种各种非结构化数据对存储、挖掘和分析数据提出了挑战。速度是指生成数据的速度,生成和处理数据以满足需求的速度有多快决定了大数据的真正潜力。
大数据技术是新一代的技术与架构,设计它用于在成本可承受的条件下,通过非常快速的采集、发现和分析,从大体量、多类别的数据中提取价值。在所处的环境里,数据容量越来越大,数据量增长越来越快,需要处理的速度和响应越来越快。随着数据量呈几何级数增长,要处理的数据也越来越多样化,过去的数据更多的是结构化的,现在越来越多的数据是半结构,甚至是完全没有结构的数据,如文本、邮件甚至于语音、视频等。“3V”是对大数据最基本特征的归纳,为各界广泛接受,后来有机构在3V之外定义了Veracity(准确度)和Value(价值)。
大数据能带来多种好处。首先大数据可以作为企业的决策依据,企业可以在做出决策时利用大数据作为外部情报。企业可以通过数据挖掘从搜索引擎和脸书(Facebook),推特(Twitter)等网站访问社交数据,从而能够更敏锐地捕捉消费者与市场的需求而调整其业务战略,识别降低风险。在一项由大数据咨询公司——新优势合作伙伴(New Vantage Partners)公司调查中,36.2%的受访者表示更好的决策是他们大数据分析工作的首要目标。此外,84.1%的受访者表示已开始朝着这一目标努力,59%的受访者表示取得了一些可衡量的成功,其总体成功率为69.%。
其次,大数据可以改善客户服务。目前,传统的客户反馈系统正由大数据系统所取代,在这些新系统中,自然语言处理技术可用于分析和评估消费者的反应从而提高客户满意度。在New Vantage Partners公司调查的受访者中,改善客户服务是大数据分析项目的第二个最常见的功能,53.4%的受访者表示在大数据可以改善客户服务。社交媒体和客户关系管理(Customer Relationship Management, CRM)系统为当今的企业提供了大量有关其客户的数据信息,他们可以使用这些数据来更好地提供服务。
再次,大数据可以提高运营效率并降低成本。有了大数据,企业可以通过发现行业内的趋势、预测未来事件来实现成本的降低。知道什么时候可能发生什么事,有助于企业改进计划和预测。负责规划的人能够知道应该什么时候生产,生产多少。他们可以预测给定期限内的库存,以防止出现产品过剩的情况。全球数据质量解决方案供应商——美国同步排序公司(Syncsort)的一项调查发现,59.9%的受访者使用Hadoop和Spark等大数据工具来提高工作效率。现代大数据工具使分析师能够更快地分析更多数据,从而提高个人生产力。此外,从这些分析中获得的见解通常使组织能够在整个公司内更广泛地提高生产力。Syncsort和New Vantage Partners的调查均发现大数据分析正在帮助企业降低成本。大数据软件可以帮助公司改进流程和客户服务。这种提高的效率可以对降低成本产生重大影响。大数据分析已经帮助59.4%的受访者减少开支,66.7%的公司表示他们开始为此目的使用大数据。近55%的受访者希望通过大数据分析增加收入和增长。
最后,大数据分析可以使企业紧跟潮流开发创新项目。创新是大数据的另一个优势,NewVantage Partners公司的调查发现,11.6%的高管正在投资数据分析,目标是寻找创新手段。他们认为大数据分析提供的见解可以帮助公司超越竞争对手。人类进入大数据时代,类似显微镜之于生物学,望远镜之于天文学,因为网络传输和计算机存储运算能力的提高,交给了我们一面信息放大镜,从此我们对现象的观察进入了一个新的领域。