第二节 监测对象及数据来源
由于我们监测、研究的领域是娱乐内容,语义分析的词库和算法均针对娱乐行业。娱乐行业产生的数据通常体量庞大,考虑到系统的负载能力,监测对象有选择地集中在以下两个方面:一是视频娱乐产品,包括电视剧、电影、电视综艺、网络综艺、网剧、网络大电影等,二是以明星为主体的媒介人物。
一 监测对象
一是电视剧。2016年6月开始监测,在上星频道黄金时间(19:30—22:30)首播和重播的电视剧。2017年上星频道共54套,其中中央电视台15套,省级卫视38套,中国教育1套。监测的时间是节目播出前7天至节目最后一集播出后7天。
二是网剧。2018年8月开始监测爱奇艺、优酷视频、腾讯视频、芒果TV、搜狐视频等五家视频网站上首播的网剧。监测的时间是节目上线前7天至最后一集上线后7天。先台后网归为电视剧,先网后台播出的归为网剧,台网同时播出的同时归入电视剧、网剧。
三是电视综艺。2016年6月开始监测,在上星频道黄金时间(19:30—22:30)首播的电视综艺节目。2017年上星频道共54套,其中中央电视台15套,省级卫视38套,中国教育1套。监测的时间是节目播出前7天至节目最后一期播出后7天。考虑系统容量以及重播类综艺节目的播出不稳定等原因,2016年10月18日起,暂停监测重播类综艺节目。
四是网络综艺。2017年5月开始,监测爱奇艺、乐视、芒果TV、搜狐、腾讯、优酷六家视频网站上首播的综艺节目,2018年开始用PP视频替换乐视。监测的时间是节目上线前7天至最后一期上线后7天。先台后网归为电视综艺,先网后台播出的归为网络综艺,台网同时播出的同时归入电视综艺、网络综艺。
五是电影。2017年5月开始监测,主要监测院线上映的电影。由于电影上映时间的长度由各影院决定,我们的监测时间是30天,具体为上映前7天,加上映后23天。
六是网络大电影(简称网大)。2019年3月开始监测,主要监测爱奇艺、优酷、腾讯上线的网大,监测时间是30天,具体为上线前7天,加上线后23天。
七是明星。2017年1月开始监测。明星是公众人物,具有文化产品的属性。明星与电视剧、综艺、电影等文化产品,电视台、视频网站等媒体和影视制作、经纪人等公司有耦合关系。因此我们将明星作为一类特殊的监测和评价对象。监测名单具有一定灵活性,通常会根据基础榜单数据的更新或基础榜单的增补,每年变动一次。明星的监测时长为1年,从1月1日到12月31日。
2019年仍然监测100位明星。根据艺恩明星商业价值指数、热度指数和艾漫明星商业价值指数的排位序号计算。
艺恩公司收集了2503名明星的相关数据[3]。艺恩商业价值指数体现明星出道或走红至今所有商业活动,包括票房数据、视频表现、互动平台粉丝的数量以及代言活动数据。艺恩明星热度指数涵盖明星的相关新闻数量、百度指数、媒体指数、微博粉丝数量及互动信息增量数据和微博评论中对明星评价的正负面情况。艺恩明星商业价值指数和热度指数都是以10分制计,两个指数均大于或等于3的明星有1529人。我们根据艺恩2018年6月15日到9月15日商业价值指数和热度指数的计算,得出明星的艺恩排位序号。
北京艾漫数据科技股份有限公司提供明星商业价值榜,每月公布前50名明星的相关数据[4]。明星商业价值指数由明星热度指数、口碑指数、专业指数、代言指数加权计算得出。热度指数由明星全网的活跃脱水粉丝量、媒体曝光量、脱水热议量、搜索量加权计算;口碑指数由明星个人形象口碑、公益形象口碑、时尚指数加权计算;专业指数由明星参演作品的市场贡献、专业好评、获奖等指标加权计算;代言指数由评估周期内明星代言的品牌级别、数量、效果等指标加权计算。从艾漫数据公司官网收集2017年7月到2018年11月艺人商业价值指数,共有117位明星进榜,其中陈伟霆、迪丽热巴等18位明星有17个月均榜上有名,陈乔恩、古力娜扎等28位明星仅有1个月上榜。通过计算117位明星的月平均商业价值,再加上进榜的月数,得出艾漫排位序号。
由于艾漫排位与艺恩排位可能存在较大的差异,如按艾漫排序搜集的117位明星中的王鹤棣,其艺恩商业价值指数只有2.147,在艺恩指数排序中非常靠后。我们首先对1530位明星同时标注艺恩排位序号和艾漫排位序号,117位以外明星的艾漫排位序号统一为550。再将1530位明星按艺恩排位序号和艾漫排位序号进行综合排位,序号前100位为2019年监测的明星,名单如下。
表1-1 2019年明星监测清单
续表
续表
续表
续表
对比2018年,更新了36位明星,由白敬亭、白宇、蔡徐坤、陈立农、陈晓、大张伟、古力娜扎、韩东君、韩庚、胡可、黄景瑜、江疏影、鞠婧祎、雷佳音、李小璐、刘若英、柳岩、罗晋、马思纯、马苏、马天宇、马伊琍、秦岚、王嘉尔、王子文、魏大勋、吴尊、徐熙娣、许魏洲、杨超越、袁姗姗、张翰、张钧甯、张韶涵、张馨予和朱一龙,替换陈道明、陈奕迅、成龙、邓紫棋、冯小刚、高圆圆、古天乐、郭德纲、黄磊、霍建华、李连杰、梁朝伟、林俊杰、林心如、刘雯、陆毅、罗志祥、欧阳娜娜、舒淇、孙红雷、汤唯、田馥甄、佟丽娅、汪涵、王宝强、王菲、吴刚、谢霆锋、徐克、张学友、张艺谋、甄子丹、郑爽、周杰伦、周星驰和周迅。
二 数据来源
网络数据是根据所设置的监测对象关键词,利用计算机爬虫技术,从互联网上收集到的监测对象信息。目前主要的数据来源有六个方面:
一是网络新闻。网络新闻主要是传统媒体内容在互联网上的再现,采集的信息比较全面。
二是论坛。收集论坛和贴吧上的信息,获得的信息也比较全面。
三是微博。收集新浪微博的信息,由于信息量大,采用随机技术取得20%左右的信息,获得的信息不全面,但可视为随机数据,用以代表总体。
四是弹幕。收集视频网站上弹幕的信息。目前抓取优酷视频、腾讯视频、搜狐视频网站的弹幕。
五是微信。收集微信公众号上的信息。
六是评论。收集视频网站上的评论信息。目前仅抓取优酷网站的评论。
七是豆瓣评论。收集豆瓣电影网的评论信息。
三 数据处理原则
(一)平权原则:一条新闻、论坛、微博、弹幕、微信、视频网址评论、豆瓣评论均代表个人的观点或态度,其权重没有差异。因此褒贬值计算简单算术平均。
(二)加权计算公式:
新闻褒贬值=新闻褒贬值之和/新闻条数
论坛褒贬值=论坛褒贬值之和/论坛条数
微博褒贬值=微博褒贬值之和/微博条数
弹幕褒贬值=弹幕褒贬值之和/弹幕条数
微信褒贬值=微信褒贬值之和/微信条数(2018年使用)
评论褒贬值=评论褒贬值之和/评论条数(2018年使用)
豆瓣评论褒贬值=豆瓣评论褒贬值之和/豆瓣条数(2019年使用)
综合褒贬值=(新闻褒贬值×新闻条数+论坛褒贬值×论坛条数+微博褒贬值×微博条数+弹幕褒贬值×弹幕条数+微信褒贬值×微信条数+评论褒贬值×评论条数+豆瓣评论褒贬值×豆瓣条数)/(新闻条数+论坛条数+微博条数+弹幕条数+微信条数+评论条数+豆瓣条数)
由于弹幕数据的来源不全,且数量巨大,对褒贬值的影响大,因此2019年综合褒贬值的计算不再包括弹幕。
[1] 欢迎使用“浙江传媒学院视频监测与分析系统”,网址是http://112.11.126.99:8089/event.html,用户名和密码相同,为cmxy001或cmxy002。
[2] 新闻的网址是http://ent.szonline.net/contents/20181201/20181234019.html。
[3] 数据来源,2018年9月15日试用艺恩数据http://endata.com.cn/User/Login时收集。
[4] 数据来源,2018年12月23日从艾漫数据官网https://www.chinaindex.net/#/actor/index收集。