案例分析
《我国政府2000-2020年网络游戏产业政策分析——基于大数据分析视角》
(此文内容摘自北京外国语大学国际关系学院本科课程《大数据分析方法》期末论文,作者目前就读于北京外国语大学英语学院英语笔译专业。)
网络游戏作为本世纪新兴产业之一,在我国经济发展领域方面的作用日益突出。我国政府从本世纪初开始对网络游戏产业进行监管和扶持,并在以后十几年之间出台了多项政策,以便促进网络游戏产业的健康发展以及保护网络游戏用户的身心健康。从政府发布政策的演进历程来看,大致可以分为起步期、快速发展期和全面完善三个阶段,每个阶段的政策都各有不同的特点,这反映了我国对网络游戏产业的日益重视。本文将基于我国政策以及相关部门对网络游戏产业的政策和法律法规,运用大数据分析的方法对以上文本进行对比分析与研究,收集网友对游戏产业的看法进行简单的情感分析,并对我国游戏产业的发展前景进行预测。
根据以往学者对游戏产业政策时间段的划分,本文将2000年到2020年分为三个阶段:①第一阶段:2000年到2006年为起步期,网络游戏产业及其相关产业处于萌芽阶段,政府出台的政策大多以间接监管为主,如对青少年身心健康发展的监管、网吧等网络经营场所的管理;②2006年到2014年,我国游戏产业进入了发展的快速车道,产业规模扩大,政府对网络游戏的政策内容更加全面,除了对青少年的保护政策和游戏内容监管之外,还出现了对网络游戏产业的扶持与保护政策。③2014年至今,随着我国网络游戏产业的成熟与日渐完善,我国对网络游戏的政策也越来越完善。
文本分析
利用Python加工包,经过文本分析、词频统计和关键词提取等步骤操作后,得到关键词前100个,如“用户”出现1788次,“网民”出现1510次,“互联网”出现2461次,“网络游戏”出现837次,“青少年”出现626次,“知识产权”出现243次,“行政部门”出现203次,“审查”出现251次,“场所”出现339次,“未成年人”出现“161”次,“监管”出现141次,以及“许可证”出现88次。

关键词提取与词云分析

关键词提取与词云分析

关键词提取与词云分析
主题分析——pandas、scikit-learn
主题模型可以从包含各种类型文档的大型语料库中提取不同主题,将相似文本归入同一主题。本段落主要采用Python中主题分析模型的方法,具体为pandas和scikit-learn(sklearn)方法,以2000-2020年产业政策文本做库,最终得到下表,为五个相关主题:“国家对文艺产业的发展与建设”,“国家对游戏产业的监督与管理”,“国家对互联网行业的发展与建设”,“国家对互联网行业的监督与管理”,“国家对青少年游戏沉迷现状的管理”。
序号 | 主题 | 代表性词汇 | 比例 |
1 | 国家对文艺产业的发展与建设 |
'文化', '数字', '发展', '企业', '市场', '科技', '文化产业', '建设', '机构', '产品', '项目', '国家', '公共', '行政部门', '技术' |
32.35% |
2 | 国家对游戏产业的监督与管理 |
'游戏', '用户', '网络游戏', '内容', '客户端', '设备', '出版物', '游艺', '时间', '运营', '手机游戏', '企业', '网页', '产品', '未成年人' |
13.3% |
3 | 国家对互联网行业的发展与建设 |
'发展', '中国', '状况', '互联网络', '报告', '来源', '统计调查', '产业', '知识产权', '文化产业', '行业', '建设', '动漫', '国家', '企业' |
13.59% |
4 | 国家对互联网行业的监督与管理 |
'互联网', '服务', '经营', '网络', '单位', '管理', '网络游戏', '规定', '场所', '有关', '营业', '活动', '信息', '违法', '内容' |
13.22% |
5 | 国家对青少年游戏沉迷现状的管理 |
'网民', '手机', '用户', '规模', '使用率', '网络', '比例', '青少年', '视频', '购物', '年底', '整体', '通信', '电脑', '网站' |
27.54% |
其中,最热主题为“国家对文艺产业的发展与建设”,占比达32.35%。国家对“文化”、“数字”、“科技”等产业投之较大关注,可看出政府客观辩证理性的看待游戏产业的发展,将其归类为文化产业中的一大门类。因为游戏产业特有的文化价值:对游戏场景构建、NPC玩家人物的特色构造,每帧动画内容的转换场景等都需得到相应的高速发展,更是打破传统意义上的绘画、音乐、剧本的固定格式,将其融为一体构建新型游戏世界,为民族文化的走出去打开“一扇窗”;

其次,“国家对青少年游戏”,频率占比达到27.54%。结合上述关键词抓取部分可看,政府始终对青少年网络娱乐问题严重关切,游戏产业内部环境与内容的多样性,玩家主体的多年龄阶段性,以及游戏产业客观存在的开放性、虚拟性等特点,决定其将会对部分玩家带来各种类型的问题,集中表现为青少年沉迷网络等。政府的介入成为必然,政府需对此类负外部性进行管制和监督,调节市场“失灵”情况,实现资源的有效配置。再观三个主题,占比相当,从整体体现了政府有的放矢、疏堵相结、发展与管理并重的科学调节方法与合理关切。
当代网民对网络游戏的情感态度分析
情感分析(Sentiment analysis)是自然语言处理(NLP)[ NLP (Natural Language Processing) 是人工智能(AI)的一个子领域。]方法中常见的应用,尤其是以提炼文本情绪内容为目的的分类。利用情感分析这样的方法,可以通过情感评分对定性数据进行定量分析。情感分析通过分析情感词、程度词、感叹号、否定词、积极和消极、分句的感情等方面的基础上,对研究文本进行分析与打分,以实现获取情感偏向的结果。虽然情感充满了主观性,但情感定量分析已经有许多实用功能,譬如对产品和应用的研发与销售、产业的未来走向、商品和文娱节目的褒贬以及文章作者的意图等等。
本文通过搜集了50份知乎平台上关于网络游戏产业各大话题的相关评论与留言,在利用Python软件的中文情感分析(SnowNLP)[ SnowNLP 是一个 python 类库,可以方便的处理中文文本内容,是受 到了 TextBlob 的启发而写的,用于处理中文文本。]的基础上,对以上搜集的源文本进行分析处理,最终得出情感得分情况。关于以上文本的搜集的信息,文本总字数为63921字,总共55页,来源为知乎平台关于网络游戏产业的帖子,回答群体主要是20岁到35岁来自不同行业的网名,具体知乎帖子问题汇总如下表所示:

在分析SnowNLP的情感得分时,一般认为大于0.5是正,小于0.5为负,区别于TextBlob [-1,1]的取值范围,因此在使用SnowNLP进行情感分析时需要将0.5作为情感正向和消极的零界点。上图的x轴表示情感的得分情况,y轴表示的是情感得分出现的次数。

从数据展现的情况来看,分数大于0.5的频率大致为80多次,分数小于0.5的为20多次,这表示大部分网民对游戏产业持着积极的、正向的态度,少部分网民持有消极的、负向的态度,这表明了当代网民对游戏产业的兴起、发展与未来走向持着积极的态度,这也为我国网络游戏产业相关企业的研发和营销打了一剂强心剂,让他们能够更有动力去促进游戏产业的更新与发展。此外,我国政府应该也要看到这个趋势,在合理引导青少年身心健康的基础上,合理地、可持续地对网络游戏产业进行监管、扶持和调整。

当然,本文对于网民情感分析也有不足之处。首先,样本的采取。本文主要随机筛选了50位知乎平台的网友对于网络游戏产业的看法与意见,而使用知乎平台的群体大多是20-35岁的中青年,很少有40-60岁中老年人群体的意见,这是本部分的不足之处之一。但本文主要的研究对象采取了青壮年对网络游戏的看法,旨在分析作为未来接班者的一代人对网络游戏的看法。其次,文本长短的参差不齐,在文本资料的汇总过程,可以发现网民对问题的回答字数多少不同,这也是影响情感得分的变量之一,字数太多可以导致程序识别的情感分数分布更密集,反之亦然。