您的当前位置:首页网络舆情热点挖掘系统设计与实现
网络舆情热点挖掘系统设计与实现
来源:锐游网
第14卷第7期 201 5年7月 软件导刊 Software Guide Vo1.14NO.7 July.2Ol5 网络舆情热点挖掘系统设计与实现 王大鹏 ,张大为 ,张 鹏 (1.辽宁师范大学计算机与信息技术学院;2.辽宁师范大学管理学院,辽宁大连116029) 摘 要:网络舆情对政治、经济、文化和社会各方面的影响越来越大。对互联网和社交网络发布的信息及各种反馈和 观点进行舆情分析与判断,是舆情挖掘的重要手段。设计了网络舆情热点挖掘系统,通过文本处理、分词处理、复杂 网络聚类及舆情热点提取等功能,使纷繁复杂信息中的热点话题及其舆情得以突出体现,为舆情热点定位、分析提供 了有力的工具支持。 关键词:网络舆情;数据挖掘;舆情热点 DOI:10.11907/rjdk.151323 中图分类号:TP319 文献标识码:A 文章编号:1672—7800(2015)007—0111—03 0 引言 舆情挖掘就是找到文字表达中的某些观点、情感、情 1 分词向量空间 文本向量空间模型由Salton 等人提出,每一篇文档 的向量模型为: ( )一{(t ,叫 ),…,(t ,叫 ),…,(£ , 叫 )},其中权值Wk—tf × ^,tf 为特征词t 在文档 d中出现的频率或频率函数,逆向文档频率 厂 = log( ),其中N为文档总数, 为包含特征词t 的文档 ^ 绪、价值观和态度等,通常分为积极、消极和中立几方面, 是近年来自然语言处理和文本挖掘领域的研究热点 ]。 随着现代传媒技术和互联网的发展,个人声音的表达呈爆 炸趋势,与之形成鲜明对比的是对这些观点的有效收集和 分析滞后。收集大众舆情的瓶颈降低了预控大规模群体 事件的可能性 ]。 舆情分析在社会、科学、人文、军事和商业等各个层面 数,当 为0时,定义 , 一0。由此,特征词权重W 被 称为TF-IDF权重。 具有较大的应用空间口 。通过社会网络的舆情挖掘,用于 分析政治、宗教和安全问题,并为制定相关政策提供决策 支持;消费者的舆情反馈可用于产品销售、采购定价和生 产制造。在网购大行其道的今天,收集客户的反馈信息, 是经销商为未来的销售趋势和产品升级作预测分析的重 要方式。通过对媒体反馈信息的收集可以进行公共舆情 管理、广告收益评价和人文价值观评价等。 根据TF-IDF权重计算方法,TF越高表明其受关注度 越高,IDF越大则区分度越大越切题。每个词除了TF-IDF 权重特征外,还可能包含如词性、词长度等有效信息。由 此,在文档空间中选择热词时,可考虑将权重修订为: 一 x尸【)S(tk)×L( ),其中POS( )为词性权重,名词 取2,动词取1.5,其它词性取1,L( )为词的长度。 利用所有文档的候选词可以构造一个面向词的向量 空间: (£)一{( fl,训 1),…,( 叫 ),…,(d ,W ))。 词向量空间是进行文本处理和舆情挖掘的主要数据结构 和数据存储方法,也是系统进行舆情热点挖掘和舆情分析 舆情挖掘的基本过程包括3个阶段 ]:①舆情检索和 文本处理;②舆情分类和提取;③舆情摘要和汇总。这个 的主要数据对象。 基本过程得出的结论往往只有积极、消极和中立这3个人 类特定情绪的价值取向判断。但舆情不止是人类特定情 绪反应的总结,更准确地说是人类所关注热点的表达,如 “反腐”、“医疗”、“教育”等。 本系统通过网络聚类[5 发现舆情热点,以达到舆情 分析的目的。 2 系统设计 如图1所示,系统总体架构分为4个层次,自下而上: 舆情信息检索层、分词倒排处理层、网络聚类分析层和热 点舆情分析层。每个层次又分为两个子层次,每个子层次 基金项目:大连市社科联(社科院)与大连市高校工委联合立项课题(2O13d1skybgx13);辽宁省社会科学规划基金项目(L14BWJ010) 作者简介:王大鹏(1968一),男,辽宁大连人,硕士,辽宁师范大学计算机与信息技术学院讲师,研究方向为网络工程与网络安全; 张大为(1971一),男,辽宁大连人,辽宁师范大学计算机与信息技术学院副教授,研究方向为软件工程与数据挖掘;张鹏 (1976一),女,辽宁大连人,硕士,辽宁师范大学管理学院讲师,研究方向为文化产业与公共危机管理。 第7期 王大鹏,张大为,张鹏:网络舆情热点挖掘系统设计与实现 定位得到的热点微博有2条,其热词、热词结构、分类和舆 情特点如表1所示。通过表1可知,该处热点与网购具有 5 结语 紧密联系,是男性和女性的共有话题。 表1热点1的热词结构及舆情特点 基于文本处理和复杂网络聚类,本文提出并实现了网 络舆情热点挖掘分析软件系统。系统设计目标是尽可能 地开放、实用和高效,但各种软件组件的挂接仍然具有过 高的耦合性,需要编程实现。实验结果表明:通过网络聚 类发现舆情热点,再进一步分析提取舆情,方案可行,但在 (2)热点2。如图2左下角所示,联系紧密的热词有: 具体实验过程中发现需要设定的参数较多,而且反复调试 梦想、想要、世界、心情、女人、感谢、有些、支持共8个。设 相对繁琐。 热点阈值为2,得到如表2的热词结构及舆情特点,主要 本系统在软件松耦合模块化、软件操作自动化,提高 反映男生和女生共同关注的成长和情感类话题。 舆情热点和舆情分析的精准性、有效性和实用性等方面还 表2热点2的热词结构殛舆情特点 有大量的工作要做。 参考文献: [13 NISHA JEBAsEELI A,KIRuBAKARAN E.A survey on senti— ment analysis of(product)reviews[J].International Journal of Computer Applications,2012,47(11):36—39. [23 张寿华,刘振鹏.网络舆情热点话题聚类方法研究口] 小型微型计 算机系统,2013,34(3):471—474. [3]HASEENA RAHMATH P.Opinion mining and sentiment analy- sis challenges and applications[J].International Journal of Appli— cation or Innovation in Engineering&Management,2014,3(5): 4O1-403. E4]CHANDRAKALA S,SINDHU C.Opinion mining and sentiment classification:a survey[J].ICTACT Journal on Soft Computing, 2O12,3(1):420—427. [5]谢凤宏,张大为,黄丹,等.基于复杂网络社团划分的文本聚类方法 (3)热点3。在图2的左上角,热词包括:珍惜、男人、 I-J].计算机工程与设计,2Ol1,32(3):1059—1061. 给你、参与、老师共5个,其舆情特点反映男人的情感,见 [6]DAWEI ZHANG,FUDING XIE.Fuzzy analysis of community de— 表3。 teetion in complex network[J].Physica A,2010,389(22);5319— 表 热点3的热词结构及舆情特点 5327. [7] SALTOM G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communication of The ACM,1975,18 (11):613—620. (责任编辑:杜能钢) Design and Implementation of Internet Opinion Hotspot Mining Systems Abstract:The effects of public opinion on the political,economic,cultural and social aspects more and more be attention. Based on the information published on the internet and social networking,as wel1 as a variety of feedback and ideas。public opinion analysis and j udgment are important means for opinion mining.Design and implement internet hotspot mining sys— tem with text processing,text segmenting,complex network community detecting and public hotspots extracting,such as features,makes hot topics and its public opinion to be highlighted and reflected in complex network information,and pro— vides powerful tools for hotspot positioning,analysis of public opinion support. Key Words:Public Opinion;Data Mining;0pinion Hotspot
因篇幅问题不能全部显示,请点此查看更多更全内容