基于MongoDB的文本分类研究

来源：锐游网

第５期　２０１７年３月　无线互联科技　ＮＯ．５　ＭａｒＣｈ，２０１７　基￣ＭｏｎｇｏＤＢ的文本分类研究　陈德森，杨祖元　（广东工业大学自动化学院，广东　广州　５１０００６）　摘要：文章基于流行的非关系型数据库Ｍ０ｎｇｏＤＢ，结合ｓｐａｒｋ机器学习库中的朴素贝叶斯分类器和支持向量机，对豆瓣影评及　京东商评进行情感分类，并采用准确率、召回率、Ｆ－Ｍｅａｓｕｒｅ等指标对分类效果进行评价，最后测试ＴＳｐａｒｋ－ＭｏｎｇｏＤＢ平台的扩　展陛能。　关键词：文本分类；Ｓｐａｒｋ；ＭｏｎｇｏＤＢ；ＭＬｌｉｂ　互联网发展促进了社交媒体、在线交易等新兴媒介的发　机后，通过选举方式自动在从节点中选出新的主节点提供服　占据了重要位置，有８０％的数据以文本形式存在的。如何有　格式，使得ＭｏｎｇｏＤＢ十分适合文档的存储与查询。　效利用这些文本数据去创造价值，是亟待解决的问题。　展，这些网站每天都会产生数以亿计的数据。其中文本数据　务，不需要人工参与。（４）ＢＳｏｎ的存储格式。类ＪＳｏｎ的存储　基于ＭｏｎｇｏＤＢ的特点，本文尝试用ＭｏｎｇｏＤＢ结合Ｓｐａｒｋ　文本挖掘（Ｔｅｘｔ　Ｍｉｎｉｎｇ，ＴＭ）是指从非结构化文本中获　做文本分析研究。ＭｏｎｇｏＤＢ支持３种部署方式，分别是单机　取用户有用信息的过程［１］。文本挖掘是从数据挖掘发展而来，　现在：文档本身是半结构化或非结构化的，无确定形式并且缺　结构化数据为主，并利用关系表等存储结构来发现知识。　存储及文本分类效果两方面进行研究。　模式、复制集模式、分片模式，本文采用的是分片模式。　　Ｓｐａｒｋ结合ＭｏｎｇｏＤＢ　但与传统的数据挖掘相比，文本挖掘有其独特之处，主要表　１．２ＳＰａｒｋ是加州大学伯克利分校的ＡＭＰ实验室（ＵＣ　乏机器可理解的语义；而一般数据挖掘的对象以数据库中的　Ｂｅｒｋｅｌｅｙ　ＡＭＰ　ｌａｂ），Ｍａｔｅｉ　Ｚａｈａｒｉａ博士在２Ｏ０９年所创立的　大数据处理和计算框架，是一个类Ｈａｄｏｏｐ　ＭａｐＲｅｄｕｃｅ的开　针对上述问题，本文将结合ＭｏｎｇｏＤＢ和Ｓｐａｒｋ，在文本　源通用并行框架。不同于传统的数据处理框架【３］，Ｓｐａｒｋ基于　内存的基本类型（ｐｒｉｍｉｔｉｖｅ）为一些应用程序带来了１００倍的　性能提升。Ｓｐａｒｋ允许用户程序将数据加载到集群的内存中，　１　文本数据的存储　上文所述产生的数据【２］，通常是由关系数据库管理系　用于反复查询，非常适用于大数据和机器学习，已经成为最　统来处理。实践证明，关系模型是非常适合于客户服务器编　广泛采用的大数据模块之一。在本文中程序中，通过添加　程，它是今天结构化数据存储在网络和商务应用的主导技　ｍｏｎｇｏ－ｊａｖａ—ｄｒｉｖｅｒ－３．３．０．ｊａｒ，ｍｏｎｇｏ—ｈａｄｏｏ・ｃｏｒｅ一２．０．１．ｊａｒ实现　术。然而在数据爆炸的互联网时代，传统的关系型数据在应　ＭｏｎｇｏＤＢ和ｓｐａｒｋ的连接，使用ＡＮＳＪ中文分词工具对读入　数据库开始涌现，ＯＭＭｏｎｇｏＤＢ，Ｒｅｄｉｓ，Ｃａｓｓａｎｄｒａ，ＨＢａｓｅ，　ＣｏｕｃｈＤＢ等。这些非关系型数据库旨在解决大规模集合以　及多重数据类型带来的挑战，尤其适合大数据处理。　１．１　ＭｏｎｇｏＤＢ￥￣ｋ库　对大规模和高并发访问时显得力不从心，因此一批ＮｏＳＱＬ　的短评进行中文分词，最后使用Ｓｐａｒｋ　ＭＬｌｉｂ中的朴素贝叶　斯分类器与支持向量机进行文本分析。　采用的是分片模式。　１．３实验数据集　Ｓｐａｒｋ－ＭｏｎｇｏＤＢ结合的形式如图１所示，其＠ＭｏｎｇｏＤＥ　ＭｏｎｇｏＤＢ是最近几年非常火的一款ＮｏＳＱＬ数据库，由　本文采用基于Ｊａｖａ的网络爬虫获取互联网上的短评　ｃ＋＋语言编写，是一个基于分布式文件存储的开源数据库系　据，共采集大概６０万条评论，涉及了《疯狂动物城》《蝙蝠供　统。在高负载的情况下，ＭｏｎｇｏＤＢ可以通过添加更多的节　大战超人》《木星上行》｛Ｈｏｎｏｒ８｝等豆瓣、京东的评论。　点，来保证服务器性能。ＭｏｎｇｏＤＢ￣＇在为Ｗｅｂ应用提供可扩　影评和手机销售评论数据合并后，经过初步的清洗（－ｋ双弓　能非常好，它将热数据存储在物理内存中，使得数据读取十　数据库中。在数据库中查看数据：　展的高性能数据存储解决方案。（１）内存充足。ＭｏｎｇｏＤＢ性　号，清除空数据，编码转换ｕｔｆ－８等），将数据导）ｖＭｏｎｇｏＤ［　分快速。（２）高扩展性。ＭｏｎｇｏＤＢｌ￣高可用集群扩展性非常　在文本分析实验中，按照评论的星级，将打１￣２星的评　好，通过物理机的增加和在数据库中配置Ｓｈａｒｄｉｎｇ，集群扩　认为是差评，４～５星的评论认为是好评，以此来对短评进　展简单、高效。（３）Ｆａｉｌｏｖｅｒ￣ｆＥ￥１］。ＭｏｎｇｏＤＢ集群的主节点宕　文本分类。　作者简介：陈德森（１９８９～），男，广西梧州，硕士；研究方向：大数据存储与处理。　一９６—　第５　】　２０ｉ７年：｛』Ｊ　ＮＯ．５　无线互联科技・　丈验讲亢　如左图所示：　￣１ａｒＣ｝１，２０１７　Ｍａｓｔｅｒ（ｍｏｎｏｏｓ）是主节点　集群模式：　兼顾数据上传、存储和处理　以及资源调度功能ｊ　Ｓ涵ｖｅｌ／２（ｍｏｎｇｏｄ）是从节　单　——…７　，　／　…　ＳｔａｎｄａＩｏＲｅ４Ｆ　ｒ　点　负责数据的存储和处　王堡　．』　图１　Ｓｐａｒｋ—ＭｏｎｇｏＤＢ结合　ｍｏｎｇｏｓ＞ｄｂ．ＭＯＶＩＥ．ｆｉｎｄ（）．１ｉｍｉｔ（２）　｛”ｉｄ”：ＯｂｊｅｃｔＩｄ（”５８ｂ２５７４９９ｂＳｄａｂｂｃ４２６ｂ３２ｄ４”），”ｎｕｍｂｅ广’　７／１　８，，，”ｒａｔｉｎｇＳｔａ广’：３，”ｒｅｃｏ￣ｎｅｎｔ”：”还行”，”ｃｏｎｔｅｎｔ”　感动…　）　８０２２，”ｔｉｍｅ”：”２Ｏｉ６／　”最后，被奶奶的一句话　８０３１。”ｔｉｍｅ”：”２Ｏ１６／　ｆ”ｉｄ”：ＯｂＪｅｃｔＩｄ（”５８ｂ２５７４９９ｂ５ｄａｂｂｃ４２６ｂ３２ｄｄ”），”ｎｕｍｂｅｒ’　７／２０”，”ｒａｔｉｎｇＳｔａ　ｒ，’：２，”ｒｅｃｏｗｅｎｔ”：”较差”，”ｃｏｎｔｅｎｔ”　”三流文艺片”｝　ｍｏｎｇｏｓ＞Ｉ　图２在ＭｏｎｇｏＤＢ中查询数据　１．４文本分类算法度量　在　分类问题中，通常使用的评价方法包括准确率，错　误率，召…率，Ｆ－Ｍｅａｓｕｒｅ，ＲＯＣ曲线，准确率一召旧率　线　下方面　，ＲＯＣ￣ｔｔ线的下　积以及等　。　小逻巾，使』ｆＪｌ准　表２实验结果　算法部　模Ｊ．Ｉ＝　ＮＢ　８７．３５％　ＳＶＭ　８９．６４　Ｐ　单机本地　８６．３１％　８６．８３％　８９．２７％　８７．７２　８７．Ｉ　８　８７．１４　Ｒ　Ｆ　Ｐ　确车、召…　、Ｆ值评估文小分类效果。其中，Ａ，Ｂ，Ｃ所代农　的含义如太１所示。　表１　ＡＢＣ代表的含义　公式汁　ｆ“的　义　Ｊ　某炎的　１　』　类的文　文　数　数　单机ＭｏｎｇｏＤＢ　８７．２０％　８８．２１％　８９．４６％　９０．７３　８８．９０　８７．６４　Ｒ　Ｆ１　Ｐ　分类器判　ｊ　某炎的　迁４：、　ｊ数　分类器判　１　ｊ　某类　的迂　敞　集群ＭｏｎｇｏＤＢ　Ａ　Ｂ　８９．０７％　８９．２６％　８８．６７　８８．０６　Ｒ　Ｆ【　通过ｎ找复制的方』　埘数据进行扩人，验证Ｓｐａｒｋ—　Ｃ　Ｄ　ＭｏｎｇｏＤＢ￣）＂（１ｉ式计算能力。使用分词　ｊＬ分词，分别　节　准确半（以下简称Ｐ）；侣　率（以下阳ｆｊ；Ｒ）。　点、双节点、　：　点做分洲币¨统汁总词数的操作，通过运仃时　比较他们之间的处理效率。其中单节点（主节点）是蚁核　由ｊ：Ｐｆｆｆ和Ｒ值Ｉ｛Ｊ现矛盾的时候，还可以考虑用另外‘种　法去分折，那就足Ｆ—Ｍｅａｓｕｒｅ（又称Ｆ。Ｓｃｏｒｅ）。Ｆ—Ｍｅａｓｕｒｅ　６Ｇ内存，坼｛　点（从节点）足　核３Ｇ内存。　是Ｐ值和Ｒ值的』Ｊ【】权和平均。　参数ａｔ￣７．１时，就是常　的值，即：可　综合Ｐ值和Ｒ值：　、　值较高ｌ１’ｆ，说叫分类方法仃效。　从ｆ｛！－Ｉ３【｝ｌ】可以看出，分伽式　单节点的运行时间比较　中，在数槲精达到一定　度后，加速比足大＿ｌ　１的，　叫　ＭｏｎｇｏＤＢ集群征大数　处理方面确实比　机的效率要　。　并不是｛　【ＪＪＪ　，甚至还ｆ｛Ｊ观Ｊ　双节点速度比二节点快的尴　接下求使川　瓣数　集，验订Ｆ文本分析情感分析在　种　ｆＨ由于数据　大小的原【夫】以及　存的限制，它ｆ『Ｊ之间的　刖　部署环境　的　法准确度。　１．５实验结果　尬，造成这种现象的原　足闪为启动多个　点，在通信ｌｆｌＪ资　从表２　｝　叮以看到，化币．机本地，单村ＬＭｏｎｇｏＤＢ，集群　源调度方面会化费一定的时间。仙总体　ｉ－’　依旧可以看ＨＪ分　ＭｏｎｇｏＤＢ集叶１模式中，朴素贝叶斯和支持　机的分类效　布式平台比　节点操作　彳丁　平缓的时『¨ｊ增长曲线。如　花　果卡Ｈ差无儿。算法准确度Ｊ｛：没ｌ仃因为数槲分敞在　个不川１７　更夫规模的数据量以及性能更好的机　集群卜，相信它们　点而下降，町知分佰式存储是适合做机器学　，Ｊ。基于Ｓｐａｒｋ　之问会订比较明显区别。…此町知，在实际心Ｊ｝ｊｌ＋Ｊ，如果　砭　艮大的话，Ｊ、；Ｚ［｛ＪＳｐａｒｋ－ＭｏｎｇｏＤＢ分布式甲台处　ＭＬｌｉｂ的机器学　库的算法效率也比较高，叮　已绎可以适　处理的数捌鞋，应一般的实　肫用场景。　理大数　将足一个很好ｎ勺解决方案。　９７　第５期　Ｎ０．５　２０１７年３月　无线互联科技・实验研究　ＭａｒＣｈ，２０１７　６０　１２０　４４２　文本数据量（万条）　一ＩＩＩ－单节点－ＩＩＩＩ　Ｉ　Ｉ一双节点一三节点　图３分布式与单节点的运行时间与文本数据量　２　结语　分析，将会是分布式环境下大数据分析的不错选择，具有实　由上述实验可知，Ｓｐａｒｋ￣ｔ带的机器学习库，对一般文　际应用价值。　本的分类准确率已经比较高，结合文档型ＭｏｎｇｏＤＢ做文本　［参考文献］　［１】佚名．文本挖掘［ＥＢ／ＯＬ］．（２０１７—０３—１０）［２０１６—１２—２ｏ１．ｈｔｔｐ：／／ｗｉｋｉ．ｍｂａｌｉｂ．ｃｏｍ／：￣．本挖掘．　［２】佚名．ＭｏｎｇｏＤＢ教￣［ＥＢ／ＯＬ］．（２０１７—０３—１０）［２０１６－１２—２８］．ｈｔｔｐ：／／ｗｗｗ．ｒｕｎｏｏｂ．ｃｏｍ／ｍｏｎｇｏｄｂ／ｎｏｓｑ１．ｈｔｍ１．　［３］卡劳Ｓｐａｒｋ快速大数据分析【Ｍ］．王道远，译北京：人民邮电出版社，２０１５．　［４］ＮＩＣＫ　Ｐ　Ｓｐａｒｋ机器学习［Ｍ］．南京：东南大学出版社，２０１６．　Ｒｅｓｅａｒｃｈ　ｏｎ　ｔｅｘｔ　ｃｌａｓｓｉｉｃａｔｆｉｏｎ　ｂａｓｅｄ　ｏｎ　ＭｏｎｇｏＤＢ　Ｃｈｅｎ　Ｄｅｓｅｎ，Ｙａｎｇ　Ｚｕｙｕａｎ　（Ａｕｔｏｍａｔｉｏｎ　Ｓｃｈｏｏｌ　ｏｆＧｕａｎｇｄｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ　５１０００６，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｐｏｐｕｌａｒ　ｎｏｎ・ｒｅｌａｔｉｏｎａｌ　ｄａｔａｂａｓｅ：ＭｏｎｇｏＤＢ，ｔｈｉｓ　ｐａｐｅｒ　ｃｏｍｂｉｎｅｓ　ｎａｉｖｅ　Ｂａｙｅｓｉａｎ　ｃｌａｓｓｉｆｉｅｒ　ａｎｄ　ｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅ　ｉｎ　Ｓｐａｒｋ　ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ　ｌｉｂｒａｒｙ　ｔｏ　ｄｏ　ｅｍｏｔｉｏｎ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ｆｏｒ　Ｄｏｕｂａｎ　ｆｉｌｍ　ｒｅｖｉｅｗ　ａｎｄ　Ｊｉｎｇｄｏｎｇ　ｃｏｍｍｅｒｃｉａｌ　ｒｅｖｉｅｗ，ａｎｄ　ｔａｋｅｓ　ａｄｖａｎｔａｇｅｓ　ｏｆ　ａｃｃｕｒａｃｙ，ｒｅｃａｌｌ　ｒａｔｅ，Ｆ－Ｍｅａｓｕｒｅ　ａｎｄ　ｏｔｈｅｒ　ｉｎｄｅｘ　ｔｏ　ｍａｋｅ　ｅｖａｌｕａｔｉｏｎ　ｏｆ　ｔｈｅ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ｅｆｆｅｃｔ，ａｎｄ　ｆｉｎａｌｌｙ　ｔｅｓｔ　ｔｈｅ　ｅｘｔｅｎｄｅｄ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　Ｓｐａｒｋ－ＭｏｎｇｏＤＢ　ｐｌａｔｆｏｒｍ．　Ｋｅｙ　ｗｏｒｄｓ：ｔｅｘｔ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ；Ｓｐａｒｋ；ＭｏｎｇｏＤＢ；ＭＬｌｉｂ　（上接第９５页）　［参考文献】　［１】克里斯。森德．Ｗｉｒｅｓｈａｒｋ￣分析实战［Ｍ】诸葛建伟，陈霖，许伟林，泽北京：人民邮电出版社，２０１３　［２１叶剑锋，魏娜，邓超．轨道交通信号系统维护【Ｍ】．北京：人民交通出版社股份有限公司，２０１６．　【３］（日）丸山修孝通信协议技术［Ｍ】．王庆，译北京：科学出版社，２００４．　［４］中国铁路总公司高速铁路通信障碍案例［Ｍ］．北京：中国铁道出版社，２０１３．　［５】郑丽娜网络通信实验教程【Ｍ】．济南：山东大学出版社，２０１５．　［６］（以）奥扎赫．ＷｉｒｅｓｈａｒｋＮ　分析实战［Ｍ］－古宏霞，孙余强，语北京：人民邮电出版社，２０１５．　Ａｎａｌｙｓｉｓ　ａｎｄ　ｒｅｓｅａｒｃｈ　ｏｆ　ｔｒａｃｋ　ｆａｕｌｔ　ｂａｓｅｄ　ｏｎ　Ｗｉｒｅｓｈａｒｋ　Ｌｉ　Ｘｉａｎｇｂｏ　（Ｎａｎｊｉｎｇ　Ｒａｉｌｗａｙ　Ｖｏｃａｔｉｏｎａｌ　ａｎｄ　Ｔｅｃｈｎｉｃａｌ　Ｃｏｌｌｅｇｅ，Ｎａｎｊｉｎｇ　２１００３１，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｉｓ　ｐａｐｅｒ　ｐｒｅｓｅｎｔｓ　ｔｈｅ　ｍｅｔｈｏｄ　ｏｆ　ｕｓｉｎｇ　Ｗｉｒｅｓｈａｒｋ　ｔｏｏｌｓ　ｔｏ　ｓｏｌｖｅ　ｃｏｍｍｏｎ　ｆａｕｌｔｓ　ｉｎ　ｔｒａｃｋ　ｃｏｍｍｕｎｉｃａｔｉｏｎ，ａｎｄ　ｕｓｅｓ　ｔｈｅ　ｄａｔａ　ｐａｃｋｅｔ　ｃａｐｔｕｒｅ　ａｂｉｌｉｔｙ　ｔｏ　ａｎａｌｙｚｅ　ａｎｄ　ｉｎｖｅｓｔｉｇａｔｅ　ｃａｕｓｅｓ　ｏｆ　ｎｅｔｗｏｒｋｓ　ｆａｕｌｔｓ，ｔｈｅｎ　ｇｉｖｅｓ　ｔｈｅ　ｃｏｒｒｅｓｐｏｎｄｉｎｇ　ｓｏｌｕｔｉｏｎｓ．Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔ　ｉｓ　ｍａｉｎｌｙ　ｂｙ　ｓｅｔｔｉｎｇ　ｕｐ　ａｎ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｅｎｖｉｒｏｎｍｅｎｔ，ｓｉｍｕｌａｔｅ　ｔｈｅ　ａｃｔｕａｌ　ｓｃｅｎｅ，ｄｅｓｉｇｎ　ｆａｕｌｔ　ｐｏｉｎｔ　ａｎｄ　ｕｓｉｎｇ　Ｗｉｒｅｈａｒｋ　ｔｏｏｌ　ｔｏ　ｃａｐｔｕｒｅ　ａｎｄ　ａｎａｌｙｚｅ　ｔｏ　ｓｏｌｖｅ　ｓｐｅｃｉｉｆｃ　ｆａｕｌｔ．Ｒｅｓｕｌｔ　ｏｆ　ｅｘｐｅｒｉｍｅｎｔ　ｓｈｏｗｓ　ｔｈａｔ　ｔａｋｉｎｇ　ａｄｖａｎｔａｇｅ　ｏｆ　Ｗｉｒｅｓｈａｒｋ　ｔｏ　ｓｏｌｖｅ　ｔｈｅ　ｃｏｍｍｏｎ　ｐｒｏｂｌｅｍｓ　ｉｎ　ｔｒａｃｋ　ｃｏｍｍｕｎｉｃａｔｉｏｎ　ｉｓ　ｏｆ　ｒｅｆｅｒｅｎｔｉａｌ　ｓｉｇｎｉｉｃａｎｃｅ　ｆｆｏｒ　ｏｐｅｎ　ｕｐ　ａ　ｎｅｗ　ｆａｕｌｔ　ｓｏｌｕｔｉｏｎ　ｒｏａｄ．　Ｋｅｙ　ｗｏｒｄｓ：Ｗｉｒｅｓｈａｒｋ；ｒａｉｌ　ｃｏｍｍｕｎｉｃａｔｉｏｎ；ｄａｔａ　ｐａｃｋｅｔ；ｆａｕｌｔ　一９８—　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文