舆情监测
首页 > 舆情监测
舆情监测

联系我们

  • 钦享公关

  • 电话: 13237005555

  • QQ:87256296

  • 地址:江西省南昌市高新区巅峰财富广场B2 2705

网络舆情监测系统的相关技术

新闻媒体:小编     阅读次数:     发布时间:2020-01-10 15:09:45
摘要:1、网络爬虫技术在爬虫算法的基础上进行改进,主要包含网络请求模块、流程控制模块、内容解析模块和链接去重模块。其中网络请求模块主要负责根据URL链接向服务器发送http请求,并获取响应内容;流程控制模块负责组织调度各个功能模块和控制URL列表的爬取顺序

1、网络爬虫技术

在爬虫算法的基础上进行改进,主要包含网络请求模块、流程控制模块、内容解析模块和链接去重模块。其中网络请求模块主要负责根据URL链接向服务器发送http请求,并获取响应内容;流程控制模块负责组织调度各个功能模块和控制URL列表的爬取顺序;内容解析模块负责处理网络请求获得的响应,其中大部分响应为JSON格式的数据,本文采用BeautifulSoup库对返回的响应进行解析;链接去重模块主要负责对待爬取的URL进行选择,去掉重复的URL,同时对解析之后的响应内容进行文本去重化处理。本文使用Scrapy框架具体实现网络爬虫。Scrapy使用了Twisted异步网络框架来处理网络通讯,加快数据下载速度,并包含各种中间件接口,可以灵活地实现各种需求。

2、非结构化文本

数据挖掘技术文本挖掘的主要目的是获得文本的主要内容特征,如文本设计的主题、文本主题的类属、文本内容的浓缩等。本系统采用互信息,信息增益,文本证据权和x2统计法等评价函数进行独立评估,对每一个特征按照给定的权值大小进行排序,选择最佳特征子集作为特征提取的结果。对于文本特征数高,特征相互关联,冗余严重的特点,本系统采用基于支持向量机的文本分类技术。而在中文信息处理的过程中,分词是中文信息处理从字符处理水平向语义处理水平迈进的关键,本系统主要采用基于词典的分词方法。基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),采用了动态规划查找较大概率路径,找出基于词频的较大切分组合。对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

3、数据库技术

数据库存储技术在网络舆情监测系统中非常重要,在数据爬取和Web建站过程中都要用到数据库。在数据库中,数据一般以表的形式进行数据的存储和管理。

4、Web建站技术

本文采用的MTV模式与传统的MVC模式有所不同。MTV模式包括模型(Model)、模板(Template)和视图(View),其中,模型同样负责业务对象与数据库的映射关系,模版负责如何把页面展示,而视图负责业务逻辑,并在适当时候调用模型和模版。在工作过程中,Django框架接收用户的请求和参数后,通过正则表达式匹配URL,转发给对应的视图进行处理,视图再调用模型处理数据,最后调用模版返回界面给浏览器。2系统关键模块实现结巴分词改进:jieba分词在处理中文文本分析是比较常用的工具,实现文本jieba分词的常用流程是加载自定义词典、获取关键词、去除停用词、数据处理。jieba分词自带词典,但是由于具体应用领域的不同,可能不能包括一些专业词汇,会造成分词结果不准确,本系统通过自定义词典解决这一问题。改进专业词汇识别准确率。获取关键词主要借助jieba.cut()和jieba.lcut()两个函数完成,两个函数生成的对象不同,前者生成字符串而后者生成list。Jieba分词还提供了去除停用词功能,去除停用词后可以更精准的进行文本分析。停用词词表可以借鉴网上的中文停用词词表,需要加载本地停用词表,然后针对不同的对象采用特定的方法进行停用词去除。本系统核心功能模块使用Python实现,词法分析接口可向用户提供分词、词性标注等功能;能够识别出文本串中的基本词汇(分词),对这些词汇的词性进行识别标注。分别建立名词、动词、形容词的词典,识别词性后保存到词典中,记录数量。

免费店铺诊断

名额有限,赶紧索取吧!

姓名:
电话:*
店铺名: