“互联网+”时代正在战略重构和创新每个行业,基于新一代信息技术的快速发展,“大数据+舆情"成为当下重要的应用热点。但是,几何级的增长的互联网大数据和繁杂的传播平台,使得大量同质化内容和无关信息充斥,给信息处理和应用带来很大困扰。

大数据的价值不在信息数量,而在于通过分析数据来指导决策及预测,大数据技术的应用就是挖掘、分析网络信息相关联的数据。针对文本聚类,业界有多种解决方案,包括ES、欧式距离、MD5、BloomFilter、KMP算法等,这些文本聚类的方法虽然各有优势,但都存在不同程度的缺陷,将相似的文本进行去重或归类展示,但在实际应用中会存在聚类的效果、逻辑或性能等问题。另外,不同业务场景对于相似的定义也有所差异,处理不当的话,聚类结果将不符合业务需求。除此之外,海量数据也对聚类算法的性能有了更高的要求。

基于这一痛点,以汽车大数据为例,美云智数星谋云采用SimHash聚类算法,结合行业背景对关键词加权,进行舆情的场景化聚类,高效判断文本相似性,更贴合业务需求。汽车星谋云采用了Simhash文本聚类方案,这个算法结合了高效率、高精度、高适应性的要求,不仅计算方法简单,还可基于行业背景调整权重,适配业务需求。

SimHash聚类算法主要包含6个步骤:分词、Hash、加权、合并降维、倒查排序、相似计算,通过不同权重的赋值实现聚类逻辑的调整,从而优化聚类效果。基于汽车的行业背景,汽车星谋云对汽车大数据舆情标题和正文进行分词后加权合并,对关键词赋予不同权重,通过SimHash计算后输出编码,经过倒查排序后,进行舆情的相似度计算。


场景化聚类优势如何发挥?

场景化是舆情大数据的生命线,它涵盖舆情全生命周期。而美云智数SimHash聚类方案可通过调整权重进行不同的场景化聚类。

1.多渠道深入挖掘

利用数据分析软件能够实现多个渠道同时实时监测分析,如可自动挖掘多个渠道上与网络新闻热点相关联的信息、源头信息溯源、信息传播层级等,并可自动生成对于的信息传播分析图表。

2.多维度综合分析

利用数据分析软件能够实现多维度综合分析,如区域分析、网络热度分析、发展趋势分析、舆论倾向分析、网民情绪指数分析、传播路径及影响力分析等。

3.全网范围实时追踪分析

利用数据分析软件能够实现全网范围场景化实时追踪分析,如追踪分析全网与网络热点信息传播转载情况、最新的动态变化、声量、发展阶段和关键节点,并自动生成一份信息聚类简报和数据图表,供一键导出。

“预测未来的最好办法,就是创造未来”。舆情大数据除了能监测总结过去,更重要的是能预测把握未来,在精准读网、精准监管、精准服务、精准营销等领域的应用必将越来越广泛。汽车星谋云通过调节“重点文本权重”“领域关键词权重”和“其他关键词权重”满足不同聚类场景。总体而言,汽车星谋云大大提升了聚类效果,泛化能力强且效率性能高,其可拓展方向还很多,可根据主机厂需求动态进行权重配置,实现更多场景化聚类需求。

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|五金修配网 |网站地图

Powered by Discuz! X3.4 © 2001-2018 Comsenz Inc.

返回顶部