构建强大的数据分析系统 做好舆情分析

2020-12-25 06:36百分点大数据技术团队
中国信息化周报 2020年45期
关键词:舆情数据挖掘客户

百分点大数据技术团队

伴随着互联网技术的发展和新媒体创新应用,人们越来越倾向于通过微博、微信、短视频等社交媒体,表达看法、传播诉求、分享信息,甚至建言献策,收集、处理、挖掘其中的价值,洞察观点、情绪、口碑、社情民意,不仅能够为企业提供商业情报,辅助商业决策,还能为政府机构挖掘社情舆论,提升社会治理水平。

舆情分析的业务特点

1.信源覆盖广。舆情分析的数据源几乎覆盖所有互联网公开信息,不仅关注国内媒体,同时,外媒也是众多跨国公司和政府机构关注的重点。

2.需求行业多。舆情分析的需求几乎涵盖所有行业,舆情监测服务被广泛应用于消费品、汽车、互联网金融、地产、教育、餐饮等行业,同时,在电子政务领域,舆情监测服务也为各级政府机构,提供第一时间的舆情资讯,舆情监测和管理,核心是对我们周围互联网公开信息的大数据分析和价值挖掘。

3.社会价值高。舆情分析服务能为目标客户提供多维度的信息挖掘和高附加值的洞察分析,具有巨大的企业和社会价值。第一,负面信息挖掘。负面信息发现,是舆情监测的核心价值点,如果不能及时准确地发现负面信息,造成负面舆论发酵,可能对企业带来不可挽回的损失,对政府带来严重的公信力质疑。第二,竞品信息监测。通过对现有或潜在的竞争产品或者企业进行信息监测、情报挖掘,分析优劣势,往往能帮助企业掌握竞争的主动权。第三,口碑信息挖掘。针对自身或竞品,进行有针对性的口碑监测,如一款产品的评论分析,可以帮助企业改进产品功能、辅助市场营销策略,提升客户或产品满意度。第四,事件脉络分析。无论对于互联网热点事件还是产品传播营销,通过对事件细粒度的传播分析,洞察事件发酵脉络,挖掘传播爆点,掌握事件传播路径,为事件处置或营销效果分析提供决策依据。第五,民生民意调查。通过对互联网事件的舆论监测,挖掘对于互联网事件的公众情绪、公众观点、意見领袖、传播路径,为政府舆情引导、舆情管控提供决策辅助。

4.技术挑战大。舆情监测系统,不仅需要具备强大的数据采集和处理能力,还需要具备强大的价值挖掘能力,构建强大的舆情监测系统,往往面临巨大的技术挑战。

第一,数据全面。针对海量的互联网信息,构建强大的数据采集系统,保证数据全面、不遗漏,是舆情监测能力保障的基础。

第二,检索精确。舆情系统能够代替人工精准检索目标数据,这对海量数据的全文检索提出很高的要求,不仅要找到匹配的信息,还要去除干扰,最大化匹配检索意图。

第三,预警及时。舆论环境瞬息万变,企业和政府都期望第一时间掌握舆情动态;舆情监测需要提供7X24小时、近实时信息预警,具备秒级采集、处理、研判和下发机制。

第四,精准研判。除数据采集全面、数据处理及时外,信息挖掘研判的准确性往往是衡量服务竞争力的重要指标,通过不断提升敏感信息研判和相似度判定的准确性,可以最大化降低系统误判率。

第五,标签丰富。除了基本的舆情大数据全流程处理,舆情系统还应该具备更深层次的信息挖掘能力,如标签提取、地域甄别、信息分类、事件发现等,最大化提升附加值挖掘能力,降低人工服务成本。

舆情发展的新趋势

1.精细化运营,实现弯道超车。互联网舆情行业发展多年,玩家众多,传统的舆情分析,场景模式相对固定,竞争趋于白热化;而舆情分析的细粒度需求,如负面关注度、文本相关性等,越来越趋于差异化和定制化,在 SaaS 标品的模式下,如何针对不同的行业客户、不同的分析场景实现平台化、精细化的运营,变得越来越重要,打造业务闭环、构建能够实现差异化运营的平台化产品矩阵,才能实现弯道超车。

2.智能化分析,AI 深度应用。舆情分析是 NLP 文本分析的天然阵地,随着近几年AI发展进入快车道,各种技术框架和分析手段层出不穷,为舆情信息挖掘提供了丰富的工具,不仅局限于分词、实体识别、情感判定、关键词提取等底层文本分析技术,诸如主动事件发现、智能化预警研判、智能化信息检索等逐渐落地应用。同时随着 AIOps 的发展,模型算法的工程化落地加速,探索用 AI 代替传统舆情服务中的人工部分,以降低成本。

3.业务模式创新,拓展深度和广度。舆情业务模式创新,不仅要横向扩展行业,积累各领域知识,形成不同行业的差异化专业解决方案,还要纵向探索新的分析场景。

舆情信息的挖掘过程

互联网舆情,本质上是对互联网公开信息的采集、分析、研判,并产生业务价值,是一个价值数据挖掘的过程,但基于其业务场景和系统要求,与传统的数据挖掘又有很大差别。传统的数据挖掘任务,一般有如下几个过程:

信息收集--数据集成--数据加载--数据清理--数据变换--数据挖掘过程--模式评估--知识表示。

ETL阶段进行数据清洗和标准化,挖掘过程综合运用各种信息挖掘算法,如规则推理、机器学习模型、迁移学习算法等,根据模式评估结果,得到反馈,不断循环,达到最优。但在舆情场景下,数据要从互联网源源不断的输入,分析结果要准实时的输出呈现,价值挖掘过程穿插于信息流之中,同时,系统需要具备动态干预的能力,甚至需要设计单独的指标回算机制,保证信息挖掘的前后一致性。信息以流式输入到在线处理引擎,经过 ETL 处理标准化的数据,进入数据挖掘过程,如基于规则引擎计算文本指标、通过机器学习算法模型计算文本标签等,这些规则或模型蕴含业务知识,数据计算结果经过存储,呈现给业务人员,后续随着业务的评估和迭代,挖掘中的业务知识会被动态干预,形成知识流动迭代的闭环。因此,传统的数据挖掘过程,往往是静态的一次性过程,而舆情分析的信息挖掘,是一个流动的不间断过程。同时,舆情监测体系的运行,也是一个多方共同参与的过程,不同角色的人员共同协作,不断迭代产生更优的价值挖掘结果,准确及时地呈现给终端客户。

简单来看,舆情监测系统,主要由数据采集、SaaS 平台、运营工具栈构成。销售、售前人员负责方案制作、需求转化,客户成单,需求确定后,由数据运营人员跟进,负责客户全生命周期的数据、关键词配置管理、数据监控,客户数据实时进入数据挖掘平台,供舆情分析师团队和客户直接使用,如数据筛选、数据预警、报告制作、信息挖掘分析等。

同时,我们还需要提供丰富的运营分析工具栈,如数据清洗、报告制作、预警干预、数据宏观分析、观点挖掘、事件发现等运营工具,帮助舆情分析师制作人工报告,提供高效率的人工服务。需要指出的是,在整个舆情服务过程中,舆情监测系统需要能够实时收集业务知识,并反馈到信息挖掘平台,不断优化和提升 SaaS 平台的信息挖掘能力和水平。舆情分析师的业务经验:舆情分析师是人工服务的价值输出方,能够深刻理解客户的监测需求,沉淀下来的业务知识,将直接录入挖掘平台,动态干预定向客户的分析效果,如客户的定制化负面评价指标、客户的定制分析词库等。系统应该能够自动收集用户的行为数据,以最大限度地降低用户的额外工作,提高系统迭代的效率。概括来讲,舆情分析系统是一个基于实时流动信息、多方协作参与的价值信息挖掘平台。

舆情分析系统是一个基于实时流动信息、多方协作参与的价值信息挖掘平台。

猜你喜欢
舆情数据挖掘客户
探讨人工智能与数据挖掘发展趋势
为什么你总是被客户拒绝?
如何有效跟进客户?
基于并行计算的大数据挖掘在电网中的应用
舆情
舆情
做个不打扰客户的保镖
舆情
一种基于Hadoop的大数据挖掘云服务及应用
23