疫情当前，我们聊聊谣言的自动化鉴别【附代码和资料】

时间：2020-02-26 18:50:20 阅读：640 评论：0 收藏：0 [点我收藏+]

技术图片

1.前言

2020年真的太难了！（来自一个已经被迫在家隔离了29天的农村娃的无力吐槽）

2020年对于我来说原本也会是一个难忘的一年，新年女朋友第一次来我家，6月份硕士生涯结束，正式步入996的美好生活！没曾想2020年会如此多事，突如其来的疫情（2019-nCoV），也将我原本的计划彻底打乱。唯一让我感到好受一点的可能就是难得在家陪父母这么长时间了吧。

2.研究目的及意义

这次疫情让我感受最深的，除了隔离在家的烦闷和不便，那就是随着疫情漫天飞舞的谣言。

平时的生活中我们也会经常看到、听到各种各样的虚假信息，甚至谣言。可能因为疫情的原因，相关的谣言和虚假信息格外的多，朋友圈、微信群经常能够看到。说实话，有些谣言根据经验大体可以看出真假，但是有很多谣言是真的很难分辨，今天才信以为真，明天就有人出来辟谣，偶尔还会再来一次反辟谣，让人非常烦恼。

正是谣言的滋扰让我萌生了用模型来自动分辨谣言的想法。后文中，我们将谣言、虚假新闻等统称为虚假信息。

3.研究背景

在实验之前，我做了些简单的调研，发现虚假信息自动化鉴别的研究由来已久。

3.1 为什么虚假信息如此盛行

虚假信息的产生，绝大多数是出于利益角度的考量，这里的利益除了金钱以外，也可能是政治上的利益。例如通过编造虚假信息来引起关注，从而获取广告收入，或者让自己的产品变得畅销。政治上，为了达到操纵和宣传的目的，有时候也会故意编造一些虚假信息。

大量虚假信息的产生和传播对于社会、经济的发展非常不利，对于我们个人来说也是一件令人厌烦的事。

3.2 虚假信息自动化鉴别的难点及研究方向

难点1：一些虚假信息隐藏的较好，会利用一些真的信息来增加迷惑性，有时甚至会借助一些权威人士或机构来提升信息的可信度。

难点2：虚假信息的判别缺乏及时、权威的数据。很多虚假信息都是针对当前的实事，例如此次疫情。对于一些缺乏相关经验的人来说，很难辨识真假。而缺乏相应的数据库，也很难由模型自动化鉴别。

虚假信息自动化鉴别是一个典型的文本分类问题，我们可以直接使用一些文本分类的算法或模型，但是其效果也因数据、场景而不同。

除了直接针对虚假信息的文本内容下手，一些研究者将方向拓展到对虚假信息制造者的用户特征、发文特征以及平台特征的研究。

虚假信息鉴别是自然语言处理领域的热门研究方向之一，并且依然面临着诸多的困难和挑战。

3.3 相关论文和数据集

在撰写本文的过程中，本人搜集整理了一些相关的论文和数据集，与本文配套的代码、数据以及训练好的模型打包在了一起。获取方式在文章末尾。

技术图片

4.实验：尝试用Bert对疫情谣言进行分类

4.1 数据集

实验中使用了两部分数据，一部分是从腾讯的较真平台爬取的疫情辟谣数据，另一部分是从biendata平台获取的比赛数据。

技术图片
图4.1 腾讯较真平台

腾讯较真提供了疫情期间的辟谣数据，目前其数据量较少（在爬取时只有310条），此外也没有找到其它更好的疫情谣言数据的来源。这部分数据爬取的代码也已打包在了一起。

biendata平台获取的比赛数据是微博数据，有38000多条，但是数据质量较为一般，并且有少量重复。示例数据如下（标签为0的是真实信息数据，标签为1的是虚假信息数据）：

技术图片
图4.2 biendata平台提供的微博数据示例

4.2 模型

这部分简单介绍一下我们所使用的BERT模型。

4.2.1 BERT的网络结构

BERT（Bidirectional Encoder Representations from Transformers）是Google在2018年发表的论文“Bert: Pre-training of deep bidirectional transformers for language understanding”中提出的。

BERT吸取了Transformer模型的一些经验，Transformer是Google的机器翻译团队在2017年提出的一种模型，该模型抛弃了传统的卷积、循环神经网络结构，而仅以Attention机制解决机器翻译任务，并且取得了很好的效果。Transformer的模型结构下：
技术图片
图4.3 Transformer模型结构图

Transformer由编码器（Encoder）和解码器（Decoder）两部分组成，对应上图左右两部分。Transformer的Encoder部分由多个上图左侧所示的块（Block）堆叠而成。

BERT的结构如下所示：

技术图片
图4.4 BERT模型结构图

BERT将网络结构中的每一个神经元用前面介绍的Transformer的编码块取代，并且是一个双向的网络结构。

4.2.2 BERT的输入

BERT的输入由三种Embedding叠加而成，如下图所示，分别是“Token Embeddings”、“Segment Embeddings”和“Position Embeddings”。

技术图片
图4.5 BERT模型的输入示意图

输入BERT的可以是单个句子（例如当下游任务是文本分类时），也可以是一对句子（例如当下游任务是QA时）。如上图所示，当输入的是一对句子时，句子之间会添加一个[SEP]标记。

构成BERT输入的三个Embedding中，“Token Embeddings”是输入文本中每个词的词向量。“Segment Embeddings”是句子的编码向量，该句向量会叠加到句子中每一个词的词向量上。“Position Embeddings”是句子中每个词在该句子中位置信息的编码向量，同样也会叠加到每个词向量上。

4.2.3 BERT的训练方式

BERT的训练包括两个部分：Masked Language Model和Next Sentence Prediction。

Masked Language Model部分的训练，会随机掩盖一些Token，然后通过上下文来预测这个Token。该方法与用CBOW来训练Word2Vec相似，主要的不同是前者是双向的，并且使用了Transformer中的结构来提取特征。

Next Sentence Prediction部分的训练是为了学习句子间的前后关系，即判断句子B是否是句子A的下一句。该部分的考量主要是基于QA等下游任务。

4.2.4 基于BERT的下游任务

基于预训练的BERT模型，我们可以用来实现诸如文本分类、QA、序列标注（例如分词、实体识别等）等任务。

技术图片

4.3 实验过程和结果

Google官方提供了BERT模型的TensorFlow实现（https://github.com/google-research/bert），本实验部分也是基于官方的代码。本实验的代码结构如下：

技术图片

bert_master：Google官方提供的代码
bert_model_zh_cn：官方提供的基于中文的预训练好的BERT模型
data：实验使用的数据
get_data：爬取腾讯较真平台数据的代码
output：预测阶段的输出存放在此
saved_model：保存我们基于自己的数据微调后训练好的BERT模型（使用疫情数据、含部分微博数据）
saved_model_ori：保存我们基于自己的数据微调后训练好的BERT模型（使用微博数据）
calculate_acc.py：基于预测结果计算混淆矩阵和准确率
fake_news_classifier.py：基于BERT实现分类的代码部分