现在的位置: 首页 > 媒体实践 > 正文

今日头条如何用算法打击“标题党”

2017年09月26日 ⁄ 共 2136字 ⁄ 字号

今日头条并不是传统意义上的媒体,而是一家有媒体属性的科技公司,一个内容创作与分发的平台,其愿景是“成为最懂你的信息平台,连接人与信息,促进创作与交流”。

调配分发资源,打击标题乱象

今日头条虽然提供资讯信息,但是其内部并没有编辑与记者,平台上90%的内容来源于头条号,截至2017年3月底,已有超过60万个人或组织开设头条号。这就决定了今日头条在打击“标题党”方面,要做的更多的是从生产层面和分发层面来进行控制。

具体来说,今日头条所做的事情就是在分发的过程中,减少给“标题党”的分发资源,而提升那些优秀内容得到分发资源的机率。这是提高效率的一种做法,也促使今日头条能更好地打击“标题党”,贯彻主流价值观,服务好用户。

基于文本挖掘的机器“把关人”

很多“标题党”常用的内容元素其实都是可以在文本层面进行总结的,交由机器处理的效率会更高。“正则表达式”就是定义一系列与“标题党”相关的词汇来维护一些规则,进而使用这些规则来检测每一篇文章。今日头条实际有数百人的审核队伍,建立起了一套比较完善的规则,并利用机器算法对每天几十万篇的新进文章进行筛选。由此,得到这些文章评级的高低,并对文章的标题和内容进行判断。

今日头条建立了检测“标题党”的规则模型,警示头条号作者的“标题党”行为。当头条号作者预发布文章的时候,如果标题中出现了“惊呆”“震惊”等内容,会收到一个飘黄的窗口,提示其内容涉及标题夸张,建议修改,如果作者继续强行发布的话将会被限制推荐量。

Facebook在面对“标题党”和假新闻时,依赖于用户举报。今日头条建立“标题党”的模型数据与国际上通行的做法类似,让用户对文章进行评论以及点击“不喜欢”按钮来表达个体意见,通过一些按钮来收集用户行为,再对文章的标题和内容质量进行判断,从而把内容质量不高或是存在“标题党”行为的推送限制在很小的范围内。

另外,机器也会自动形成对“标题党”文本的识别,给不同的特征以不同权重的得分。在运行的过程中,今日头条会将标题里面单个的词进行拆分,并形成权重分数,同时也对词组进行拆分,由机器自动打分,分数一旦超过阈值就被认为是“标题党”,头条号作者会收到警示。

面对头条号作者忽略警示强行发布的行为,头条号建立了一套非常严苛的处罚规则。如果是非法来源,违反相关法规扣50分。另外,被举报抄袭、“标题党”、含有广告信息、标题与正文不符,甚至文章标题中含有错别字的文章,都被认为对用户造成了不利影响,作者将会受到相应的扣分处罚。

千万不能小看这些扣分,在头条号中,扣10分意味着发文和微信的RSS接入禁止一天;如果被扣至0分,整个账号就无法恢复。由于头条号的账号与每个人的身份证绑定,个人账号的冻结意味着该作者失去了在今日头条平台上的话语权。如果被扣除50分,还将被取缔广告和自营广告的权限,头条号的商业价值将受到限制。同时,在头条号平台上打击力度非常之重,公告栏上会定期发布整治各类标题的公告,在伪科学、股评、两性、减肥这些“标题党”泛滥的重灾区,进行专项治理。

数据方面,今日头条平均每天有超过12000篇文章被提示修改,日均仅有1027篇文章还继续强行提交,且强行提交之后会被进行很大程度的降权推荐,其中,476篇0阅读,762篇阅读量小于等于100。从2016年的7月至今,客户端每周反馈量为每百万DAU(日活跃用户数量)从0.9降至0.3,即平均每100万活跃用户里,反映内容存在“标题党”的情况的人从原来的0.9人降到了0.3人。

以数据反哺内容创作者

头条号的标题非常难取,一方面需要突出新闻点,而另一方面,要考虑机器分发。机器和人工分发最大的不同在于:传统媒体的编辑具有文本经验,机器则不然。人与机器沟通过程中需要做很多工作,如利用什么关键词来描述某事件能让文章更好地被机器识别,从而到达更精准的兴趣人群,发挥内容的最大价值,这是除了取好标题之外更迫切的需求,所以,标题留给创作者的空间很小,难度很大。

为了更好地实现用户价值,提升用户体验,今日头条推出了新的服务于创作者的产品——媒体实验室。它将数据结果直接呈现给内容创作者,提供适合在平台上表达、分发,并能够取得优良传播效果的词汇,将这些词汇制成了可视化的分析图表,给作者提供一些写作角度的参考。

目前,媒体实验室已经服务于400多家媒体机构,包括7000多位内容创作者用户。比如,在美国大选期间对热度进行监控,通过定制关键词,能够对专题进行相关的用户画像分析。

除此之外,内容创作者还能对热词进行关联分析,通过分析用户的互动行为来挖掘创作的角度。作为一个创作者的服务平台,媒体实验室还会把今日头条发布的数据报告第一时间进行发布,并为创作者提供原版下载。

目前,媒体实验室已与一些媒体建立起了内容合作关系。今日头条将媒体内容通过算法模型分发给不同兴趣爱好的用户,与此同时,媒体实验室将用户阅读互动产生的数据收集并反馈给媒体,形成一种反哺的关系,就像打车软件之于交通部门,外卖软件之于食药部门,媒体实验室也可以把内容分发的好坏、优劣、内容关键词的关系等,反哺给媒体机构甚至优秀的自媒体作者,让他们最高效地进行创作,在不同创作环境和垂直领域内发挥自己创造力的最大价值。

(作者:刘志毅 系今日头条算数中心总监)