2016 年,已经酝酿良久的知识分享终于呈现出了爆发式发展。除了在这个领域深耕多年的知乎和果壳分别以不同形式实现了产品形态和商业模式上的突破之外,包括百度、微博、喜马拉雅等更多的力量开始突围。就在今年,这其中也出现了今日头条的身影。
今年 4 月,今日头条的头条问答栏目正式上线。这个聚集了 6 亿用户的内容分发平台似乎在各个角度上,都与人们定义的「消费升级」前提下的知识付费浪潮调性不符合,但是在 11 月的世界互联网大会上,今日头条 CEO 张一鸣曾经这样介绍过头条问答的机制:「传统意义上的问答基本上都是基于社交模式,存在很多问题,在我看来这恰恰是人工智能和算法可以解决的。」
也就是说,在依托于今日头条的头条问答上,算法可以帮助用户在 6 亿用户和 30 多个「作者」中找到最适合回答某个问题的「专家」,也可以把最「合适」的问答内容推送到最需要阅读他们的人。更关键的是,今日头条还希望未来算法可以根据热门事件自动生成问题:在头条问答上,你大概不会看到类似于「谢邀」的寒暄,因为回答这些问题的「邀请」大多数是由机器发出的,甚至问题和答案都是由机器提供的。
看上去这又是今日头条基于「效率先于价值」推出的一款产品。能够支撑起这套系统运行的则是用户留存在今日头条上的海量数据分析,以及这家公司一直视为生命根基的人工智能算法。
用算法驱动的问答社区到底什么样?
用今日头条算法构架师曹欢欢的说法,头条问答关注的是「更广泛的问题」,「我们希望这上面有很专业的问题,但是我们覆盖的是几亿用户,所以也会覆盖到一些并不专业、但是用户有需求的问题,总的来说我们在覆盖面上有一定的优势。」
打开今日头条的问答频道,你会发现这里人们关心的问题和知乎不太一样,调性也更加「接地气」。你可能看到的是类似于「俄罗斯大使在土耳其安卡拉被杀会造成哪些影响」这样的专业性问题,也有可能看到「李小璐为什么会嫁给贾乃亮」之类的八卦分析,发生这一切可能性的前提,都要看你平常是如何「调教」今日头条 app。
(一个完全没有被「调教」的头条问答频道)
不过就现阶段来说,这个用机器驱动的问答系统并不成熟,它还不能很好的完成「个性化分发」的任务。相比于今日头条上的内容分发,头条问答的内容分发是比单纯的新闻内容个性化推荐更加复杂的领域,因为它涉及到的不是「内容和读者」两方之间的关系,而是扩展到了「问题、答案、读者、专家」等更多维度的关系。
具体到问答领域的难点,曹欢欢认为可以总结为以下六个方面,分别是:
问题分发:如何为用户的提问快速找到最适合回答的专家,并且提供高质的回答。
答案质量:是否很好的回答问题,其中包括能否有效处理答非所问、答案配图无关等问题。
答案排序:在同一问题下,机器能否给出比较好的答案排序,该排序对浏览用户和创作者是否都比较友好。
问题配图:用户提问的时候,系统能否给出合适并且优质的配图候选。
问题自动生成:碰到一些热门的新闻或者用户津津乐道的话题时,系统能否快速的自动生成问题并且配以生动的描述。
问题去重:对于重复的问题,机器能否聚合,怎样做到高准确的召回。
知识表示、推理和内容分发领域涉及到深度学习、概率图模型、矩阵分解和稀疏方法、决策树等理论和技术。而关于现阶段如何更好的解决这些技术难题,今日头条的方法是把头条问答上的数据开放,以实际问题作为题目举办一场算法比赛。
事实上,用算法大赛驱动算法和实际问题解决方案的进步一直是科技界的传统。其中最著名的应该就是 2006 年 Netflix 在举办的百美金 Netflix Prize,就曾经为该公司带来过包括算法、人才和品牌价值上的丰厚回报。其中在业界,这次大赛带来的最直接影响就是关于「推荐」算法上的突破性进步。
于是在这次人工智能学会联合IEEE中国和今日头条联合举办的这场「2016 Byte Cup 国际机器学习竞赛」,上述的第一个问题「为用户的提问快速找到最合适的人,并且提供高质量的问答」就被直接列为了比赛题目。而具体任务则是建立模型,预测某个专家可以回答某个问题的概率。经过几个月的比赛后,11 月 17 日,今日头条最终公布了比赛结果,一支由中科院和乔治亚理工两校博士组成的队伍最终获得了第一名,他们同样也会获得5000美金的现金酬劳。
(今日头条主办的算法大赛及其优胜者)
当然,由学界和今日头条共同主办的这次比赛显然还不能与 Netflix Prize 相提并论,「其实过去所有机器学习的比赛都是围绕着 Netflix Prize 来做的,现在大家通用的推荐算法也是在 Netflix Prize 获奖方案的基础上去做,所以今日头条的这次算法大赛希望做的是一个『差不多』的比赛,但同时不要太难。」今日头条实验室总监李磊表示。
而目前就比赛的结果来说,最终获胜的前三名的确也为头条问答的算法创新带来了一定启发。「比赛中提出了一些非常新颖的想法,比如冠军队伍的双向非对标 SVD + +,亚军队伍提出利用问题-作者数据构建无向图,再利用随机游走路径模拟文档,从而借用 word2vec 模型获得问题-作者对偶向量,都非常有趣,而且实际中确实对算法效果有改进,非常难得。」曹欢欢表示。
为什么人工智能对问答系统越来越重要?
虽然头条问答是 2016 年今日头条刚刚启动的项目,但是根据曹欢欢介绍,头条问答上的问题阅读率和回答数据已经和知乎非常接近。
用算法驱动这个问答社区为什么会变得重要?如果从今日头条的产品形态来说,提高提问者和专家、问题和合适的答案,以及这些内容和普通用户之间的「匹配」效率可能是最主要的原因。而且,今日头条已经聚集了 39 头条号作者,这些作者中不乏各个领域中的专家,当他们以「专家」形态参与到头条问答中时,这些作者的内容价值出渠道也变得更加丰富。
这大概也是今日头条进一步完善平台内容生态的重要方式。在铸造内容平台这道围城时,今日头条在笼络了大量用户和头条号作者后,一直希望用短视频、图片等形式完善自己的内容矩阵。而头条问答则成为了今日头条为提升头条作者价值的另一个阵地和渠道,对于那些提供优秀答案的作者,系统会突出展示其头条号的名称,从而增强其头条号作者的影响力和活跃度。
因此就现阶段来说,匹配机制还不够完善的头条问答对于头条作者的意义也许大于普通用户。由于覆盖的用户数量巨大,所以头条问答的社区氛围显然和我们现在熟知的问答社区不太一样。在以「社交」为驱动和纽带的问答社区中,feed 流中大多还是以时间轴和用户关注人以及他们关注的问题组成。但是不能否认的是,单从产品形态来说,机器学习也许可以提高问答社区的运转效率,让长尾问答内容需求得到满足。
比如 IT 技术问答网站 Stackoverflow 就已经引入了智能推荐机制,不过这个平台上的问题通常比较具体,而且答案是唯一的。在今日头条今年刚刚成立的算法实验室里,针对于实时性问题的「自动问答」解决方案已经成为团队研究的一个重点。「我们相信关于一些事实性问题,类似《哈利·波特》的作者是谁,现任美国总统是谁这类事实性问题,机器能够像百科全书一样自动回答。单单放在头条问答领域,也可以节省专家人力,提高效率。」今日头条实验室总监李磊表示。
今日头条实验室里的另外一个研究重点是概率推理算法研究,「这方面研究的意义是,希望机器不只是能从数据里快速学到东西,还希望能够做到在不确定的文本里做出推理,综合模糊的因素做出判断。」
可以肯定的是,现阶段,针对一些需要展示「观点」的问题,能够做的除了提高分发匹配效率,机器能做的还很少。不过我们依然可以期待的一点是,在未来问答社区的产品形态里,机器和人分别能够扮演什么样的角色,以及这种趋势对已经爆发的付费问答领域会带来什么样的影响。