半个月前还沉浸在“抖音”高速增长的喜悦中的今日头条,最近却有点焦头烂额。央视、人民日报、第一财经周刊等央媒和核心财经媒体,在上周对今日头条及旗下的抖音产品进行了一轮违规发布广告的曝光以及价值观的批判。
在相关的许多报道中,媒体都或明或暗的强调了一点:信息流推荐技术本身早已被国内外论证了是一个成功的移动互联网产品,但之所以出现劣币驱逐良币的问题还是因为使用这个技术的企业出了问题。
也正因此,不少媒体在引述相关报道的时候都会强调,去年初,今日头条创始人张一鸣在接受《财经》杂志专访时提出的,不认为今日头条应该有价值观这一论调。
这在一定程度道出了今日头条的核心问题,但事实上更为关键的是,如今这个阶段的基于人工智能算法的内容之战,已不仅仅是打破“信息茧房”这么简单。从技术之战开始,这场信息流大战的赛点,已发生了轻微的变化。
一
推荐准确性的PK,仍将决定于数据而非算法的技巧
对信息流来说,算法准确性是竞争重点,但真正的决胜点,却是数据。
1、数据热启动是百度实现奇袭的根源
首先需要明确一个理论,推荐算法的准确性并不是被计算出来的,而是被统计出来的(这一点在后文底层技术分析会详细说明),这意味着数据量越大、越相关,越能得出准确的推荐效果。
而且,由于复杂网络向量关系的存在,一个向量特征的准确性影响是呈几何扩散的,数据对推荐准确性的影响是非线性增长的关系。在足够多的数据量情况下,会快速提升,直到准确率接近100%开始变缓(毕竟1










