在一个更宏观的尺度上,算法推荐服从模型的数学和统计学特性。一个重要的特征是幂律分布。幂律分布是一条向下的、拖着长长尾巴的曲线,描述了在自然世界或人类社会中,“只有少数事务具有极大影响力,而大多数事务具有较小的影响力”的现象。这个世界上绝大多数大样本量模型都服从幂律分布,包括但不限于城市人口、地震强度、生物体积、太阳耀斑等,网络流量也不例外。
今天,人们已经察觉网络流量分布的不平等,将它们总结为“二八定律”,即粉丝数排在前20%的“大V”(拥有高粉丝量的用户)掌握80%的流量,后80%的中小用户只占20%流量的现象。但在另一边,幂律分布也带来“长尾定律”,它反映了另一种现象:分布中,存在大量影响力极小的样本,但总数加起来后仍非常可观。这意味着无论是多么小众的领域和作品,都会有相应的用户,不应该被忽略。这就是幂律分布两个最重要的数学特性。因此,要丰富推送内容,打破“二八定律”,让更多“长尾”被看到,商业公司除了要调整经营策略,还需要投入额外的算法改进机制。
当下,协同过滤和大数据、深度学习、人工智能等进一步配合,已经令算法推荐大抵呈现为一个黑箱,远远超出人类可理解的范畴。但可以想象,通过人类的调试和修改,这项技术也将更加先进,变得更加灵活多样、富于变化,适应各种各样的人类需求。我们有理由期待一个更好的、分配机制更公平友好的未来:彼时,“物以类聚,人以群分”将变得更加“丝滑”和生动,人们也能克服既有的茧房效应和流量至上,生活在更丰富的信息环境中。
来源丨光明日报