探寻微博背后的大数据原理：推荐算法-PingCAP

探寻微博背后的大数据原理：推荐算法

网友投稿 1315 2023-04-26

探寻微博背后的大数据原理：推荐算法

推荐系统诞生很早，但真正被大家所重视，缘起于以”facebook”为代表的社会化网络的兴起和以“淘宝“为代表的电商的繁荣，”选择“的时代已经来临，信息和物品的极大丰富，让用户如浩瀚宇宙中的小点，无所适从。推荐系统迎来爆发的机会，变得离用户更近：

快速更新的信息，使用户需要借助群体的智慧，了解当前热点。信息极度膨胀，带来了高昂的个性化信息获取成本，过滤获取有用信息的效率低下。很多情况下，用户的个性化需求很难明确表达，比如“今天晚上需要在附近找一个性价比高、又符合我口味的餐馆“。

推荐系统的适用场景还有很多，不再一一列举；其主要解决的问题是为用户找到合适的item（连接和排序），并找到一个合理的理由来解释推荐结果。而问题的解决，就是系统的价值，即建立关联、促进流动和传播、加速优胜劣汰。

推荐算法是实现推荐系统目标的方法和手段。算法与产品相结合，搭载在高效稳定的架构上，才能发挥它的最大功效。

接下来我们说一下微博推荐，微博本身的产品设计，使得即使没有推荐系统，仍然会形成一个大的用户关系网络，实现信息快速传播；而衡量一个事物的价值，一个简单的方法是对比看看保留它和去掉它时的差别。微博需要健康的用户关系网络，保障用户feed流的质量，且需要优质信息快速流动，通过传播淘汰低质信息。微博推荐的作用在于加速这一过程，并在特定的情况下控制信息的流向，所以微博推荐的角色是一个加速器和控制器。

最后回到微博推荐算法中来，上面扯了那么多，只是为了让大家能对微博推荐算法有更好的理解。我们的工作，是将微博推荐的目标和需要解决的问题，抽样为一系列的数学问题，然后运用多种数据工具进行求解。

接下来首先用一个图梳理下我们用到的方法和技术，然后再逐一介绍。

基础及关联算法

这一层算法的主要作用是为微博推荐挖掘必要的基础资源、解决推荐时的通用技术问题、完成必要的数据分析为推荐业务提供指导。

这一部分中常用的算法和技术如下：

分词技术与核心词提取

是微博内容推荐的基础，用于将微博内容转化为结构化向量，包括词语切分、词语信息标注、内容核心词/实体词提取、语义依存分析等。

分类与anti-spam

用于微博内容推荐候选的分析，包含微博内容分类和营销广告/色情类微博识别；

内容分类采用决策树分类模型实现，共3级分类体系，148个类别；营销广告/色情类微博的识别，采用贝叶斯与最大熵的混合模型。

聚类技术

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

1315 2023-04-26

探寻微博背后的大数据原理：推荐算法

黄东旭解析 TiDB 的核心优势

黄东旭关于基础软件产品价值的思考

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

探寻微博背后的大数据原理：推荐算法

微信扫一扫：分享

推荐文章

友情链接

热评文章