恭喜您获得一个红包!
有红包,心情好!
---
恭喜您!
有红包,心情好!
大数据 互联网大规模数据挖掘与分布式处理(图灵程序设计丛书)

[30万~50万] • 大数据 互联网大规模数据挖掘与分布式处理(图灵程序设计丛书)

通过本书,可以让你了解数据挖掘、统计建模、算法等一些人工智能思想基础。
2022年6月5日 • 技术知识 • 下载量:0次举报
举报

预览图片

图片预览图片预览

介绍说明

第一章主要给后续章节做一个简单的总结。

就其本身而言,第2章本身的内容与数据挖掘无关。更确切地说,第2章主要介绍用于云计算框架(由处理器互联的很多机架构成)下并行处理的Map-Reduce方法。有理由相信,当分析的数据量非常大的时候,云计算特别是Map-Reduce将会成为数据计算的常规做法。在后续章节当中一个普遍的话题就是基于Map-Reduce方法来实现书中介绍的算法。

第3章的主题是相似项发现。一开始每个项都表示成多个元素的集合,而相似集合就是具有大部分公共元素的集合。第3章还解释了最小哈希和局部敏感哈希技术,这些技术应用很广,并且往往给那些大数据集上看似不可能解决的问题带来出奇高效的解决方案。

第4章考虑数据流或者叫流数据。流数据和数据库的区别在于如果不及时处理流数据那么这些数据将会丢失。流数据的一些重要例子包括搜索引擎上的搜索查询或者某个热门Web网站上的点击数据等。本章将介绍哈希技术的几个令人惊讶的应用,在这些应用当中,哈希技术使得流数据的管理成为可能。

第5章仅仅致力于PageRank计算这个应用。PageRank的计算是Google脱颖而出的一个重要思想,并且PageRank仍然是搜索引擎知道用户最想访问哪些网页的关键。PageRank的扩展形式在反网页垃圾中(制造网页垃圾的另一个委婉的说法是“搜索引擎优化”)也非常重要,我们将介绍该思想在反垃圾领域的一种最新扩展形式。

第6章介绍数据的购物篮模型、最典型的关联规则问题及频繁项集发现算法。在购物篮模型中数据由大量购物篮组成,每个购物篮中包含少量项组成的项集。本章将给出一系列频繁项对发现的算法,其中频繁项对指的是那些同时出现在多个购物篮中的项。另外,本章还给出一系列用于发现大部分频繁项集”(比频繁项对大)的高效算法。

第7章考察聚类问题。假定有一个项集,两个项的远近可以通过某个距离指标来定义。聚类的目标是将大量的数据项划分到子集合(称为簇)中,使得簇内数据项的距离较近,而簇间的数据项距离较远

第8章主要考察在线广告及由其引发的计算问题。本章将介绍在线算法的概念,即必须立即给出一个好的回复而不需要一直等到看见全部数据集才回复。竞争率(competitiveratio)是本章中的另一个重要概念,它是在线算法所保证的性能和最优算法性能的比率,所谓最优算法指的是允许在看到所有数据之后再做决策的算法。上述概念用于设计良好的算法,当用户在搜索引擎输入查询时,这些算法能够与广告商的出价匹配来显示相应的广告。

最后,第9章介绍推荐系统。很多Web应用中都有给用户推荐其感兴趣的数据项的功能。Netflix竞赛就是一个例子,该竞赛期望对用户感兴趣的电影进行预测。而Amazon希望根据顾客的购买兴趣来推荐一款商品。推荐主要有两种方法。一种方法是,我们可以将数据项通过其特征来刻画,比如电影中的明星,然后推荐与已知的用户喜欢的物品具有同样特征的物品。另一种方法是,我们可以考察那些与当前用户具有相似爱好的用户,根据他们喜欢的物品来向当前用户推荐(该技术通常称为协同过滤)