Google放弃MapReduce转向新型超大规模分析系统

Urs Hölzle, senior vice president of technical infrastructure at Google, announced a new cloud analytics system at the 2014 Google I/O conference in San Francisco.

    Google已经放弃使用MapReduce,转而去支持一个称为“云数据流”的全新的云分析系统。MapReduce系统起初由Google研发,随后开放源码,用于在许多台服务器上运行数据分析作业。

    ...

继续阅读

基于SpringSide生成Eclipse Web工程

SpringSide框架简介

    SpringSide框架有一个十分美丽的中文名称——“春天的旁边”,根据该框架官方网站提供的定义:SpringSide是以Spring Framework为核心的,Pragmatic风格的JavaEE应用参考示例,是JavaEE世界中的主流技术选型,最佳实践的总结与演示

    springside

    框架的作者将SpringSide描述为“Pragmatic Enterprise Application Kick-Start and Common Library Stack”,即务实风格的企业应用快速起点与通用库栈。SpringSide采用 ...

继续阅读

用Node.js时不应该做的7件事

Seven Things You Should Stop Doing with Node.js

Inspired by 5 Things You Should Stop Doing With jQuery by Burke Holland, I decided to open a discussion and highlight seven things you should immediately stop doing with Node.js:

受Burk Hollad的博文《用jQuery时不应该做的5件事》启发,我决定做一个讨论并强调7点用Node.js时不应该做的事情:

  1. Stop using callbacks ...

继续阅读

推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

下面简单列举几种常用的推荐系统评测指标:

1、准确率与召回率(Precision & Recall)

准确率召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率

一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。

正确率、召回率和 F 值是在鱼龙混杂的环境中,选出目标的重要评价指标。不妨看看这些指标的定义先:

    1. 正确率 = 提取出的正确信息条数 /  提取出的信息条数   ...

继续阅读

谷本相似度和谷本距离

谷本相似度和谷本距离是数据挖掘和机器学习领域中常用的两个概念,它们起源于化学信息学,用于比较分子之间的相似度或差异。以下是对这两个概念的详细解释:

一、谷本相似度(Tanimoto Similarity)

  1. 定义:谷本相似度,也被称为Tanimoto系数或广义Jaccard相似系数,用于量化两个集合(在化学信息学中通常是分子)的相似程度。
  2. 计算方式:基于集合论的概念,通过比较两个集合的交集与并集的比例来确定它们的相似性。具体计算公式为:Tanimoto系数 = 交集大小 / 并集大小。这个系数的取值范围在0到1之间,其中0表示两个集合完全不重叠(无相似性),1表示两个集合完全相同(完全相似)。
  3. 应用:在化学信息学、生物信息学以及推荐系统等领域中,谷本相似度被广泛应用于分子相似度计算、化合物筛选、用户兴趣推荐等方面。

二、谷本距离(Tanimoto Distance)

  1. 定义:谷本距离是基于谷本相似度的一种距离度量方式。由于谷本相似度的取值范围在0到1之间,因此可以通过将1减去谷本相似度来计算谷本距离 ...

继续阅读