大数据运维

hadoop安全模式

hadoop安全模式在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文…

Linux干货 2015-04-13

Hadoop Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL 去查询分析需要的内容，这套SQL 简称Hive SQL，使不熟悉mapredu…

Linux干货 2015-04-13

谷歌三大核心技术（三）Google BigTable中文版

摘要 Bigtable是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据，包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大，无论是在数据量上（从URL到网页到卫星图像）还是在响应速度上…

Linux干货 2015-04-13

Hadoop Hive与Hbase整合+thrift

1. 简介 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。 Hive与HBas…

Linux干货 2015-04-13

Hadoop HDFS分布式文件系统设计要点与架构

Hadoop简介：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件…

Linux干货 2015-04-13

链接分析算法之：HillTop算法

Hilltop算法是由Krishna Baharat 在2000年左右研究的，于2001年申请专利，但是有很多人以为Hilltop算法是由谷歌研究的。只不过是Krishna Baharat 后来加入了Google成为了一名核心工程师，然后授权给Google使用的。 &nbsp…

大数据运维 2015-04-08

大数据计算：如何仅用1.5KB内存为十亿对象计数

Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5K This is a guest post by Matt Abrams (@abramsm), from Clearspring, discussing how they are able to accurat…

Linux干货 2015-04-08

使用Storm实现实时大数据分析

摘要：随着数据体积的越来越大，实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视，为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了，Storm让大数据分析变得轻松加愉快。当今世界，公司的日常运营经常会生成TB级别的数据。数据来源…

Linux干货 2015-04-04

6个用于大数据分析的最好工具

大数据是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器，气候信息，公开的信息，如杂志，报纸，文章。大数据产生的其他例子包括购买交易记录，网络日志，病历，军事监控，视频和图像档案，及大型电子商务。在大数据和大数据分析，他们对企业的影…

Linux干货 2015-04-04

Storm集群安装详解

storm有两种操作模式: 本地模式和远程模式。本地模式：你可以在你的本地机器上开发测试你的topology，一切都在你的本地机器上模拟出来; 远端模式：你提交的topology会在一个集群的机器上执行。本文以Twitter Storm官方Wiki为基础，详细描述如何快速搭建一个Storm集群，其中，项目实践中遇到的问题及经验总结，在相应章…

Linux干货 2015-04-04

五大主流数据库模型

导读：无论是关系型数据库还是非关系型数据库，都是某种数据模型的实现。本文将为大家简要介绍5种常见的数据模型，让我们来追本溯源，窥探现在流行的数据库解决方案背后的神秘世界。什么是数据模型？访问数据库中的数据取决于数据库实现的数据模型。数据模型会影响客户端通过API对数据的操作。不同的数据模型可能会提供或多或少的功能。一般而言，数据模型不会直接提供过多的功能…

Linux干货 2015-04-04

你的数据根本不够大，别老扯什么Hadoop了

本文原名“Don’t use Hadoop when your data isn’t that big ”，出自有着多年从业经验的数据科学家Chris Stucchio，纽约大学柯朗研究所博士后，搞过高频交易平台，当过创业公司的CTO，更习惯称自己为统计学者。对了，他现在自己创业，提供数据分析、推荐优化咨询服务，他的邮件是：stucchio@gmail.co…

Linux干货 2015-04-04