快数据：大数据的下一步 - 安防知识网

　　大数据的形成是因为源源不断产生的数据。在高容量环境中，数据输入的速度非常快，但仍然需要进行分析和存储。　　VoltDB公司软件架构师

　　大数据的形成是因为源源不断产生的数据。在高容量环境中，数据输入的速度非常快，但仍然需要进行分析和存储。

　　VoltDB公司软件架构师John Hugg建议，我们不应该简单地存储数据以便以后进行分析，我们应该实现这样的情况，当数据被输入时就可以被分析，同时通过Apache Kafka等工具来保持很高的输入率。

　　十几年前，我们几乎不可能使用商品硬件来分析PB级历史数据。现在，通过数千个节点构建的Hadoop集群非常常见。Hadoop等开源技术让我们看到了如何使用商品和虚拟化硬件来有效处理PB级数据，并且这种技术可以很容易地实现。因此，大数据开始出现。

　　现在我们正看到一个类似的数据革命的发生，即所谓的快数据(Fast Data)。首先，让我们看看快数据的定义。大数据是指以惊人速度产生的大量数据，例如点击数据、金融股票数据、日志聚集或者传感器数据。通常情况下，这些事件每秒发生数千或数万次。无怪乎这种类型的数据通常被称为“水龙管”。

　　对于大数据，我们并不是以数据仓库熟悉的千兆字节、TB和PB级来测量数据，我们是从时间的角度来计算：每秒多少MB、每小时多少GB或者每天多少TB。我们谈论的是速度以及容量，这是大数据和数据仓库之间的核心差异。大数据不仅大，而且很快。

　　快速移动的数据被转储到HDFS(分析型RDBMS)，大数据的好处就失去了，因为当事情发生时，我们将无法发出警报。大数据代表着活跃数据、即时状态。而数据仓库则是通过分析历史数据来了解过去和预测未来。

　　对数据进行即时分析被认为是昂贵且不切实际的，特别是在商用硬件上。而快数据的价值在于，重新规划消息队列和流媒体系统(例如开源Kafka和Storm)，并通过引入开源NoSQL和NewSQL产品，重新构建数据库的部署。

　　从快数据获取价值

　　从输入数据获得价值的最好方法是在它达到的瞬间做出反应。如果你在批量处理输入数据，你已经失去了最佳时机和数据中的价值。

　　为了处理以每秒数千到数百万事件的数据，你将需要两种技术：首先，你需要能够快速提供事件的流系统;其次，能够快速处理每个数据的数据仓库。

　　快递快数据

　　在过去几年出现了两个流行的流媒体：Apache Storm和Apache Kafka。Storm最初是由Twitter的工程团队开发，它可以稳定地处理每秒数百万的数据流。Kafka则是由LinkedIn的工程团队开发，这是一个高度分布式消息队列系统。这两个流系统都解决了处理快数据的需求。不过，Kafka有些不同。

　　Kafka被设计为一个消息队列，并能够解决现有技术的已知问题。这是具有无限可扩展性、分布式部署、多租户和强大持久性的双重队列。企业可以部署一个Kafka集群来满足其所有消息队列需求。在其核心，Kafka可以传递消息。它并不支持任何形式的处理或查询。

　　处理快数据

　　消息传递只是解决方案的一部分。传统关系型数据往往在性能方面受到限制，有些可能能够以高速率存储数据，但它们无法实时验证或操作数据。NoSQL系统可以提供集群和高性能，但牺牲了传统SQL系统提供的动力和安全性。对于基本的大数据处理，NoSQL解决方案可能会满足你的业务需求。然而，如果你试图执行复杂的查询和业务逻辑操作，内存NewSQL解决方案可以满足你的需求，无论是在性能还是事务的复杂性方面。

　　与Kafka一样，一些NewSQL系统建立在无共享集群的基础上。负载分布在集群节点之间，以确保性能。数据复制在集群节点之间复制，以确保安全性和可用性。为了处理增加的负载，节点可以透明地添加到集群。节点可能被删除，或者出现故障，而其他集群可以继续运作。该数据库和消息队列并没有单点故障。这些功能是可扩展系统的特点。

　　此外，Kafka和一些NewSQL系统能够利用集群和动态拓扑来扩展。Kafka提供消息排序保证，而一些内存处理引擎则提供序列化一致性和ACID语义。这些系统都是用集群感知客户端来提供更多功能或者简化配置。最后，它们都通过不同机器的磁盘来实现冗余耐用性，而不是RAID或其他本地存储方案。

　　大数据工具包

　　对于处理大数据，你需要怎样的系统?

　　具有本地无共享集群的冗余性和可扩展含蓄优势的系统

　　依靠内存存储和处理来实现每节点高吞吐量的系统

　　在数据输入时处理数据的系统。系统是否能执行条件逻辑?是否能够查询千兆字节或更多现有状态来通知决策?

　　隔离操作以及对其操作作出有力保障的系统。这允许用户编写更简单的代码，专注于业务问题，而不是处理并发问题或数据分歧。有些系统提供一致性，但是极大地降低了系统性能。

　　具有这些特定的系统源自于NewSQL、NoSQL和Hadoop社区，但不同的系统会有自己的优点和缺点。对于想要实时对数据采取行动的企业，这些工具可以减少理解大量数据的复杂性。

　　Kafka提供了安全的高可用的方法来在不同生产者和消费者之间移动数据，同时提供了性能来让管理员放心。内存数据库可以提供完整的关系型引擎，具有强大的事务逻辑、计数和聚合，都具有足够的可扩展性来满足任何负载。这种系统不仅是作为一种关系型数据库，这种系统还可以作为补充Kafka的消息基础设施的处理引擎。无论你的企业需求如何，这些工具可以帮助你更快地了解数据。