mongodb单表数量瓶颈（mongodb单表最大记录数）_MongoDB_数据存储_文章

mongodb单表数量瓶颈（mongodb单表最大记录数）

MongoDB工程师

2024-08-22 09:32:02

0次

本文目录一览：

1、从上面执行计划可以看出，如果该OR类查询走{b：1， d：1， c：1， a：1}索引，则实际上做了全表扫描。如果同时创建{b：1， d：1}、{c：1， a：1}索引，则直接走两个索引，其执行key和doc扫描行数远远小于全表扫描。

2、所以，每次查询时都要遍历hash表，直到找到对应的hash值，如（4），数据量大了之后，hash表也会变得庞大起来，性能下降，遍历耗时增加，如（5）。

3、第一个特征是数据量大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。类型繁多（Variety）第二个特征是数据类型繁多。

1、范式化与反范式化在项目设计阶段，明确集合的用途是对性能调优非常重要的一步。

2、建立好合适索引，尽量使用更多的精确查询搭配模糊查询一起，不需要返回的字段要屏蔽，增大机器内存，使用固态硬盘，海量数据使用集群部署。

3、优化 MongoDB 集群负载均衡：在实际生产环境中，数据访问热度和节点性能差异可能导致某些节点超载。

4、在mongo中也提供了一个explain（）方法，该方法能够提供大量与查询相关的信息。对于速度比较慢的查询来说，它是最重要的性能分析工具之一。通过查看一个查询的explain（）输出信息，可以知道查询使用了哪个索引，以及是如何使用的。

值的范围可以从0.25GB到10000GB。

MongoDB 的数据文件比较大，通常会超过默认的 500M。这样看来，缓存用了 58G，这还差不多。Resident Pages 左侧的数字是页的数量，页的数量乘以文件系统页大小才是内存使用量。

MongoDB高可用的基础是复制集群，复制集群本质来说就是一份数据存多份，保证一台机器挂掉了数据不会丢失。一个副本集至少有3个节点组成：从上面的节点类型可以看出，一个三节点的复制集群可能是PSS或者PSA结构。

这种格式使得MongoDB能够灵活、高效地存储大量数据。此外，MongoDB支持分片，可以将数据分散到多个服务器，以实现数据的水平扩展。因此，对于需要处理大量数据的应用，如大数据、日志处理等，MongoDB是一个很好的选择。

reduce。相反，它将不得不把所有文章写入一个临时收集的磁盘，然后按顺序读取并reduce。

基本上没有机会在RAM中进行reduce，相反，它将不得不通过一个临时collection来将数据写回磁盘，然后按顺序读取并进行reduce。使用多线程 MongoDB对单独的MR作业并不使用多线程——它仅仅对多作业使用多线程。

我们需要做的是把输入分成几块，通过各个块来加速一个MR作业。

MongoDB能够使用BSON，并将BSON作为数据的存储存放在磁盘中。当Client端要将写入文档，使用查询等等操作时，需要将文档编码为BSON格式，然后再发送给Server端。同样，Server端的返回结果也是编码为BSON格式再放回给Client端的。

更多栏目