一、背景
线上程序连接mongos超时,mongo监控显示连接数已使用100%。
java程序报错信息:
org.mongodb.driver.connection: Closed connection [connectionId{localValue:1480}] to 192.168.10.16:3717 because there was a socket exception raised by this connectionorg.springframework.data.mongodb.UncategorizedMongoDbException: Prematurely reached end of stream; nested exception is com.mongodb.MongoSocketReadException: Prematurely reached end of streamat org.springframework.data.mongodb.core.MongoExceptionTranslator.translateExceptionIfPossible(MongoExceptionTranslator.java:138)at org.springframework.data.mongodb.core.MongoTemplate.potentiallyConvertRuntimeException(MongoTemplate.java:2902)at org.springframework.data.mongodb.core.MongoTemplate.executeFindMultiInternal(MongoTemplate.java:2810)at org.springframework.data.mongodb.core.MongoTemplate.doFind(MongoTemplate.java:2532)at org.springframework.data.mongodb.core.MongoTemplate.doFind(MongoTemplate.java:2515)at org.springframework.data.mongodb.core.MongoTemplate.find(MongoTemplate.java:876)
此时java应用程序的监控指标是,接口超时。
走过的弯路是,怀疑出现了慢查询,数据量剧增的同时没有索引。
所以,前期解决方向着重在优化Mongodb查询速度,增加索引。
但是,接口还是报错,超时;服务健康检测时,还是进入了不健康状态。
而进一步查看Mongodb数据库并没有很慢(超过500毫秒)的慢查询。
再查看Mongodb的内存、CPU、网络流量等指标本身也没有异常,唯独遗漏了连接数指标。
通过本文,希望读者也有同感,连接数指标很重要。
二、连接池配置
- 最小连接数
- 最大连接数
- 连接的空闲时间
- 连接的存活时间
- 等待队列的长度
- 等待可用的超时
参考链接:
mongo connection-string
因为不同语言的Mongo驱动实现不同,本文从java实现看一看其源码。
- 阿里云数据库监控
从上图也可以看到,mongo数据库总共创建的连接数多达1189个,活跃的只有12个。
所以需要配置连接的空闲时间,及时释放连接,才不会导致有效请求无法连接mongodb。
而我们每个mongos能创建的连接数上限是2000,从监控信息可以看出,见下图:
当这里的连接使用率为100%时,程序后面想创建新的mongo连接,就会失败了。
既然知道这些指标重要,所以需要设置报警规则。
- mongos配置及使用
购买的mongos,规格显示是最大3K,最后却只有2K。这是个大坑么?
所以当我们的程序节点越来越多,只好购买多个mongos,截止目前,我们都已买了4个Mongos
在配置spring.data.mongodb.uri的值时,格式如下:
//指定连某个mongos
mongodb://{用户名}:{密码}@{域名信息}:3717/db_name//配置多个mongos
mongodb://{用户名}:{密码}@{域名信息1}:3717,{域名信息2}:3717,{域名信息3}:3717,{域名信息4}:3717/db_name
三、源码spring.boot.autoconfigure
1、入口类MongoAutoConfiguration.java
见jar包spring.boot.autoconfigure-2.2.4.RELEASE.jar
主要代码:
@Bean@ConditionalOnMissingBean(type = { "com.mongodb.MongoClient", "com.mongodb.client.MongoClient" })public MongoClient mongo(MongoProperties properties, ObjectProvider<MongoClientOptions> options,Environment environment) {return new MongoClientFactory(properties, environment).createMongoClient(options.getIfAvailable());}
使用MongoClientFactory工厂模式创建并实例化类MongoClient。
下一步看一看工厂类MongoClientFactory的主要实现。
2、工厂类MongoClientFactory.java
读取MongoProperties配置以及MongoClientOptions配置,前者是通过application.yaml配置,后者是通过uri追加参数的方式。
下面看一看这两个配置类里都有哪些配置项,着重分析是否有针对连接池相关的。
3、MongoProperties.java
这里就不一一贴出来,发现并没有连接池相关的配置。
那么进一步查看com.mongodb.MongoClientOptions.java类有哪些属性。
4、MongoClientOptions.java
可以看到,连接池配置相关参数,是在这个类中。
那么,他们是在什么哪里赋值的呢?
它们跟Mongodb驱动有关,让我们跳到jar包momgo-java-driver-3.11.2.jar
四、源码momgo-java-driver
数据库驱动使用jdni技术,避免了程序与数据库之间的紧耦合,使应用更加易于配置、易于部署。
找到类com.mongodb.client.jndi.MongoClientFactory.java
1、工厂类MongoClientFactory.java
package com.mongodb.client.jndi;import com.mongodb.MongoClient;
import com.mongodb.MongoClientURI;
import com.mongodb.MongoException;
import com.mongodb.diagnostics.logging.Logger;
import com.mongodb.diagnostics.logging.Loggers;
import java.util.Enumeration;
import java.util.Hashtable;
import javax.naming.Context;
import javax.naming.Name;
import javax.naming.RefAddr;
import javax.naming.Reference;
import javax.naming.spi.ObjectFactory;public class MongoClientFactory implements ObjectFactory {private static final Logger LOGGER = Loggers.getLogger("client.jndi");private static final String CONNECTION_STRING = "connectionString";public MongoClientFactory() {}public Object getObjectInstance(Object obj, Name name, Context nameCtx, Hashtable<?, ?> environment) throws Exception {String connectionString = null;if (environment.get("connectionString") instanceof String) {connectionString = (String)environment.get("connectionString");}if (connectionString == null || connectionString.isEmpty()) {LOGGER.debug(String.format("No '%s' property in environment. Casting 'obj' to java.naming.Reference to look for a javax.naming.RefAddr with type equal to '%s'", "connectionString", "connectionString"));if (obj instanceof Reference) {Enumeration props = ((Reference)obj).getAll();while(props.hasMoreElements()) {RefAddr addr = (RefAddr)props.nextElement();if (addr != null && "connectionString".equals(addr.getType()) && addr.getContent() instanceof String) {connectionString = (String)addr.getContent();break;}}}}if (connectionString != null && !connectionString.isEmpty()) {MongoClientURI uri = new MongoClientURI(connectionString);return new MongoClient(uri);} else {throw new MongoException(String.format("Could not locate '%s' in either environment or obj", "connectionString"));}}
}
这里引入了一个关键类MongoClientURI.java
2、MongoClientURI.java
它有一个属性:ConnectionString对象,也就是说,MongoClientURI是用来解析数据库连接参数。
见关键代码: new ConnectionString(uri)
3、连接参数类com.mongodb.ConnectionString.java
该类的代码行数比较多,首要看的是其构造函数。(写出了从mongo.uri中解析数据库连接池参数的全过程)
spring:data:mongodb:uri: mongodb://192.168.10.16:3717/db_name?maxPoolSize=50
- 构造函数
主要围绕着解析数据库连接相关参数来说明,其他的可以自行看源码。
- 解析配置项 private Map<String, List> parseOptions(String optionsPart)
- 赋值给当前类ConnectionString的属性
private void translateOptions(Map<String, List<String>> optionsMap) {boolean tlsInsecureSet = false;boolean tlsAllowInvalidHostnamesSet = false;Iterator var4 = GENERAL_OPTIONS_KEYS.iterator();while(var4.hasNext()) {String key = (String)var4.next();String value = this.getLastValue(optionsMap, key);if (value != null) {if (key.equals("maxpoolsize")) {this.maxConnectionPoolSize = this.parseInteger(value, "maxpoolsize");} else if (key.equals("minpoolsize")) {this.minConnectionPoolSize = this.parseInteger(value, "minpoolsize");} else if (key.equals("maxidletimems")) {this.maxConnectionIdleTime = this.parseInteger(value, "maxidletimems");} else if (key.equals("maxlifetimems")) {this.maxConnectionLifeTime = this.parseInteger(value, "maxlifetimems");} else if (key.equals("waitqueuemultiple")) {this.threadsAllowedToBlockForConnectionMultiplier = this.parseInteger(value, "waitqueuemultiple");} else if (key.equals("waitqueuetimeoutms")) {this.maxWaitTime = this.parseInteger(value, "waitqueuetimeoutms");} else if (key.equals("connecttimeoutms")) {this.connectTimeout = this.parseInteger(value, "connecttimeoutms");} else if (key.equals("sockettimeoutms")) {this.socketTimeout = this.parseInteger(value, "sockettimeoutms");} else if (key.equals("tlsallowinvalidhostnames")) {this.sslInvalidHostnameAllowed = this.parseBoolean(value, "tlsAllowInvalidHostnames");tlsAllowInvalidHostnamesSet = true;} else if (key.equals("sslinvalidhostnameallowed")) {this.sslInvalidHostnameAllowed = this.parseBoolean(value, "sslinvalidhostnameallowed");tlsAllowInvalidHostnamesSet = true;} else if (key.equals("tlsinsecure")) {this.sslInvalidHostnameAllowed = this.parseBoolean(value, "tlsinsecure");tlsInsecureSet = true;} else if (key.equals("ssl")) {this.initializeSslEnabled("ssl", value);} else if (key.equals("tls")) {this.initializeSslEnabled("tls", value);} else if (key.equals("streamtype")) {this.streamType = value;LOGGER.warn("The streamType query parameter is deprecated and support for it will be removed in the next major release.");} else if (key.equals("replicaset")) {this.requiredReplicaSetName = value;} else if (key.equals("readconcernlevel")) {this.readConcern = new ReadConcern(ReadConcernLevel.fromString(value));} else if (key.equals("serverselectiontimeoutms")) {this.serverSelectionTimeout = this.parseInteger(value, "serverselectiontimeoutms");} else if (key.equals("localthresholdms")) {this.localThreshold = this.parseInteger(value, "localthresholdms");} else if (key.equals("heartbeatfrequencyms")) {this.heartbeatFrequency = this.parseInteger(value, "heartbeatfrequencyms");} else if (key.equals("appname")) {this.applicationName = value;} else if (key.equals("retrywrites")) {this.retryWrites = this.parseBoolean(value, "retrywrites");} else if (key.equals("retryreads")) {this.retryReads = this.parseBoolean(value, "retryreads");}}}if (tlsInsecureSet && tlsAllowInvalidHostnamesSet) {throw new IllegalArgumentException("tlsAllowInvalidHostnames or sslInvalidHostnameAllowed set along with tlsInsecure is not allowed");} else {this.writeConcern = this.createWriteConcern(optionsMap);this.readPreference = this.createReadPreference(optionsMap);this.compressorList = this.createCompressors(optionsMap);}}
这个方法揭示了mongodb驱动所支持的全部参数,而且它读取的key字符都是小写字母。
而我们在实际配置mongodb.uri连接参数的时候,一般都会采用驼峰格式。
这是因为在方法parseOptions()解析的时候,强制把所有的key都转换为小写了。
五、参数的默认值
至此,我们已知道了mongodb连接支持哪些参数,但是,当缺省未配置时,它们的默认值分别是多少呢?
这就得看另一个jar包mongodb-driver-core-3.11.2.jar, package为com.mongodb.connection下,有一个类ConnectionPoolSettings采用builder构造模式,可以看到,在构建对象的时候有进行默认赋值。
所以,如果你没有对属性maxConnectionIdleTimeMS进行设置,默认是0,不会释放空闲连接。
前面4个属性都可以不管,属性maxConnectionIdleTimeMS是一定要设置的。
否则不活跃的连接都一直占据着mongo的连接,随着服务节点增多,就会影响到所有依赖Mongo集群的服务。
体现出来的报错就是连接超时,你还以为是服务的qps过高导致服务挂了呢。
而mongodb的慢查询又没有,服务的qps很低的时候,仍旧报连接mongo超时错误。(真的是要怀疑人生)
使出重启大法,服务也无法健康。
如果你想对节点扩容,那就离曙光越来越远了。
文末,我这里给出Mongo连接池相关的参数:
spring:data:mongodb:uri: mongodb://192.168.10.16:3717/db_name?maxPoolSize=50&minPoolSize=10&maxIdleTimeMS=60000
六、总结
本文的内容比较长,既描述了阿里云对mongodb数据库的监控(着重是连接数指标),以及Mongos的使用及购买的坑,也从Java语言的 Mongo驱动程序作为切入点,分析并总结了支持哪些数据库连接池的配置项。
本案例是基于生产实际中遇到的一个棘手问题,希望可以帮助到你。
通过本文,让我们对连接数这个指标有更深的体会,它是一个很冷的指标,却非常致命。
说它致命,是说我们在遇到程序报错的时候,极容易陷入平常思维,以为是有慢查询,或者程序QPS过高导致程序挂了。
当你想去扩容程序的节点数,或者创建数据库索引的时候,服务不健康的问题并不能得到丝毫解决。
当没有找到问题的根本时,就像一个病人感冒去看医生,结果CT和心电图等一大推检查,只会起到拖延的作用。