@yexiaoqi 2023-06-07T09:51:00.000000Z 字数 19899 阅读 907

整理

面试 技术

基础

String为什么被设计为不可变的？

String类型是使用最多，每次增删改差之前其实jvm需要通过hashcode检查对象的安全性，设计成不可变对象，保证了每次增删改查的hashcode的唯一性。
网络连接地址URL,文件路径path通常情况下都是以String类型保存, 假若String不是固定不变的,将会引起各种安全隐患。
字符串值是被保留在常量池中的，假如字符串对象允许改变,那么将会导致各种逻辑错误

HashMap的原理

HashMap 的原理就是用一个数组存储一系列 K-V结构的 Node 实体，存储的位置通过对 key 的 hashCode 进行计算得到。如果发生 hash 冲突，就将新的 Node 插入链表，链表过长超过阈值的话为了提高查询效率会转为红黑树（JDK 1.8以后）详见源码阅读-HashMap。

Spring事务失效的12种场景

Spring 事务：再对应service层方法上使用@Transcational，分布式的话需使用分布式事务。下面几种情况会导致事务不生效

访问权限不是 public
方法用 final 修饰/是static
spring 事务底层通过 jdk 动态代理/cglib，帮我们生成代理类，在代理类中实现事务功能；如果某个方法用 final 修饰/是static，在它的代理类中就无法重写该方法
同一个类中的方法内部调用
- 如果确实有场景要保证事务，可以直接注入自己，Spring 的三级缓存保证了不会出现循环依赖的问题
- 不要直接内部调用，使用 AopContext.currentProxy() 获取代理对象，再调用
未被 Spring 管理
多线程调用（不同的线程拿到的数据库连接不同，事务必然失效）
表不支持事务（比如使用 MyISAM）
未开启事务

下面几种情况会导致事务不回滚

错误的传播特性
默认的传播特性REQUIRED：如果当前上下文中存在事务，则加入该事务，如果不存在，则创建一个事务。只有这三种传播特性才会创建新事务：REQUIRED，REQUIRES_NEW，NESTED
自己吞异常
手动抛了别的异常
spring 事务默认情况下只会滚RuntimeException（运行时异常）和Error（错误），对于普通的 Exception（非运行时异常）不会回滚
自定义了回滚异常
抛出的异常不属于 rollbackFor 设置的异常，则事务不会回滚，一般建议设置为 Exception
嵌套事务多回滚了
即：只想回滚嵌套事务（propagation=Propagation.NESTED），但将整个事务都回滚了，如何处理？使用 try……catch 包住嵌套事务内的异常不往外抛

其他

大事务问题：事务执行耗时比较长，会导致死锁、锁等待、回滚时间长、接口超时、并发情况下数据库连接被占满、数据库主从延迟等问题

编程式事务，基于TransactionTemplate的编程式事务优点：避免由于 Spring AOP 导致事务失效的问题、能更小粒度的控制事务的范围，更直观

    @Autowired
    private TransactionTemplate transactionTemplate;
    public void save(final User user) {
        queryData1();
        queryData2();
        transactionTemplate.execute((status) => {
            addData1();
            updateData2();
            return Boolean.TRUE;
        })
    }

Spring的三级缓存机制

三级缓存分别是：
singletonObject：一级缓存，该缓存 key=beanName, value=bean；该 bean 是已经创建完成的，经历过实例化->属性填充->初始化以及各类的后置处理。一旦需要获取 bean 时，第一时间就会寻找一级缓存；
earlySingletonObjects：二级缓存，该缓存 key = beanName, value = bean；跟一级缓存的区别在于，该缓存所获取到的 bean 是提前曝光出来的，还没创建完成。获取到的 bean 只能确保已进行了实例化，但是属性填充跟初始化肯定还没有做完，因此该 bean 还没创建完成，仅仅能作为指针提前曝光，被其他 bean 所引用；
singletonFactories：三级缓存，该缓存 key = beanName, value = beanFactory；在 bean 实例化完之后，属性填充、初始化之前，如果允许提前曝光，spring 会将实例化后的 bean 提前曝光，也就是把该 bean 转换成 beanFactory 并加入到三级缓存。在需要引用提前曝光对象时再通过 singletonFactory.getObject() 获取。

具体参考当Spring AOP遇上循环依赖

三级缓存

Spring Event

Spring Event 使用观察者模式，事件源发布一个事件，事件监听器可以消费这个事件，事件源不用关注发布的事件有哪些监听器，可以对系统进行解耦。实现方式上有两种：

类实现ApplicationListener接口
方法上使用@EventListener注解

Spring 中事件监听器的处理默认是同步方式，可以改为异步，有两种方式

注入名称为applicationEventMulticaster的bean，顺便给executor设置一个值，就可以实现监听器异步执行了
监听方法上使用 @Async注解

Spring 事件监听器消费事件同步模式下支持自定义顺序，一般在监听方法上使用@Order(1)，数字越小优先级越高；异步模式下顺序不靠谱。
适用场景：异步模式将主逻辑和监听器逻辑分到不同线程中，适合非主要逻辑，因为监听器运行有可能失败。如果非主要逻辑要求必须成功，考虑使用更重量级的消息中间件来解决。
具体代码参考：@EventListener：定义 spring 事件监听器

多线程

自定义线程池的几个参数是什么？

corePoolSize：核心线程数。当线程池中线程数 < corePoolSize 时，默认是添加一个任务才创建一个线程池；当线程数 = corePoolSize 时，新任务会追加到工作队列(workQueue)中。
maximumPoolSize：允许的最大线程数（非核心线程数 + 核心线程数）。当工作队列也满了，线程池中总线程数 < maximumPoolSize 时就会增加线程数量。
keepAliveTime：非核心线程（maximumPoolSize - corePoolSize）闲置下来的最多存活时间。
unit：线程池中非核心线程存活时间的单位
workQueue：线程池等待队列，维护着等待执行的 Runnable 对象。当运行线程数 = corePoolSize 时，新的任务会被添加到 workQueue 中，如果 workQueue 也满了，则尝试用非核心线程执行任务，等待队列应该尽量用有界的。常用的阻塞队列：
- ArrayBlockingQueue：数组实现的有界队列
- LinkedBlockingQueue：基于链表实现的阻塞队列，容量不设置的话将是一个无界队列，最大长度 Integer.MAX_VALUE，吞吐量比 ArrayBlockingQueue 高。
- DelayQueue：延迟队列，根据指定的执行时间从小到大排序，否则根据插入到队列的先后排序
- PriorityBlockingQueue：具有优先级的无界阻塞队列。
- SynchronousQueue：不存储元素的阻塞队列，吞吐量高于 LinkedBlockingQueue
threadFactory：创建新线程时的工厂，可以用来设定线程名、是否为守护线程等。
handler：corePoolSize、workQueue、maximumPoolSize 都不可用的时候执行的拒绝策略。
- AbortPolicy：直接抛出异常，默认使用此策略；
- CallerRunsPolicy：由调用者所在的线程来执行任务；
- DiscardOldestPolicy：丢弃阻塞队列里最老的任务
- DiscardPolicy：当前任务直接丢弃
- 写自己的拒绝策略，需实现 RejectedExecutionHandler 接口即可；

线程池的执行流程？

线程池的执行流程

线程池刚创建时，里面没有线程，任务队列作为参数传进来
当调用 execute() 方法添加一个任务时，线程池会判断：
- 运行的线程数量 < corePoolSize，则创建线程运行此任务
- 运行的线程数量 >= corePoolSize，那么这个任务将放入队列
  - 队列已满 & 运行的线程数 < maximumPoolSize，则创建非核心线程运行此任务
  - 队列已满 & 运行的线程数 >= maximumPoolSize，则根据拒绝策略来处理
当线程完成任务时，会从队列中取一个任务来执行
当前运行的线程数大于 corePoolSize，线程空闲超过一定时间（keepAliveTime）时，那么这个线程就会被停掉。线程池所有任务完成后，线程数最终会收缩到 corePoolSize 的大小。

线程池的线程数如何配置？

计算密集型：CPU数 + 1
IO 密集型：CPU核心数 * 2
混合型：根据情况拆分为 CPU 密集型和 IO 密集型

具体参考 Java线程池实现原理及其在美团业务中的实践

从线程池角度考虑如何减少任务的阻塞时间？

思路一：根据具体的使用场景配置合理的线程池参数，参考上一个问题/不断压测调整到最优参数
思路二：任务到来后先增加核心线程，达到核心线程数后任务被放到阻塞队列中，阻塞队列满后才会继续创建非核心线程达到最大线程数。可以通过修改阻塞队列的实现，当任务超过核心线程数后，直接创建非核心线程而不是将任务放入阻塞队列，以减少任务的阻塞时间

多线程的业务场景

简单定时任务
new Thread 里面放一个 while(true) 循环。优点是简单，缺点是功能单一，无法应对复杂场景
监听器
搭配配置中心，修改配置开关后，动态刷新，服务端用开关判断是否启动业务逻辑处理
收集日志
如果没有引入 MQ，可以通过多个线程/线程池异步写日志数据到数据库
excel导入
excel 导入读取数据后可能有复杂的业务逻辑需要处理，可以通过多线程处理。最简单的实现方式：parallelStream，它通过ForkJoinPool实现
统计数量
count++ 并非原子操作，多线程执行时，统计次数可能出现异常。可以使用AtomicInteger等atomic包下面的类
查询接口
接口中有串行远程调用的，可以改为并行调用

public UserInfo getUserInfo(Long id) throws InterruptedException, ExecutionException {
    final UserInfo userInfo = new UserInfo();
    CompletableFuture userFuture = CompletableFuture.supplyAsync(() -> {
        getRemoteUserAndFill(id, userInfo);
        return Boolean.TRUE;
    }, executor);
    CompletableFuture bonusFuture = CompletableFuture.supplyAsync(() -> {
        getRemoteBonusAndFill(id, userInfo);
        return Boolean.TRUE;
    }, executor);
    CompletableFuture growthFuture = CompletableFuture.supplyAsync(() -> {
        getRemoteGrowthAndFill(id, userInfo);
        return Boolean.TRUE;
    }, executor);
    CompletableFuture.allOf(userFuture, bonusFuture, growthFuture).join();
    userFuture.get();
    bonusFuture.get();
    growthFuture.get();
    return userInfo;
}

并发

ReentrantLock 和 Synchronized 的区别？Synchronized 原理？

Synchronized 是依赖于 JVM 实现的，而 ReetrantLock 是 API 实现的；
在 Synchronized 优化以前，synchronized 的性能是比 ReentrantLock 差很多的，但是自从 Synchronized 引入了偏向锁，轻量级锁（自旋锁）后，两者性能就差不多了；
Synchronized 由编译器去保证锁的加锁和释放；ReentrantLock 需要手工加锁和释放锁
ReentrantLock 可以指定是公平锁还是非公平锁，而 Synchronized 只能是非公平锁
ReentrantLock 可响应中断、可重入，而 Synchronized 是不可以响应中断的

synchronized 锁升级过程

synchronized 有三种使用方式：

修饰静态方法：锁住当前 class，作用于该 class 的所有实例
修饰非静态方法：只锁当前 class 的实例
修饰代码块：锁住该参数对象

Java 对象结构分为 对象头、对象体、对齐字节。对象头包含三部分：

Mark Word：存储自身运行数据（当前对象线程锁状态及 GC 标志）
class 指针：指向方法区中该 class 的对象，JVM 通过此字段判断当前对象事哪个类的实例
数组长度：只有是数组时才会用到

锁升级过程按照无锁 -> 偏向锁 -> 轻量级锁 -> 重量级锁方向升级，无法进行锁降级。

线程A在进入同步代码块前，先检查 MarkWord 中的线程 ID 是否与当前线程 ID 一致，如果一致，则直接无需通过 CAS 来加锁、解锁
如果不一致，再检查是否为偏向锁，如果不是，自适应自旋等待锁释放
如果是，在检查对应线程是否存在，如果不在，则设置线程 ID 为线程 A 的 ID，还是偏向锁
如果在，撤销偏向锁，升级为轻量级锁。线程 A 自旋等待锁释放
如果自旋到了阈值，锁还没释放，又有一个线程来竞争锁，此时升级为重量级锁。其他竞争线程都被阻塞，防止CPU空转
锁被释放，唤醒所有阻塞线程，重新竞争锁

聊聊 AQS（抽象队列同步器）? ReentrantLock 的实现原理？

Disruptor

Disruptor是一个高性能异步处理框架，能够在无所的情况下实现队列的并发。
使用环形数组实现了类似队列的功能，并且是一个有界队列。通常用于生产者-消费者场景

核心设计原理

环形数组结构
- 为了避免垃圾回收，使用数组代替链表
- 数组对CPU的缓存机制更友好，遍历更快
元素位置定位
- 数组长度2^n，可以通过位运算提升定位的速度
- 数组中元素下标采用递增的形式
- index采用long类型，不用担心index溢出的问题
无锁设计：生产者/消费者线程会先申请可以操作的元素在数组中的位置，申请到之后直接在该位置写入/读取数据，整个过程中通过原子变量CAS，保证操作的线程安全

优点

使用无所队列实现并发操作，性能高
所有访问者都记录自身序号的实现方式，允许多个生产者和多个消费者共享相同的数据结构
在每个对象(包括RingBuffer,WaitStrategy)，生产者和消费者中都能跟踪序列号，使用了缓存行填充cache line padding，这样就没有伪共享和非预期的竞争

详细参考：高性能并发队列Disruptor使用详解

JVM

JVM内存模型？哪些是线程独享、哪些是线程共享？

jvm内存模型

堆、方法区是线程共享；虚拟机栈、本地方法栈、程序计数器是线程私有的

jvm加载类的时候的阶段、static成员变量在各个阶段中发生了什么变化

Java堆的分区，比例，如果调大比例后会有什么样的后果？

Java堆内存结构

默认的，Young:Old=1:2 (可通过参数 –XX:NewRatio 来指定)。其中，新生代(Young)被细分为 Eden 和两个 Survivor 区域，这两个 Survivor 区域分别被命名为 from 和 to。老年代过小会导致频繁发生 fullGC，继而导致 STW
默认的，Eden:from:to = 8:1:1 (可通过参数 –XX:SurvivorRatio 来设定)，新生代比例过小会导致频繁发生MinorGC

JVM的GC算法，为什么“标记-整理”更好一些，能解决什么问题？

标记-整理：标记出所有需要回收的对象，将所有存活对象向内存一边移动，清理掉边界以外的部分。
主要用于老年代，移动存活对象代价比较大，而且需要STW，从整体的吞吐量来考量，老年代使用标记-整理算法更合适。

什么时候对象进入老年代？

大对象直接进入老年代
长期存活的对象
动态对象年龄判定：Survivor 区中所有相同年龄的对象的大小总和大于 Survivor 空间的一半，则年龄大于或等于该年龄的对象就直接进入老年代
空间分配担保：担保的前提是自己本身还有容纳这些对象的剩余空间，由于无法提前知道会有多少对象存活下来，所以取之前每次晋升到老年代的对象的平均大小作为经验值，与老年代的剩余连续空间做比较

什么情况会触发 FullGC?

调用System.gc()时，会告诉 JVM 可以GC
创建大对象新生代放不下，老年代也放不下，会触发 FullGC
Survivor 空间不够用，会通过分配担保机制，将多出来的对象提前转到老年代，如果老年代的可用内存小于该对象的大小，就会触发 Full GC
当老年代中最大可用的连续空间<历代晋升到老年代的对象的平均大小时，会触发Full GC 来让老年代腾出更多空间

Java类加载机制？共有哪几种类加载器？

类加载过程 JVM 要：获取类的二进制字节流->结构化静态存储结构->在内存中生成 Class 对象
双亲委派模型：自己尝试加载，加载不了交给父类加载器加载

启动类加载器：加载 java 核心类库 \lib、-Xbootclasspath指定路径
扩展类加载器：加载扩展库 \lib\ext
应用类加载器：加载 classpath 路径下的类
自定义类加载器

看线上正在运行的服务的GC日志，你需要输入什么指令?

jmap -histo:live PID | head -n20：查看对应进程对象中占用空间较大的前20个对象
jstat -gcutil -h20 PID 1000：查看堆内存各区域使用率及 GC 情况
jstat -gc PID 1000：查看 GC 次数时间等，一秒一次
jmap -dump:live,format=b,file=heap4.hprof PID：使用 jmap 生成 dump 文件后再详细分析

G1和CMS垃圾回收器的区别，哪几个过程中会STW? G1的region

使用范围不一样
CMS：老年代，需要配合新生代Serial/ParNew一起使用
G1：新生代、老年代
STW 的时间
CMS：以最小停顿时间为目标
G1：可预测垃圾回收的停顿时间
垃圾碎片
CMS：使用“标记清除”算法，容易产生内存碎片
G1：“标记整理”算法，没有内存碎片
垃圾回收过程不一样
CMS：初始标记(STW)、并发标记、重新标记(STW)、并发清除
G1：初始标记(STW)、并发标记、最终标记(STW)、筛选回收(STW)
CMS会产生浮动垃圾

G1将Java堆划分为2048个大小相同的独立 Region 块，每一个Region都可以根据需要，扮演新生代的Eden空间、Survivor空间，或者老年代空间。收集器能够对扮演不同角色的Region采用不同的策略去处理

JVM 调优

什么时候考虑 JVM 调优？

堆内存（老年代）持续上涨达到设置的最大内存值；
Full GC 次数频繁；
GC 停顿事件过长（超过1秒）；
应用出现 OutOfMemory 等内存异常；
应用中有使用本地缓存且占大量内存空间；
系统吞吐量与响应性能不高/下降；

JVM 调优的目标

延迟：GC 低停顿和 GC 低频率
低内存占用
高吞吐量

JVM 调优量化目标

堆内存使用率 <= 70%
老年代内存使用率 <= 70%
平均暂停时间 <= 1秒
full gc 次数0 或者平均暂停间隔 >= 24小时

JVM 调优的步骤

分析 GC 日志及 dump 文件，判断是否需要优化，确定瓶颈问题点；
确定 JVM 调优量化目标；
确定 JVM 调优参数（根据历史 JVM 参数来调整）；
依次调优内存、延迟、吞吐量等指标；
对比观察调优前后的差异；
不断分析和调整，直到找到合适的 JVM 参数配置；
找到最合适的参数，将这些参数应用到所有服务器，并进行后续跟踪。

常见的 JVM 参数

堆栈配置相关

-Xmx：最大堆大小
-Xms：初始堆大小
-Xmn2g：设置年轻代大小为 2g；
-Xss128k：每个线程的堆栈大小为 128k；
-XX:MaxPermSize=16m：设置持久代大小为 16m；
-XX:NewRatio=4：设置年轻代（Eden + 两个 Survivor 区）与老年代的比值（除去持久代）；
-XX:SurvivorRatio=4：设置年轻代中 Eden 区与 Survivor 区的大小比值。 Eden:S0:S1=4:1:1，一个 Survivor 区占整个年轻代的 1/6；
-XX:MaxTenuringThreshold=0：设置垃圾最大年龄。如果设置为 0 的话，则年轻代对象不经过 Survivor 区，直接进入年老代。

垃圾收集器相关

-XX:+UseParallelGC：选择垃圾收集器为并行收集器；
-XX:ParallelGCThreads=20：配置并行收集器的线程数；
-XX:+UseConcMarkSweepGC：设置年老代为并发收集；
-XX:+UseCMSCompactAtFullCollection：打开对年老代的压缩。可能会影响性能，但是可以消除碎片；
-XX:+UseConcMarkSweepGC 使用 CMS 垃圾收集器。

辅助信息

-XX:PrintGC
-XX:+PrintGCDetails

常用调优策略

选择合适的垃圾收集器；
调整内存大小（垃圾收集频率非常频繁）
调整内存区域大小比率（某一个区域的 GC 频繁，其他都正常）
调整对象升老年代的年龄（老年代频繁 GC，每次回收的对象很多）
调整大对象的标准（老年代频繁 GC，每次回收的对象很多，而且单个对象的体积都比较大）
调整 GC 的触发时机（CMS、G1 经常 Full GC，程序卡顿严重)
调整 JVM 本地内存大小（GC 的次数、事件和回收的对象都正常，堆内存空间充足，但是报 OOM）

MySQL

SQL查询语句是如何执行的？

MySQL的逻辑架构图
一条查询语句的执行过程一般是经过连接器、分析器、优化器、执行器等功能模块，最后到达存储引擎

SQL更新语句是如何执行的？

执行语句前要先连接数据库，分析器会通过词法和语法解析知道这是一条更新语句，会把表T上所有缓存结果都清空。优化器决定要使用哪这个索引，然后执行器负责具体执行，找到这一行，然后更新。

MySQL默认的事务等级是什么？如何开启慢查询？

MySQL事务隔离级别：读未提交、读已提交、可重复读（默认）、串行化。可重复读会导致幻读，InnoDB 通过多版本并发控制机制(MVCC)解决了该问题。

默认情况下，MySQL 没有开启慢查询日志，如需永久开启，则要修改mysql的配置文件，在 [mysqld] 下增加slow_query_log=1、slow_query_log_file=/usr/local/mysql/data/slow.log，并重启 mysql 服务。详细参见MySQL慢查询日志如何开启以及分析

B+ 树和 B树的主要区别？B+ 树索引，一次查找过程?

B+ 树是有序的，和B-树的主要区别：

B-树内部节点是保存数据的；而 B+ 树内部节点不保存数据，只做索引用，叶子节点才保存数据
B+树相邻的叶子节点之间是通过链表指针连起来的，B-树不是

假设由如下SQL：age 加个索引，这条 SQL 是如何在索引生执行的？

select * from Temployee where age=32;

idx_age二级索引树

id主键索引树

这条 SQL 查询语句的执行大概流程：

搜索 idx_age 索引树，将磁盘块 1 加载到内存中，由于 32<37 搜索左路分支，到磁盘寻址磁盘块 2；
将磁盘块 2 加载到内存中，在内存中继续遍历找到 age=32 的记录，取得 id=400;
搜索 id 主键索引树，将磁盘块 1 加载内存，在内存中遍历找到 400。但是 B+树索引非叶子节点是不保存数据的。索引会继续搜索 400 的右分支，到磁盘寻址磁盘块 3；
将磁盘块 3 加载内存，在内存遍历，找到 id=400 的记录，拿到 R4 这一行的数据

MongoDB为啥用B树而不是B+树

B-树所有节点都存储数据，因此在查询单条数据的时候，B树的查询效率不固定，最好的情况是O(1)。我们可以认为在做单一数据查询的时候，B树的平均性能更好，但不适合做一些数据遍历操作。
B+树的数据只出现在叶子节点上，因此查询单条数据的时候，查询速度非常稳定，但是在单一数据查询上平均性能不如B树。因为叶子节点有指针相连，适合做范围查询
MonogoDB是nosql，对遍历的需求没有关系型数据库强烈

InnoDB 存储引擎中的行锁的加锁规则

InnoDB 三种行锁:
- Record Lock(记录锁)：锁住某一行记录
- Gap Lock(间隙锁)：锁住一段左开右开的区间(m, n)
- Next-key Lock(临键锁)：锁住一段左开右闭的区间(m, n]

对于 update、delete、insert，InnoDB 会自动给相应记录行加写锁
对普通 select 语句不加锁，但是在 Serializable 隔离级别下会加行级读锁
select …… for update加行级写锁
select …… lock in share mode加行级读锁

查找过程中访问到的对象才会加锁
加锁的基本单位是临键锁

数据库索引优化？索引的弊端？

在区分度高的列上建索引
尽量不要使用 select *
最左前缀匹配法则
不要再索引列上做任何操作
范围条件放最后，让非范围查询的列尽量走复合索引
like 查询“%关键字”会导致索引失效

创建索引会使查询操作边得更快，但会降低增删改的速度，因为执行这些操作的同时会对索引文件重新排序或更新

数据库优化

打破范式设计；冗余少量字段方便查询，需要源表和冗余表保证同一事物写。
关联关系在业务层面约束，不依赖数据库外键
字段拓展性；结构不清晰的字段使用json类型，json检索少量key可以使用虚拟列并建立索引，多条件检索直接es
冷热分离；源表拆分成多张表，可以把频繁变更的字段放在主表，使用率较低的放在副表，判断依据可以是创建时间、业务域
服务拆分在分片字段选择上尽量考虑使用本地事务，让同业务的不同sql命中同一个分表，以避免使用分布式事务
尽量使用单表维度sql，原因：join性能差；后期分库分表更方便，前瞻性设计要考虑使用哪种ID主键策略

分库分表

缺点
- 事务问题，不能用本地事务，需要分布式事务；
- 跨节点 Join 的问题：解决这一问题可任意分两次查询实现；
- 跨节点的 count、order by、group by 以及聚合函数问题：分别在各个节点上得到结果后在应用程序端进行合并；
- ID 问题：数据库被切分后，不能再依赖数据库滋生的主键生成机制，最简单可以考虑 UUID；
- 跨分片的排序分页问题（后台加大 pagesize 处理）

为什么要分库、分表
分库：拓展磁盘存储、并发连接支撑
分表：单表大量数据时，存储和查询性能会遇到瓶颈，考虑分表分摊压力
什么时候考虑
- 阿里《Java开发手册》中推荐
  
  单表行数超过500万行或者单表容量超过2GB，才推荐进行分库分表。
- 根据业务提前预估
以什么维度来分表
先找到业务的主题，比如表是一张客户信息表，可以考虑以客户id来分表
非分表键如何查询
- 遍历：简单粗暴（不建议）
- 将用户信息冗余同步到ES，通过ES来查询（推荐）
分表策略
- 范围划分，比如以订单id，以订单作为分表键，300w一个表；或者时间，通常用于冷热数据分离
  优点：扩容方便
  缺点：会有热点问题
- Hash取模，以指定的路由key(比如用户id、订单id)取哈希后对分表数取模，将数据分散到各个表中
  优点：不会存在明显的热点问题
  缺点：扩容比较麻烦，需提前规划好
跨节点join关联问题
解决思路：
- 字段冗余
- 全局表，基础表每个库中保存一份
- 数据同步
- 应用层代码组装
聚合函数问题：分别在各个节点上得到结果后，在中间件/应用端合并
分库分表后的分页问题
- 全局视野法：在各数据库查到对应结果后再代码端汇聚再分页。缺点是会返回过多数据
- 业务折衷：禁止跳页查询，需要业务妥协
分布式ID：考虑使用雪花算法生成
分库分表中间件：推荐使用 Apache ShardingSphere
分表要停服吗？不停服如何做？
- 编写代理层，加个开关，灰度期间还是访问老的DAO
- 发版全量后，开启双写，既在旧表新增和修改，也在新表新增能够和修改。日志/临时表记下新表ID起始值，旧表中小于这个值的数据就是存量数据，这批数据就是要迁移的
- 通过脚本把旧表的存量数据写入新表
- 停读旧表改读新表，此时新表已经城在了所有读写业务，但是这时候不要立即停写旧表，保持双写一段时间
- 当读写新表一段时间后，如果没有业务问题，就可以停写旧表了

双机热备

网络/IO

TCP 怎么实现拥塞控制？

慢启动
拥塞避免
拥塞发生
快速恢复

每收到一个 ACK 时，cwnd = cwnd + 1/cwnd
当每过一个 RTT 时，cwnd = cwnd + 1

RTO 超时重传
快速重传

拥塞窗口大小 cwnd = cwnd/2
慢启动阈值 ssthresh = cwnd
进入快速恢复算法

cwnd = sshthresh + 3
重传丢失的那几个 ACK 数据包
如果在收到重复的 ACK，那个 cwnd = cwnd + 1
如果收到新数据的 ACK 后，cwnd = sshthresh。收到新数据的 ACK 表名恢复过程已经结束，可以再次进入拥塞避免的算法了

负载均衡

有几种 IO 模型？

阻塞 IO 模型（BIO）
非阻塞 IO 模型（NIO）
IO 多路复用模型
信号驱动模型

首先开启套接口信号驱动IO功能，并通过系统调用 sigaction 执行一个信号处理函数，此时请求即刻返回，当数据准备就绪时，就生成对应进程的 SIGIO 信号，通过信号回调通知应用线程调用 recvfrom 来读取数据
异步 IO（AIO）
异步 IO 的优化思路解决了应用程序需要先发送询问请求、再发送接收数据两阶段模式，只需向内核发送一次请求就可以完成状态询问和数据拷贝的所有操作。

NIO 和多路复用的区别？

select：监听的 IO 最大连接数有限，Linux 一般是 1024，可以调大；需要遍历 fdset，找到就绪的 fd
poll：poll解决了连接数的限制
epoll：采用事件驱动，epoll 先通过 epoll_ctl() 来注册一个 fd（文件描述符）。一旦某个 fd 就绪时，内核会采用回调机制，迅速激活这个 fd，当进程掉 epoll_wait() 时便得到通知，采用监听事件回调机制。

零拷贝

传统的IOread+write方式会产生2次DMA拷贝+2次CPU拷贝，同时有4次上下文切换。
mmap+write方式则产生2次DMA拷贝+1次CPU拷贝，4次上下文切换，通过内存映射减少了一次CPU拷贝，可以减少内存使用，适合大文件的传输。
sendfile方式是新增的一个系统调用函数，产生2次DMA拷贝+1次CPU拷贝，但是只有2次上下文切换。因为只有一次调用，减少了上下文的切换，但是用户空间对IO数据不可见，适用于静态文件服务器。
sendfile+DMA gather方式产生2次DMA拷贝，没有CPU拷贝，而且也只有2次上下文切换。虽然极大地提升了性能，但是需要依赖新的硬件设备支持。

缓存

缓存雪崩、缓存穿透、缓存击穿，如何应对？

雪崩：缓存机器宕机，导致请求全部打到数据库上，打死数据库
解决方案：
- 事前： Redis 高可用，主从+哨兵，Redis cluster，避免全盘崩溃
- 事中：本地缓存 + 限流&降级(限制最大通过请求，超出的降级)，避免数据库被打死
- 事后：Redis 持久化，一旦重启，自动从磁盘上加载数据，快速回复

穿透：大量构造的恶意请求，导致缓存查不到，最终打死数据库
解决方案：在缓存前面增加布隆过滤器，将数据库所有可能的数据哈希到不空过滤器，查缓存的时候先用布隆过滤器筛一遍

key不存在，则key非法，直接返回

key存在，再继续查缓存

击穿：热点key再失效的瞬间，大量请求直接请求到数据库，打死数据库
解决方案：

数据基本不更新，可以设置该热点数据永不过期

数据更新不频繁&缓存刷新耗时比较少，可以用本地锁/分布式锁保证少部分请求过去并更新缓存，其余线程可以在锁释放后访问到新缓存

更新频繁&刷新耗时较长，可以用定时线程在缓存过期前主动延后缓存过期时间

redis的ZSet使用场景和原理

redis 内存满了会发生什么？

如果 redis 配置了内存淘汰策略，则会通过定时删除、惰性删除、定期删除等方式淘汰过期的key，如果配置的淘汰策略淘汰不掉，则报错OOM
如果启用了虚拟内存机制，会将部分最老数据的value持久化到磁盘

Redis 发布订阅(pub/sub)

类似于 RocketMQ中广播模式，简单易上手

优点：轻量级、低延迟、低可靠性
缺点：

redis 发布/订阅模型消息无法持久化，消费者消费过慢会撑爆内存；一经发布，没有任何订阅方处理，该条消息就会丢失
没有类似ACK的机制
广播机制，下游消费能力取决于消费方本身

使用需考虑：消费者并发数、生产的速度和消费的速度、是否需保证可靠性

如果要求可靠性 & redis版本>=5.0，可以考虑使用 Redis Stream，如果有更复杂的要求，还是考虑使用专门的消息队列（kafka、RocketMQ、Pulsar等）

什么是一致性Hash算法

一致性 Hash 算法能够在 Hash 输出空间发生变化时，引起最小的改动。应用在像分布式系统扩容缩容的时候。

原理是将整个哈希输出空间设置为一个环形区域，对数据进行 Hash 操作，映射在环形区域上，然后让该值沿顺时针方向移动，遇到的第一个服务器就是它分配的节点。

当服务节点很少的时候，会有很多 key 被分配到同一个服务实例上，称之为“数据倾斜”。如何解决？虚拟节点，即对内阁服务节点计算多个哈希，每个计算结果位置都放置一个此服务节点，称之为虚拟节点。具体做法可以在服务器 ip 或主机名的后面增加编号来实现。同时数据定位算法不变，只是多了一步虚拟节点到实际节点的映射。虚拟节点越多数据月均匀，一般虚拟节点数要在32个以上

虚拟节点

ELK

搞懂ELK并不是一件特别难的事

消息队列

如何保证消息队列消费的幂等性？

比如要写库，现根据主键查一下，如果这数据有了，就 update 一下
如果是写 Redis，每次都是 set，天然幂等
如果不是上面两种场景，需要让生产者发送每条数据的时候，里面加一个全局唯一的 id，消费的时候根据这个 id 去 Redis 里查一下，如果没有消费过就处理，消费过了就放弃处理
基于数据库的唯一键来保证重复数据不会多次插入

定时任务

如何避免被重复调度？

一次调度任务只有一个机器执行，不会因为是分布式部署而出现多台机器同时执行某个job。思路是使用分布式锁

基于数据库实现分布式锁

悲观锁，使用 select……for update
乐观锁，通过递增的版本号来实现

Quartz：acquireTriggersWithinLock=true获取 trigger 的时候上锁（抢占式获取数据库锁并由抢占成功的节点负责运行），默认是 false，使用乐观锁，但可能出现 ABA 导致重复调度

XXL-JOB：使用数据库悲观锁

setAutoCommit(false)关闭隐式自动提交

select lock for update显式排他锁，其他事务无法进入&无法实现for update

读数据库任务信息 -> 拉任务到内存时间轮 -> 更新数据库任务信息

commit提交事务，同时释放for update排他锁（悲观锁）

基于缓存(redis)实现分布式锁

获取锁的时候，使用 setnx 命令设置锁、设置过期时间，value 作为一个随机字符串，解锁时用来判断
获取锁的时候，增加超时时间
解锁时通过随机字符串判断是不是同一把锁

性能高，但redis master-slave架构的主从异步复制导致的redis分布式锁的最大缺陷：在redis master实例宕机的时候，可能导致多个客户端同时完成加锁。

基于 zookeeper 实现分布式锁

创建目录 mylock
线程 A 想获取锁，就在 mylock 目录下创建临时节点，会返回一个数字
获取 mylock 目录下的所有节点，获取比自己小的兄弟节点，如果不存在说明当前线程的序号最小，那么他就获取了当前这把锁
线程 B 创建一个临时顺序节点，判断自己是不是最小节点，设置监听比自己小一位的节点
线程 A 处理完毕，删除自己的节点。线程 B 监听到了变更事件，判断自己是不是最小的，如果是则获取到锁

可靠性高，但性能不如redis分布式锁

分布式

分布式事务如何解决？TCC?

集中解决方案：

2PC、3PC
TCC（Try、Confirm、Cancel）
本地消息表
最大努力通知
Seata 事务
二阶段消息

TCC 优点：可以控制数据库操作的粒度，降低了锁冲突，可以提升性能；
TCC 缺点：应用侵入性强，需要根据网络、系统故障等不同失败原因实现不同的回滚策略，实现难度大，一般借助 TCC 开源框架，例如 ByteTCC、TCC-transaction、Himly。

二阶段消息：参考 DTM 框架

分布式接口幂等如何处理？

核心思想：通过唯一的业务单号保证幂等性，非并发情况下，查询业务单号有没有操作过，没有则执行操作；并发情况下，此过程需加锁。

Update操作的幂等性

根据唯一业务号取更新数据：通过版本号来控制。用户查询出要修改的数据，系统将数据返给页面，将数据版本号放入隐藏域，用户修改数据提交时将版本号一同提交，后台使用版本号作为更新条件

update set version=version+1, xxx=${xxx} where id=xxx and version=${version};

使用 Token 机制，保证 update、insert 操作的幂等性

没有唯一业务号的 update 与 insert 操作：进入到注册页时，后台统一生成 Token，返回前台隐藏域中，用户在页面提交时将 Token 一同传入后台，使用 Token 获取分布式锁，完成 insert 操作，执行成功后不释放锁，等待过期自动释放。

其他

调优

影响系统响应慢的原因有哪些？如何排查和解决的？

慢SQL
系统负载过高
Full GC 次数过高
程序异常，死锁等
网络原因

参考 Java问题排查

Tomcat 调优

WebSocket

JSR-356 规范，即 Javax WebSocket，定义了 Java 针对 WebSocket 的 API，主流的 Web 容器都已经提供了 JSR-356 的实现，例如说 Tomcat、Jetty、Undertow 等等。

目前提供 WebSocket 服务的项目中一般有几种方案：

Tomcat WebSocket，实现简单
Spring WebSocket，整合了 SockJS、实现了对浏览器的兼容，支持 stomp + 消息队列代理
Netty WebSocket，性能好，可同时支持其他协议
Socket.IO，类似于SocketJS实现浏览器兼容、负载均衡等，最初是 nodejs，Java 可通过 netty-socketio 包使用

一般非 IM 即时通讯项目，使用前两种都可以。具体参考：

断线重连

为何会断线？

进程被杀死
主动退出
后台挂起
页面断线重连
断网此情况服务端无法感知

如何判断在线、离线？

当客户端第一次发送请求到服务端是会携带唯一标识、时间戳，服务端到数据库/缓存中去查询请求的唯一标识，如果不存在就入库；
第二次客户端定时再次发送请求携带唯一标识、时间戳，服务端查询唯一标识，如果存在就把上次的时间戳拿出来，判断间隔毫秒数是否大于指定时间，小于就是在线，否则就是离线；

如何解决断线问题？

可能是 nginx 配置的问题
心跳检测

客户端心跳检测:
1. 客户端定时通过管道发送心跳，发送时启动一个超时定时器
2. 服务端接收到心跳包，应答一个pong
3. 如果客户端收到服务端的应答包，则说明服务端正常，删除超时定时器
4. 如果客户端的定时器超时依然没有收到应答包，说明服务端挂了

服务端心跳检测：
1. 客户端定时通过管道发送心跳
2. 服务端记录每个用户最后一次心跳时间，并配置一个心跳最大间隔时长
3. 开启一个定时任务，根据每个用户最后一次心跳间隔时间和最大间隔时长来判断用户是否断线
4. 遇到超过最大间隔时长的直接剔除会话

如何保证消息一定送达给用户？

基于滑动窗口 ACK 。整体流程如下：

无论客户端是否在线，服务端都先把收到的消息持久化到数据库。如果客户端此时在线，服务端将消息编号推送给客户端。
客户端在接收到消息编号之后，和本地消息编号比对。如果比本地的小，说明该消息已经收到，忽略不处理；如果比本地的大，使用本地消息编号向服务端拉取大于本地消息编号的消息列表(增量消息列表)。拉取完成后，更新消息列表中最大的消息编号为新的本地的消息编号。
服务端在收到客户端拉取增量的消息列表时，将请求的编号记录到数据库中，用于知道客户端此时本地的最新消息编号。
考虑到服务端将消息编号推送给客户端，也会存在丢失的情况，所以客户端会每 N 秒定时向服务端拉取大于本地的消息编号的消息列表。

这种方式，在业务被称为推拉结合的方案。此种方案客户端和服务端不一定需要使用长连接，也可以使用长轮询所替代。客户端发送带有消息版本号的 HTTP 请求到服务端。

如果服务端已有比客户端新的消息编号，则直接返回增量的消息列表。
如果服务端没有比客户端新的消息编号，则 HOLD 住请求，直到有新的消息列表可以返回，或 HTTP 请求超时。
客户端在收到 HTTP 请求超时时，立即又重新发起带有消息版本号的 HTTP 请求到服务端。如此反复循环，通过消息编号作为增量标识，达到实时获取消息的目的。

线上故障

故障1

事故情况：由于redis内存报警，导致接口失败率上升（没有配置redis拒绝策略，接口阻塞）。询问发现是上游同事进行了发布，于是迅速回滚，同时增大redis内存。
措施：让上游服务回滚；对redis扩容增大内存
事故原因：上游服务的对账系统调用自己的接口
1. 没有考虑到对账数据范围（进行了全量对账，存在冷数据）
2. 在业务高峰时期对账
3. 自己redis没有设置合理的淘汰策略

故障2

事故情况：MQ消费者服务OOM，致使服务直接挂掉
措施：重启服务，先暂时恢复
事故定位：查看 prometheus 上的服务监控，从某时刻开始内存明显飙升 && dump内存快照

根据时刻判断业务操作，当时正在执行导入导出excel
服务没挂，使用jmap -dump:live,format=b,file=/tmp/dump.hprof PID
服务已挂：需提前配置 JVM 自动 dump-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/usr/local/app/oom
打开 VisualVM 分析发现org.apache.poi.xssf.usermodel.XSSFSheet类的对象占用的内存是最多，与之前推测吻合。找到相关代码

XSSFWorkbook wb = new XSSFWorkbook(new FileInputStream(file));
XSSFSheet sheet = wb.getSheetAt(0);

解决：改用 SXSSFWorkbook

XSSFWorkbook wb = new XSSFWorkbook(new FileInputStream(file));
SXSSFWorkbook swb = new SXSSFWorkbook(wb,100);//使用SXSSFWorkbook包装，一次读入内存100条记录
SXSSFSheet sheet = (SXSSFSheet) swb.createSheet("sheet1");
//省略中间代码
sheet.flushRows();

后续思考：使用 EasyExcel。MQ异步导入excel，并发量大的话仍然会出现OOM，有安全隐患，调整mq消费者线程池，设置成4个线程，避免消费者同时处理过多消息、

故障3

事故情况：有个服务内存使用率不断飙高，主要逻辑就是消费MQ的数据然后持久化
措施：重启应用，但无果
事故定位：查看监控数据发现老年代内存发生 GC 也一直居高不下，查看jstat日志发现老年代内存回收不了。尝
试在本地复现。

调小JVM内存，消费MQ数据处使用while循环不断生成数据
VisualVM 连上应用实时监控内存、GC 的使用情况，跑十几分钟并未发现相同问题
检查代码逻辑，发现逻辑是批量一次几百条数据
修改模拟逻辑发现GC飙高，内存无法回收，问题复现
dump堆内存使用情况，发现com.lmax.disruptor.RingBuffer对象内存占用很大
消费MQ数据一次取几百条数据扔给RingBuffer，考虑到扔给RingBuffer上的数据只有被覆盖了才会回收掉内存，检查RingBuffer配置1024*1024，目测是这的问题

解决：调小 Disruptor 的 RingBuffer 配置，调整到多少得根据业务具体情况配置

故障4

事故情况：生产某个服务版本升级的时候，实例拉起后CPU占用飙高触发报警，响应缓慢。鉴于k8s配置的是滚动更新，导致响应缓慢持续了10分钟左右
措施：发布改到周末或晚上请求少的时候
事故定位：由于其他服务发布没有出现这种现象，考虑是不是应用版本有问题。后与开发确认版本没问题，进入容器中在线定位，
1. top找出 CPU 占用最高的 PID
2. ps -ef | grep PID何查看对应的应用
3. jstack -l PID >> PID.log获取进程堆栈信息
4. ps -mp PID -o THREAD,tid,time拿到占用CPU最高的 tid
5. printf "%x\n" tid获取16进制的线程 TID
6. grep TID -A20 PID.log确定是线程哪里出了问题
发现有几个C2 ComilerThread线程 CPU 占用比较高，但这几个不是应用线程。

Java 把编译过程分为两个阶段：编译期(javac编译成通用的字节码)、运行期(解释器逐条将字节码解释为机器码来执行)。
为了优化，HotSpot 引入了 JIT 即时编译器：
- 解释器：当程序启动时使用解释器快速执行，节省编译时间
- JIT编译器：程序启动后长时间提供服务时，JIT将越来越多的代码编译为本地机器码，获得更高的执行效率。
由于应用重启，大量的代码被识别为热点代码，触发了即时编译，造成CPU使用率飙高。

解决：jdk1.8默认打开分层编译，有一下几种办法
- 关闭分层编译：-XX:-TieredCompilation -client关闭分层编译，效果不好
- 预热：提前录制流量/流量控制预热/龙井预热(Jwarmup功能)
- 调高JIT阈值：-XX:CompileThreshold=5000修改JIT编译阈值为5000，资源不多的话可以使用
- 调整服务资源上限：调大CPU的limit，需要CPU就给够。有资源可以弹性的话可以使用

亮点

Excel 导入导出

使用MQ导出

详细参考：百万级数据excel导出功能如何实现？
导入功能比导出麻烦点，需要各种校验，留出接口方便业务校验扩展

多平台统一的消息推送系统

socket服务主要维护客户端的长连接，它能力决定了一次可以在线多少用户。需要集群部署。
route服务负责将消息分发到各个平台

客户端连接socket服务的流程：
1. 客户端问路由服务要一个可用的socket服务器ip+端口
2. 路由服务通过合适的负载均衡算法得到一个socket服务器ip+端口，返回给客户端
3. 客户端向拿到的socket服务发起长连接
4. 连接成功后，对应的socket服务器维护服务级别的session信息，然后向路由服务汇报，路由服务保存该客户端和socket服务的对应关系
5. 客户端与对应的socket服务保持一定频率的心跳，并在心跳失败判定连接断开后重新发起连接，直到连接成功

客户端上线后，向其他客户端投递消息的流程：
1. 客户端请求路由服务提供的消息投递接口
2. 路由服务根据消息上的目标客户端id，找到对应的socket服务，并向该服务投递消息
3. socket服务从自己维护的socket里找到目标客户端，最终完成消息投递

Q：路由服务如何通过负载均衡算法找到一个可用的socket服务器ip和端口？
A：socket服务提供一个查询本机ip和端口的接口，路由服务请求此接口时通过自定义的负载均衡算法选择一个可用的服务器ip和端口

Q：消息投递的时候，路由服务如何根据目标客户端id找到对应的server服务？
A：在客户端与某个server服务连接成功(上线)后，客户端与server服务之间的关系需要保存(数据库/redis)。然后写一个feign的拦截器，根据目标客户端的id获取server服务id，加到当前线程里

Q：如何优化性能
A：路由服务要承担路由、上下线、消息推送及其他业务，因此服务内部使用了Disruptor环形队列做异步处理，尽可能让消息推送接口更快返回。如果并发量比较高，可以加入消息队列，路由服务直接消费消息，以此来提升服务整体性能。

系统设计(System design)

网关系统

参考：https://mp.weixin.qq.com/s/tl4D4Kc7r4wL7aouQYZC4g