@fsfzp888 2019-02-01T00:08:55.000000Z 字数 10359 阅读 1559

SQL问题汇总

SQL

SQL语句用于操作各类数据库，但是如果仅仅只是看SELECT，UPDATE，CREATE，DELETE等手册上边的语法，根本就学不会SQL语句。所以这里设法把leetcode上边的数据库相关的问题进行总结分类，以进一步学习和熟悉SQL语句。SQL语句用来处理某些常用问题，有些不明显，而且显得有些难以思考和解决。

多个表连接查询问题

在查询数据库表条目的时候，有时候需要从多张表中汇总信息，这个时候就需要使用到SQL的JOIN语句。JOIN是对表做连接操作，有LEFT JOIN，RIGHT JOIN和INNER JOIN等。左右连接的差别只是在ON条件表达式中不满足的时候，保留左表还是右表的数据而已。

组合两张表

表1: Person
+-------------+---------+
| 列名         | 类型     |
+-------------+---------+
| PersonId    | int     |
| FirstName   | varchar |
| LastName    | varchar |
+-------------+---------+
PersonId 是上表主键
表2: Address
+-------------+---------+
| 列名         | 类型    |
+-------------+---------+
| AddressId   | int     |
| PersonId    | int     |
| City        | varchar |
| State       | varchar |
+-------------+---------+
AddressId 是上表主键
编写一个 SQL 查询，满足条件：无论 person 是否有地址信息，都需要基于上述两表提供 person 的以下信息：
FirstName, LastName, City, State

如上所示是一个连接表的问题，因为需要person不管有没有地址信息都要显示，所以可以使用左连接：

SELECT FirstName, LastName, City, State FROM Person 
    LEFT JOIN Address ON Person.PersonId=Address.PersonId;

如果使用右连接，也是可以的：

SELECT FirstName, LastName, City, State FROM Address 
    RIGHT JOIN Person ON Person.PersonId=Address.PersonId;

SELECT的表列可以来自多张表，而且可以不断使用JOIN语句进行拼接。

超过经理收入的员工

JOIN语句也可以配合WHERE来进一步约束查询，同时也可以自己和自己连接

Employee 表包含所有员工，他们的经理也属于员工。每个员工都有一个 Id，此外还有一列对应员工的经理的 Id。
+----+-------+--------+-----------+
| Id | Name  | Salary | ManagerId |
+----+-------+--------+-----------+
| 1  | Joe   | 70000  | 3         |
| 2  | Henry | 80000  | 4         |
| 3  | Sam   | 60000  | NULL      |
| 4  | Max   | 90000  | NULL      |
+----+-------+--------+-----------+
给定 Employee 表，编写一个 SQL 查询，该查询可以获取收入超过他们经理的员工的姓名。在上面的表格中，Joe 是唯一一个收入超过他的经理的员工。
+----------+
| Employee |
+----------+
| Joe      |
+----------+

上边的问题，可以使用如下的语句来查询：

SELECT E1.Name FROM Employee E1
    LEFT JOIN Employee E2
ON E1.ManagerId=E2.Id WHERE E1.Salary > E2.Salary;

从不订购的客户

某网站包含两个表，Customers 表和 Orders 表。编写一个 SQL 查询，找出所有从不订购任何东西的客户。
Customers 表：
+----+-------+
| Id | Name  |
+----+-------+
| 1  | Joe   |
| 2  | Henry |
| 3  | Sam   |
| 4  | Max   |
+----+-------+
Orders 表：
+----+------------+
| Id | CustomerId |
+----+------------+
| 1  | 3          |
| 2  | 1          |
+----+------------+
例如给定上述表格，你的查询应返回：
+-----------+
| Customers |
+-----------+
| Henry     |
| Max       |
+-----------+

这个问题，有个Exclude的操作在里边，需要筛选所有的Id不在另外一个表的行。由于我们知道表连接的时候，不满足的时候会有NULL的列，所以可以利用左连接，然后判断是否为NULL：

SELECT t.Name FROM
    (SELECT Name, CustomerId FROM Customers
        LEFT JOIN
     Orders ON Customers.Id=Orders.CustomerId) t
 WHERE t.CustomerId IS NULL;
# 在SQL里边，判断是不是NULL不能使用=符号

顺序问题

数据库表查询，很多时候需要获取那一列排第几的行，这个时候可以利用SQL的LIMIT，OFFSET以及ORDER BY语句。

第二高的薪水

比如下边这个问题，需要获取第二高的元素，这个时候结合DESC降序排列即可：

编写一个 SQL 查询，获取 Employee 表中第二高的薪水（Salary） 。
+----+--------+
| Id | Salary |
+----+--------+
| 1  | 100    |
| 2  | 200    |
| 3  | 300    |
+----+--------+
例如上述 Employee 表，SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水，那么查询应返回 null。
+---------------------+
| SecondHighestSalary |
+---------------------+
| 200                 |
+---------------------+

解答：

SELECT Salary FROM Employee ORDER BY Salary DESC LIMIT 1 OFFSET 1;

第N高的薪水

获取表的某一列排序后的任一行都是可以的，比如如下问题：

编写一个 SQL 查询，获取 Employee 表中第 n 高的薪水（Salary）。
+----+--------+
| Id | Salary |
+----+--------+
| 1  | 100    |
| 2  | 200    |
| 3  | 300    |
+----+--------+
例如上述 Employee 表，n = 2 时，应返回第二高的薪水 200。如果不存在第 n 高的薪水，那么查询应返回 null。
+------------------------+
| getNthHighestSalary(2) |
+------------------------+
| 200                    |
+------------------------+

可以使用一个SQL函数来实现获取排序后的任意位置的行，而且在SQL函数里边可以使用DECLARE和SET来设置变量：

CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INT
BEGIN
  DECLARE C int;  # SQL函数里边定义变量的格式
  SET C=N-1;  # 给SQL函数内变量赋值的语法
  RETURN (
      # Write your MySQL query statement below.
      SELECT IFNULL((SELECT DISTINCT(Salary) FROM Employee
        ORDER BY Salary DESC LIMIT 1 OFFSET C), NULL)
  );
END

分数排名

编写一个 SQL 查询来实现分数排名。如果两个分数相同，则两个分数排名（Rank）相同。请注意，平分后的下一个名次应该是下一个连续的整数值。换句话说，名次之间不应该有“间隔”。
+----+-------+
| Id | Score |
+----+-------+
| 1  | 3.50  |
| 2  | 3.65  |
| 3  | 4.00  |
| 4  | 3.85  |
| 5  | 4.00  |
| 6  | 3.65  |
+----+-------+
例如，根据上述给定的 Scores 表，你的查询应该返回（按分数从高到低排列）：
+-------+------+
| Score | Rank |
+-------+------+
| 4.00  | 1    |
| 4.00  | 1    |
| 3.85  | 2    |
| 3.65  | 3    |
| 3.65  | 3    |
| 3.50  | 4    |
+-------+------+

这个问题，需要在对分数进行排序后，在加上额外的排名信息，分数可以重复，同时排名是连续的，排名不是表里边的列，所以需要额外创建一些只读列，用于读取信息，这个可以利用SQL的子查询语句：

SELECT A.Score, 
    (SELECT COUNT(DISTINCT(Score)) FROM
        Scores WHERE Score >= A.Score) AS Rank
FROM Scores A ORDER BY Score DESC;

需要对比临近行的问题

有些SQL问题，需要获取一些相邻行的信息，然后才能决定是否取出这些行。

编写一个 SQL 查询，查找所有至少连续出现三次的数字。
+----+-----+
| Id | Num |
+----+-----+
| 1  |  1  |
| 2  |  1  |
| 3  |  1  |
| 4  |  2  |
| 5  |  1  |
| 6  |  2  |
| 7  |  2  |
+----+-----+
例如，给定上面的 Logs 表， 1 是唯一连续出现至少三次的数字。
+-----------------+
| ConsecutiveNums |
+-----------------+
| 1               |
+-----------------+

上边的问题可以通过定义SQL语句中的临时变量来解决。实际上上边这个问题，可以看作是一个原型问题，也就是获取一系列满足条件的连续行问题。不过目前来看，似乎没有通用的解法，只能根据具体的问题处理：

# 定义临时变量记录重复的值的计数
SELECT DISTINCT(t.Num) AS ConsecutiveNums FROM
    (SELECT log.Num AS NUM, (
        CASE WHEN @prev=log.Num
        THEN @cnt:=@cnt+1
        WHEN @prev:=log.Num
        THEN @cnt:=1
        ELSE @cnt:=1 END
    ) AS cnt FROM (SELECT @prev:=NULL)p, (SELECT @cnt:=0)c, Logs log) t
WHERE t.cnt >= 3;

以前不知道，其实在SQL语句里边也可以定义临时变量，就是使用形如(SELECT $a:=0)这种获取临时表信息的方式，而且在SQL里边由于使用了=好作为布尔判断，所以定义了:=作为赋值操作符！对于任意SQL的临时表而言，都需要给出一个alias命名，这是上边给出名称的原因。

分组聚合问题

在SQL问题里边，很多时候都需要根据表中某些列的具体取值来分组，然后统计每一组的信息，在一些简单问题里边，可以直接使用GROUP BY和一些聚合函数来实现需求。

查找重复的电子邮箱

编写一个 SQL 查询，查找 Person 表中所有重复的电子邮箱。
示例：
+----+---------+
| Id | Email   |
+----+---------+
| 1  | a@b.com |
| 2  | c@d.com |
| 3  | a@b.com |
+----+---------+
根据以上输入，你的查询应返回以下结果：
+---------+
| Email   |
+---------+
| a@b.com |
+---------+
说明：所有电子邮箱都是小写字母。

获取重复的行，这个需求也很普遍，其实就是对需要计算重复的列进行分组聚合即可：

SELECT Email FROM Person GROUP BY Email HAVING COUNT(Email) > 1;

HAVING即可以放到SELECT后边，也可以放到GROUP BY后边，COUNT本身就是个聚合函数。

删除重复的电子邮箱

编写一个 SQL 查询，来删除 Person 表中所有重复的电子邮箱，重复的邮箱里只保留 Id 最小 的那个。
+----+------------------+
| Id | Email            |
+----+------------------+
| 1  | john@example.com |
| 2  | bob@example.com  |
| 3  | john@example.com |
+----+------------------+
Id 是这个表的主键。
例如，在运行你的查询语句之后，上面的 Person 表应返回以下几行:
+----+------------------+
| Id | Email            |
+----+------------------+
| 1  | john@example.com |
| 2  | bob@example.com  |
+----+------------------+

删除重复的表项，可以使用表连接语法：

DELETE p1 FROM Person p1 LEFT JOIN Person p2 ON p1.Id > p2.Id WHERE p1.Email = p2.Email;

或者也可以：

DELETE p1 FROM Person p1, Person p2 WHERE p1.Id > p2.Id AND p1.Email = p2.Email;

虽然这个问题看起来也是分组问题，只不过由于需要具体的Id，而且分组本身是为了查询，所以使用分组获取得到的

部门工资最高的员工

Employee 表包含所有员工信息，每个员工有其对应的 Id, salary 和 department Id。
+----+-------+--------+--------------+
| Id | Name  | Salary | DepartmentId |
+----+-------+--------+--------------+
| 1  | Joe   | 70000  | 1            |
| 2  | Henry | 80000  | 2            |
| 3  | Sam   | 60000  | 2            |
| 4  | Max   | 90000  | 1            |
+----+-------+--------+--------------+
Department 表包含公司所有部门的信息。
+----+----------+
| Id | Name     |
+----+----------+
| 1  | IT       |
| 2  | Sales    |
+----+----------+
编写一个 SQL 查询，找出每个部门工资最高的员工。例如，根据上述给定的表格，Max 在 IT 部门有最高工资，Henry 在 Sales 部门有最高工资。
+------------+----------+--------+
| Department | Employee | Salary |
+------------+----------+--------+
| IT         | Max      | 90000  |
| Sales      | Henry    | 80000  |
+------------+----------+--------+

这个问题就是依据某列来分组，然后获取每一组中的最大值，获取一组中的最大值有个聚合函数MAX，所以这个问题可以：

SELECT t.Department AS Department, em.Name AS Employee, t.Salary AS Salary FROM
    (SELECT D.Name AS Department, D.Id AS DId, MAX(E.Salary) AS Salary FROM Employee E
        LEFT JOIN 
    Department D ON E.DepartmentId=D.Id GROUP BY E.DepartmentId) t,
Employee em WHERE t.DId=em.DepartmentId AND t.Salary=em.Salary;
# 下边的语句是错误的，因为GROUP BY分组只对聚合的列是有效的，其它的列则不是想要的结果
SELECT d1.Name As Department, e1.Name AS Employee, e1.Salary AS Salary FROM
    (SELECT Name, MAX(salary), DepartmentId FROM Employee GROUP BY DepartmentId) e1, 
    Department d1 WHERE d1.Id=e1.DepartmentId;

部门工资前三高的员工

Employee 表包含所有员工信息，每个员工有其对应的 Id, salary 和 department Id 。
+----+-------+--------+--------------+
| Id | Name  | Salary | DepartmentId |
+----+-------+--------+--------------+
| 1  | Joe   | 70000  | 1            |
| 2  | Henry | 80000  | 2            |
| 3  | Sam   | 60000  | 2            |
| 4  | Max   | 90000  | 1            |
| 5  | Janet | 69000  | 1            |
| 6  | Randy | 85000  | 1            |
+----+-------+--------+--------------+
Department 表包含公司所有部门的信息。
+----+----------+
| Id | Name     |
+----+----------+
| 1  | IT       |
| 2  | Sales    |
+----+----------+
编写一个 SQL 查询，找出每个部门工资前三高的员工。例如，根据上述给定的表格，查询结果应返回：
+------------+----------+--------+
| Department | Employee | Salary |
+------------+----------+--------+
| IT         | Max      | 90000  |
| IT         | Randy    | 85000  |
| IT         | Joe      | 70000  |
| Sales      | Henry    | 80000  |
| Sales      | Sam      | 60000  |
+------------+----------+--------+

这个是分组排序问题:

SELECT D.Name AS Department, E.Name AS Employee, E.Salary AS Salary FROM Employee E, Department D
    WHERE E.DepartmentId=D.Id AND
        3 > (SELECT COUNT(DISTINCT(Salary)) FROM Employee
                WHERE DepartmentId=D.Id AND Salary > E.Salary)
ORDER BY D.Name ASC, E.Salary DESC;

分组排序问题，利用了在子查询的SELECT语句中可以访问外围语句的特点，构造WHERE条件表达式。因为每一组中的每一行是否需要被选中，取决于其在这一组中的固定位置，所以可以这样做。如果当前行是否被选中，需要考虑后边行的信息，那么就会比较困难了，如下边的问题所示。

体育馆的人流量

X 市建了一个新的体育馆，每日人流量信息被记录在这三列信息中：序号 (id)、日期 (date)、 人流量 (people)。
请编写一个查询语句，找出高峰期时段，要求连续三天及以上，并且每天人流量均不少于100。
例如，表 stadium：
+------+------------+-----------+
| id   | date       | people    |
+------+------------+-----------+
| 1    | 2017-01-01 | 10        |
| 2    | 2017-01-02 | 109       |
| 3    | 2017-01-03 | 150       |
| 4    | 2017-01-04 | 99        |
| 5    | 2017-01-05 | 145       |
| 6    | 2017-01-06 | 1455      |
| 7    | 2017-01-07 | 199       |
| 8    | 2017-01-08 | 188       |
+------+------------+-----------+
对于上面的示例数据，输出为：
+------+------------+-----------+
| id   | date       | people    |
+------+------------+-----------+
| 5    | 2017-01-05 | 145       |
| 6    | 2017-01-06 | 1455      |
| 7    | 2017-01-07 | 199       |
| 8    | 2017-01-08 | 188       |
+------+------------+-----------+
Note:
每天只有一行记录，日期随着 id 的增加而增加。

一个取巧的方法：

SELECT DISTINCT s1.* FROM stadium s1, stadium s2, stadium s3
    WHERE s1.people >= 100 AND s2.people >= 100 AND s3.people >= 100 AND
    (
        (s1.id-s2.id = 1 AND s2.id-s3.id = 1)
        OR
        (s2.id-s1.id=1 AND s1.id-s3.id=1)
        OR
        (s3.id-s2.id=1 AND s2.id-s1.id=1)
    )
ORDER BY s1.id;

这个方法也不好，只是硬编码而已。如果业务要求前几十个，那么就要连接几十个了？上边的方法的本质就是表连接。

行程和用户

Trips 表中存所有出租车的行程信息。每段行程有唯一键 Id，Client_Id 和 Driver_Id 是 Users 表中 Users_Id 的外键。Status 是枚举类型，枚举成员为 (‘completed’, ‘cancelled_by_driver’, ‘cancelled_by_client’)。
+----+-----------+-----------+---------+--------------------+----------+
| Id | Client_Id | Driver_Id | City_Id |        Status      |Request_at|
+----+-----------+-----------+---------+--------------------+----------+
| 1  |     1     |    10     |    1    |     completed      |2013-10-01|
| 2  |     2     |    11     |    1    | cancelled_by_driver|2013-10-01|
| 3  |     3     |    12     |    6    |     completed      |2013-10-01|
| 4  |     4     |    13     |    6    | cancelled_by_client|2013-10-01|
| 5  |     1     |    10     |    1    |     completed      |2013-10-02|
| 6  |     2     |    11     |    6    |     completed      |2013-10-02|
| 7  |     3     |    12     |    6    |     completed      |2013-10-02|
| 8  |     2     |    12     |    12   |     completed      |2013-10-03|
| 9  |     3     |    10     |    12   |     completed      |2013-10-03| 
| 10 |     4     |    13     |    12   | cancelled_by_driver|2013-10-03|
+----+-----------+-----------+---------+--------------------+----------+
Users 表存所有用户。每个用户有唯一键 Users_Id。Banned 表示这个用户是否被禁止，Role 则是一个表示（‘client’, ‘driver’, ‘partner’）的枚举类型。
+----------+--------+--------+
| Users_Id | Banned |  Role  |
+----------+--------+--------+
|    1     |   No   | client |
|    2     |   Yes  | client |
|    3     |   No   | client |
|    4     |   No   | client |
|    10    |   No   | driver |
|    11    |   No   | driver |
|    12    |   No   | driver |
|    13    |   No   | driver |
+----------+--------+--------+
写一段 SQL 语句查出 2013年10月1日 至 2013年10月3日 期间非禁止用户的取消率。基于上表，你的 SQL 语句应返回如下结果，取消率（Cancellation Rate）保留两位小数。
+------------+-------------------+
|     Day    | Cancellation Rate |
+------------+-------------------+
| 2013-10-01 |       0.33        |
| 2013-10-02 |       0.00        |
| 2013-10-03 |       0.50        |
+------------+-------------------+

这个问题也是分组问题，就是按照日期进行分组，然后统计每一天的取消的数目，如果不算被banned的用户，其实就是统计一张表里边的信息，按照日期分组，而后算出这一天不是completed的计数和总的计数相除即可。不过加上了banned的表，但是思路还是不变的。

SELECT t1.Request_at AS 'Day', 
    ROUND(COUNT(DISTINCT IF(t1.Status!='completed' AND u1.Banned='No' AND u2.Banned='No', t1.Id, NULL)) / COUNT(DISTINCT IF(u1.Banned='No' AND u2.Banned='No', t1.Id, NULL)), 2) AS 'Cancellation Rate' FROM Trips t1
    LEFT JOIN Users u1
        ON t1.Client_id=u1.Users_id
    LEFT JOIN Users u2
        ON t1.Driver_id=u2.Users_id
    WHERE t1.Request_at BETWEEN '2013-10-01' AND '2013-10-03'
    GROUP BY t1.Request_at;

总结

在做题的时候，发现自己对于SQL的很多细节都不知道，上边的一些例题权当总结，以后多看看，让自己了解SQL的关键点，包括表连接，分组，一些内置函数等。