@fsfzp888
2019-02-01T00:08:55.000000Z
字数 10359
阅读 1370
SQL
SQL语句用于操作各类数据库,但是如果仅仅只是看SELECT,UPDATE,CREATE,DELETE等手册上边的语法,根本就学不会SQL语句。所以这里设法把leetcode上边的数据库相关的问题进行总结分类,以进一步学习和熟悉SQL语句。SQL语句用来处理某些常用问题,有些不明显,而且显得有些难以思考和解决。
在查询数据库表条目的时候,有时候需要从多张表中汇总信息,这个时候就需要使用到SQL的JOIN语句。JOIN是对表做连接操作,有LEFT JOIN,RIGHT JOIN和INNER JOIN等。左右连接的差别只是在ON条件表达式中不满足的时候,保留左表还是右表的数据而已。
表1: Person+-------------+---------+| 列名 | 类型 |+-------------+---------+| PersonId | int || FirstName | varchar || LastName | varchar |+-------------+---------+PersonId 是上表主键表2: Address+-------------+---------+| 列名 | 类型 |+-------------+---------+| AddressId | int || PersonId | int || City | varchar || State | varchar |+-------------+---------+AddressId 是上表主键编写一个 SQL 查询,满足条件:无论 person 是否有地址信息,都需要基于上述两表提供 person 的以下信息:FirstName, LastName, City, State
如上所示是一个连接表的问题,因为需要person不管有没有地址信息都要显示,所以可以使用左连接:
SELECT FirstName, LastName, City, State FROM PersonLEFT JOIN Address ON Person.PersonId=Address.PersonId;
如果使用右连接,也是可以的:
SELECT FirstName, LastName, City, State FROM AddressRIGHT JOIN Person ON Person.PersonId=Address.PersonId;
SELECT的表列可以来自多张表,而且可以不断使用JOIN语句进行拼接。
JOIN语句也可以配合WHERE来进一步约束查询,同时也可以自己和自己连接
Employee 表包含所有员工,他们的经理也属于员工。每个员工都有一个 Id,此外还有一列对应员工的经理的 Id。+----+-------+--------+-----------+| Id | Name | Salary | ManagerId |+----+-------+--------+-----------+| 1 | Joe | 70000 | 3 || 2 | Henry | 80000 | 4 || 3 | Sam | 60000 | NULL || 4 | Max | 90000 | NULL |+----+-------+--------+-----------+给定 Employee 表,编写一个 SQL 查询,该查询可以获取收入超过他们经理的员工的姓名。在上面的表格中,Joe 是唯一一个收入超过他的经理的员工。+----------+| Employee |+----------+| Joe |+----------+
上边的问题,可以使用如下的语句来查询:
SELECT E1.Name FROM Employee E1LEFT JOIN Employee E2ON E1.ManagerId=E2.Id WHERE E1.Salary > E2.Salary;
某网站包含两个表,Customers 表和 Orders 表。编写一个 SQL 查询,找出所有从不订购任何东西的客户。Customers 表:+----+-------+| Id | Name |+----+-------+| 1 | Joe || 2 | Henry || 3 | Sam || 4 | Max |+----+-------+Orders 表:+----+------------+| Id | CustomerId |+----+------------+| 1 | 3 || 2 | 1 |+----+------------+例如给定上述表格,你的查询应返回:+-----------+| Customers |+-----------+| Henry || Max |+-----------+
这个问题,有个Exclude的操作在里边,需要筛选所有的Id不在另外一个表的行。由于我们知道表连接的时候,不满足的时候会有NULL的列,所以可以利用左连接,然后判断是否为NULL:
SELECT t.Name FROM(SELECT Name, CustomerId FROM CustomersLEFT JOINOrders ON Customers.Id=Orders.CustomerId) tWHERE t.CustomerId IS NULL;# 在SQL里边,判断是不是NULL不能使用=符号
数据库表查询,很多时候需要获取那一列排第几的行,这个时候可以利用SQL的LIMIT,OFFSET以及ORDER BY语句。
比如下边这个问题,需要获取第二高的元素,这个时候结合DESC降序排列即可:
编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水,那么查询应返回 null。+---------------------+| SecondHighestSalary |+---------------------+| 200 |+---------------------+
解答:
SELECT Salary FROM Employee ORDER BY Salary DESC LIMIT 1 OFFSET 1;
获取表的某一列排序后的任一行都是可以的,比如如下问题:
编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary)。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表,n = 2 时,应返回第二高的薪水 200。如果不存在第 n 高的薪水,那么查询应返回 null。+------------------------+| getNthHighestSalary(2) |+------------------------+| 200 |+------------------------+
可以使用一个SQL函数来实现获取排序后的任意位置的行,而且在SQL函数里边可以使用DECLARE和SET来设置变量:
CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INTBEGINDECLARE C int; # SQL函数里边定义变量的格式SET C=N-1; # 给SQL函数内变量赋值的语法RETURN (# Write your MySQL query statement below.SELECT IFNULL((SELECT DISTINCT(Salary) FROM EmployeeORDER BY Salary DESC LIMIT 1 OFFSET C), NULL));END
编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。+----+-------+| Id | Score |+----+-------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | 3.85 || 5 | 4.00 || 6 | 3.65 |+----+-------+例如,根据上述给定的 Scores 表,你的查询应该返回(按分数从高到低排列):+-------+------+| Score | Rank |+-------+------+| 4.00 | 1 || 4.00 | 1 || 3.85 | 2 || 3.65 | 3 || 3.65 | 3 || 3.50 | 4 |+-------+------+
这个问题,需要在对分数进行排序后,在加上额外的排名信息,分数可以重复,同时排名是连续的,排名不是表里边的列,所以需要额外创建一些只读列,用于读取信息,这个可以利用SQL的子查询语句:
SELECT A.Score,(SELECT COUNT(DISTINCT(Score)) FROMScores WHERE Score >= A.Score) AS RankFROM Scores A ORDER BY Score DESC;
有些SQL问题,需要获取一些相邻行的信息,然后才能决定是否取出这些行。
编写一个 SQL 查询,查找所有至少连续出现三次的数字。+----+-----+| Id | Num |+----+-----+| 1 | 1 || 2 | 1 || 3 | 1 || 4 | 2 || 5 | 1 || 6 | 2 || 7 | 2 |+----+-----+例如,给定上面的 Logs 表, 1 是唯一连续出现至少三次的数字。+-----------------+| ConsecutiveNums |+-----------------+| 1 |+-----------------+
上边的问题可以通过定义SQL语句中的临时变量来解决。实际上上边这个问题,可以看作是一个原型问题,也就是获取一系列满足条件的连续行问题。不过目前来看,似乎没有通用的解法,只能根据具体的问题处理:
# 定义临时变量记录重复的值的计数SELECT DISTINCT(t.Num) AS ConsecutiveNums FROM(SELECT log.Num AS NUM, (CASE WHEN @prev=log.NumTHEN @cnt:=@cnt+1WHEN @prev:=log.NumTHEN @cnt:=1ELSE @cnt:=1 END) AS cnt FROM (SELECT @prev:=NULL)p, (SELECT @cnt:=0)c, Logs log) tWHERE t.cnt >= 3;
以前不知道,其实在SQL语句里边也可以定义临时变量,就是使用形如(SELECT $a:=0)这种获取临时表信息的方式,而且在SQL里边由于使用了=好作为布尔判断,所以定义了:=作为赋值操作符!对于任意SQL的临时表而言,都需要给出一个alias命名,这是上边给出名称的原因。
在SQL问题里边,很多时候都需要根据表中某些列的具体取值来分组,然后统计每一组的信息,在一些简单问题里边,可以直接使用GROUP BY和一些聚合函数来实现需求。
编写一个 SQL 查询,查找 Person 表中所有重复的电子邮箱。示例:+----+---------+| Id | Email |+----+---------+| 1 | a@b.com || 2 | c@d.com || 3 | a@b.com |+----+---------+根据以上输入,你的查询应返回以下结果:+---------+| Email |+---------+| a@b.com |+---------+说明:所有电子邮箱都是小写字母。
获取重复的行,这个需求也很普遍,其实就是对需要计算重复的列进行分组聚合即可:
SELECT Email FROM Person GROUP BY Email HAVING COUNT(Email) > 1;
HAVING即可以放到SELECT后边,也可以放到GROUP BY后边,COUNT本身就是个聚合函数。
编写一个 SQL 查询,来删除 Person 表中所有重复的电子邮箱,重复的邮箱里只保留 Id 最小 的那个。+----+------------------+| Id | Email |+----+------------------+| 1 | john@example.com || 2 | bob@example.com || 3 | john@example.com |+----+------------------+Id 是这个表的主键。例如,在运行你的查询语句之后,上面的 Person 表应返回以下几行:+----+------------------+| Id | Email |+----+------------------+| 1 | john@example.com || 2 | bob@example.com |+----+------------------+
删除重复的表项,可以使用表连接语法:
DELETE p1 FROM Person p1 LEFT JOIN Person p2 ON p1.Id > p2.Id WHERE p1.Email = p2.Email;
或者也可以:
DELETE p1 FROM Person p1, Person p2 WHERE p1.Id > p2.Id AND p1.Email = p2.Email;
虽然这个问题看起来也是分组问题,只不过由于需要具体的Id,而且分组本身是为了查询,所以使用分组获取得到的
Employee 表包含所有员工信息,每个员工有其对应的 Id, salary 和 department Id。+----+-------+--------+--------------+| Id | Name | Salary | DepartmentId |+----+-------+--------+--------------+| 1 | Joe | 70000 | 1 || 2 | Henry | 80000 | 2 || 3 | Sam | 60000 | 2 || 4 | Max | 90000 | 1 |+----+-------+--------+--------------+Department 表包含公司所有部门的信息。+----+----------+| Id | Name |+----+----------+| 1 | IT || 2 | Sales |+----+----------+编写一个 SQL 查询,找出每个部门工资最高的员工。例如,根据上述给定的表格,Max 在 IT 部门有最高工资,Henry 在 Sales 部门有最高工资。+------------+----------+--------+| Department | Employee | Salary |+------------+----------+--------+| IT | Max | 90000 || Sales | Henry | 80000 |+------------+----------+--------+
这个问题就是依据某列来分组,然后获取每一组中的最大值,获取一组中的最大值有个聚合函数MAX,所以这个问题可以:
SELECT t.Department AS Department, em.Name AS Employee, t.Salary AS Salary FROM(SELECT D.Name AS Department, D.Id AS DId, MAX(E.Salary) AS Salary FROM Employee ELEFT JOINDepartment D ON E.DepartmentId=D.Id GROUP BY E.DepartmentId) t,Employee em WHERE t.DId=em.DepartmentId AND t.Salary=em.Salary;# 下边的语句是错误的,因为GROUP BY分组只对聚合的列是有效的,其它的列则不是想要的结果SELECT d1.Name As Department, e1.Name AS Employee, e1.Salary AS Salary FROM(SELECT Name, MAX(salary), DepartmentId FROM Employee GROUP BY DepartmentId) e1,Department d1 WHERE d1.Id=e1.DepartmentId;
Employee 表包含所有员工信息,每个员工有其对应的 Id, salary 和 department Id 。+----+-------+--------+--------------+| Id | Name | Salary | DepartmentId |+----+-------+--------+--------------+| 1 | Joe | 70000 | 1 || 2 | Henry | 80000 | 2 || 3 | Sam | 60000 | 2 || 4 | Max | 90000 | 1 || 5 | Janet | 69000 | 1 || 6 | Randy | 85000 | 1 |+----+-------+--------+--------------+Department 表包含公司所有部门的信息。+----+----------+| Id | Name |+----+----------+| 1 | IT || 2 | Sales |+----+----------+编写一个 SQL 查询,找出每个部门工资前三高的员工。例如,根据上述给定的表格,查询结果应返回:+------------+----------+--------+| Department | Employee | Salary |+------------+----------+--------+| IT | Max | 90000 || IT | Randy | 85000 || IT | Joe | 70000 || Sales | Henry | 80000 || Sales | Sam | 60000 |+------------+----------+--------+
这个是分组排序问题:
SELECT D.Name AS Department, E.Name AS Employee, E.Salary AS Salary FROM Employee E, Department DWHERE E.DepartmentId=D.Id AND3 > (SELECT COUNT(DISTINCT(Salary)) FROM EmployeeWHERE DepartmentId=D.Id AND Salary > E.Salary)ORDER BY D.Name ASC, E.Salary DESC;
分组排序问题,利用了在子查询的SELECT语句中可以访问外围语句的特点,构造WHERE条件表达式。因为每一组中的每一行是否需要被选中,取决于其在这一组中的固定位置,所以可以这样做。如果当前行是否被选中,需要考虑后边行的信息,那么就会比较困难了,如下边的问题所示。
X 市建了一个新的体育馆,每日人流量信息被记录在这三列信息中:序号 (id)、日期 (date)、 人流量 (people)。请编写一个查询语句,找出高峰期时段,要求连续三天及以上,并且每天人流量均不少于100。例如,表 stadium:+------+------------+-----------+| id | date | people |+------+------------+-----------+| 1 | 2017-01-01 | 10 || 2 | 2017-01-02 | 109 || 3 | 2017-01-03 | 150 || 4 | 2017-01-04 | 99 || 5 | 2017-01-05 | 145 || 6 | 2017-01-06 | 1455 || 7 | 2017-01-07 | 199 || 8 | 2017-01-08 | 188 |+------+------------+-----------+对于上面的示例数据,输出为:+------+------------+-----------+| id | date | people |+------+------------+-----------+| 5 | 2017-01-05 | 145 || 6 | 2017-01-06 | 1455 || 7 | 2017-01-07 | 199 || 8 | 2017-01-08 | 188 |+------+------------+-----------+Note:每天只有一行记录,日期随着 id 的增加而增加。
一个取巧的方法:
SELECT DISTINCT s1.* FROM stadium s1, stadium s2, stadium s3WHERE s1.people >= 100 AND s2.people >= 100 AND s3.people >= 100 AND((s1.id-s2.id = 1 AND s2.id-s3.id = 1)OR(s2.id-s1.id=1 AND s1.id-s3.id=1)OR(s3.id-s2.id=1 AND s2.id-s1.id=1))ORDER BY s1.id;
这个方法也不好,只是硬编码而已。如果业务要求前几十个,那么就要连接几十个了?上边的方法的本质就是表连接。
Trips 表中存所有出租车的行程信息。每段行程有唯一键 Id,Client_Id 和 Driver_Id 是 Users 表中 Users_Id 的外键。Status 是枚举类型,枚举成员为 (‘completed’, ‘cancelled_by_driver’, ‘cancelled_by_client’)。+----+-----------+-----------+---------+--------------------+----------+| Id | Client_Id | Driver_Id | City_Id | Status |Request_at|+----+-----------+-----------+---------+--------------------+----------+| 1 | 1 | 10 | 1 | completed |2013-10-01|| 2 | 2 | 11 | 1 | cancelled_by_driver|2013-10-01|| 3 | 3 | 12 | 6 | completed |2013-10-01|| 4 | 4 | 13 | 6 | cancelled_by_client|2013-10-01|| 5 | 1 | 10 | 1 | completed |2013-10-02|| 6 | 2 | 11 | 6 | completed |2013-10-02|| 7 | 3 | 12 | 6 | completed |2013-10-02|| 8 | 2 | 12 | 12 | completed |2013-10-03|| 9 | 3 | 10 | 12 | completed |2013-10-03|| 10 | 4 | 13 | 12 | cancelled_by_driver|2013-10-03|+----+-----------+-----------+---------+--------------------+----------+Users 表存所有用户。每个用户有唯一键 Users_Id。Banned 表示这个用户是否被禁止,Role 则是一个表示(‘client’, ‘driver’, ‘partner’)的枚举类型。+----------+--------+--------+| Users_Id | Banned | Role |+----------+--------+--------+| 1 | No | client || 2 | Yes | client || 3 | No | client || 4 | No | client || 10 | No | driver || 11 | No | driver || 12 | No | driver || 13 | No | driver |+----------+--------+--------+写一段 SQL 语句查出 2013年10月1日 至 2013年10月3日 期间非禁止用户的取消率。基于上表,你的 SQL 语句应返回如下结果,取消率(Cancellation Rate)保留两位小数。+------------+-------------------+| Day | Cancellation Rate |+------------+-------------------+| 2013-10-01 | 0.33 || 2013-10-02 | 0.00 || 2013-10-03 | 0.50 |+------------+-------------------+
这个问题也是分组问题,就是按照日期进行分组,然后统计每一天的取消的数目,如果不算被banned的用户,其实就是统计一张表里边的信息,按照日期分组,而后算出这一天不是completed的计数和总的计数相除即可。不过加上了banned的表,但是思路还是不变的。
SELECT t1.Request_at AS 'Day',ROUND(COUNT(DISTINCT IF(t1.Status!='completed' AND u1.Banned='No' AND u2.Banned='No', t1.Id, NULL)) / COUNT(DISTINCT IF(u1.Banned='No' AND u2.Banned='No', t1.Id, NULL)), 2) AS 'Cancellation Rate' FROM Trips t1LEFT JOIN Users u1ON t1.Client_id=u1.Users_idLEFT JOIN Users u2ON t1.Driver_id=u2.Users_idWHERE t1.Request_at BETWEEN '2013-10-01' AND '2013-10-03'GROUP BY t1.Request_at;
在做题的时候,发现自己对于SQL的很多细节都不知道,上边的一些例题权当总结,以后多看看,让自己了解SQL的关键点,包括表连接,分组,一些内置函数等。