MySQL 8.0 - 상관 서브 쿼리의 쿼리 변환 2 - Transform correlated scalar subqueries

Last Updated on 4월 22, 2022 by Jade(정현호)

안녕하세요
이번 포스팅에서는 MySQL 서버 8.0.24 추가된 Transform correlated scalar subqueries 기능에 대한 내용으로 아래 포스팅에서 이어지는 두번째 글 입니다.

MySQL 8.0 - 상관 서브 쿼리의 쿼리 변환 1 - Transform correlated scalar subqueries

안녕하세요 이번 포스팅에서는 MySQL 서버 8.0.24 추가된 Transform correlated scalar subqueries 기능에 대해서 확인 해보려고 합니다.

Contents

Subquery in JOIN clause
Window functions
ORDER BY + LIMIT/OFFSET
Reference

Subquery in JOIN clause

서브 쿼리가 JOIN 절에 있으면 파생 테이블이 원래의 내부 조인보다 먼저 외부 테이블에 조인이 되게 됩니다.
그래서 상관 관계가 있는 경우 다음과 같이 변환을 시도 됩니다.

SELECT COUNT(*)
FROM t1 a
     JOIN
     t1 outr
     ON a.a= (SELECT count(*)
              FROM t1 inr
              WHERE inr.a = outr.a);

->

SELECT COUNT(0) AS `COUNT(*)`
FROM t1 a
     LEFT JOIN
     ( SELECT COUNT(0) AS `count(*)`,   -- the new derived table!!
             inr.a AS a
       FROM t1 inr
       GROUP BY inr.a) derived_1_2
     ON derived_1_2.a = outr.a
     JOIN t1 outr
     WHERE (a.a = COALESCE(derived_1_2.`count(*)`,0));

이 쿼리를 실행하면 아래와 같은 에러 메세지가 발생되게 됩니다.
ERROR 1054 (42S22): Unknown column 'outr.a' in 'on clause'

JOIN 절에 사용된 "outr.a"은 두 번째 조인 테이블에서 가져온 것이기 때문에 에러가 발생되는 것 입니다.

그래서 원래 쿼리 순서를 다음과 같이 재정렬 하여 변경합니다.

SELECT COUNT(0) AS `COUNT(*)`
 FROM t1 outr
      LEFT JOIN
      ( SELECT COUNT(0) AS `count(*)`,   
              inr.a AS a
        FROM t1 inr
        GROUP BY inr.a) derived_1_2
      ON derived_1_2.a = outr.a
      JOIN t1 a
      WHERE (a.a = COALESCE(derived_1_2.`count(*)`,0));

다만 조인 절이 outer join의 일부인 경우 재정렬할 수 없고 Query 변환이 불가능합니다.
현재까지는 inner join 케이스에 대한 재정렬도 시도하지 않습니다. 즉, 상관 관계가 있는 경우 JOIN 절에서 스칼라 하위 쿼리 변환을 지원하지 않습니다.

-- ORIGINAL
explain
SELECT COUNT(*)
FROM t2 a
   JOIN
   t2 outr
   ON a.a= (SELECT count(*)
            FROM t2 inr
            WHERE inr.a = outr.a);
+----+--------------------+-------+-------+------+---------+------------+------+----------+--------------------------+
| id | select_type        | table | type  | key  | key_len | ref        | rows | filtered | Extra                    |
+----+--------------------+-------+-------+------+---------+------------+------+----------+--------------------------+
|  1 | PRIMARY            | outr  | index | ix_a | 5       | NULL       |    5 |   100.00 | Using index              |
|  1 | PRIMARY            | a     | ref   | ix_a | 5       | func       |    1 |   100.00 | Using where; Using index |
|  2 | DEPENDENT SUBQUERY | inr   | ref   | ix_a | 5       | tdb.outr.a |    1 |   100.00 | Using index              |
+----+--------------------+-------+-------+------+---------+------------+------+----------+--------------------------+


-- subquery_to_derived 활성화 
set session optimizer_switch='subquery_to_derived=on';

explain
SELECT COUNT(*)
FROM t2 a
   JOIN
   t2 outr
   ON a.a= (SELECT count(*)
            FROM t2 inr
            WHERE inr.a = outr.a);
+----+--------------------+-------+-------+------+---------+------------+------+----------+--------------------------+
| id | select_type        | table | type  | key  | key_len | ref        | rows | filtered | Extra                    |
+----+--------------------+-------+-------+------+---------+------------+------+----------+--------------------------+
|  1 | PRIMARY            | outr  | index | ix_a | 5       | NULL       |    5 |   100.00 | Using index              |
|  1 | PRIMARY            | a     | ref   | ix_a | 5       | func       |    1 |   100.00 | Using where; Using index |
|  2 | DEPENDENT SUBQUERY | inr   | ref   | ix_a | 5       | tdb.outr.a |    1 |   100.00 | Using index              |
+----+--------------------+-------+-------+------+---------+------------+------+----------+--------------------------+
--> plan 변경 없음

위의 내용 과 같이 변환이 안되기 때문에 subquery_to_derived 를 활성화 해도 변환이 되지 않습니다.

Window functions

서브 쿼리에 Window functions 가 포함된 경우에도 변환이 시도되지 않습니다.

ORDER BY + LIMIT/OFFSET

ORDER BY + LIMIT/OFFSET 의 쿼리에서의 내용을 확인 해보기 위해서 먼저 테스트에 사용할 테이블을 생성 하도록 하겠습니다.

-- t5 테이블 생성
CREATE TABLE t5 (id INT, contract_id INT, datestamp DATETIME);
INSERT INTO t5 VALUES
       (1,2,'2006-09-18 09:07:53'), (2,3,'2006-09-18 09:07:53'),
       (3,4,'2006-09-18 09:07:53'), (4,10,'2008-09-18 09:07:53'),
       (5,7,'2006-09-18 09:07:53'), (6,5,'2006-09-18 09:07:53'),
       (7,9,'2006-09-18 09:07:53'), (8,10,'2006-09-18 09:07:53'),
       (9,10,'2010-09-18 09:07:53'), (10,6,'2014-09-18 09:07:53');

-- t6 테이블 생성
CREATE TABLE t6 (id INT);
INSERT INTO t6 VALUES (1), (2), (3), (4), (5), (6), (7), (8), (9), (10);

조회를 하면 아래와 같은 조회결과를 확인 할 수 있습니다.

SELECT (SELECT datestamp
        FROM t5
        WHERE contract_id = t6.id
        ORDER BY datestamp ASC
        LIMIT 1) AS subq
FROM t6;

+---------------------+
| subq                |
+---------------------+
| NULL                |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2014-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| NULL                |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
+---------------------+

계속 설명한 내용과 같이 쿼리를 변경하게 되면 아래와 같이 변경할 수 있게 됩니다.

SELECT derived_1_2.datestamp AS subq
FROM t6 LEFT JOIN
     ( SELECT t5.datestamp AS datestamp,
              t5.contract_id AS contract_id,
              COUNT(0) AS Name_exp_3
       FROM t5
       GROUP BY t5.contract_id
       ORDER BY t5.datestamp 
       LIMIT 1) derived_1_2
     ON (derived_1_2.contract_id = t6.id) AND
        (derived_1_2.Name_exp_3 reject_if > 1);

하지만 이 쿼리는 잘못된 답을 주게 됩니다.

+---------------------+
| subq                |
+---------------------+
| NULL                |
| 2006-09-18 09:07:53 |
| NULL                |
| NULL                |
| NULL                |
| NULL                |
| NULL                |
| NULL                |
| NULL                |
| NULL                |
+---------------------+

contract_id 에 대해서 그룹화(group by) 후 datestamp로 정렬한 결과에서 LIMIT 1은 하나의 그룹만 출력을 하게 되기 때문입니다.
(derived_1_2 파생 테이블의 결과가 1건임)

표현식 순서대로 그룹화을 하게 되면 아래와 같이 쿼리로 변환이 되며, 결과를 얻을 수 있습니다.

+---------------------+
| subq                |
+---------------------+
| NULL                |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2014-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| NULL                |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2008-09-18 09:07:53 |  <-- 결과가 다른 추가로 출력된 값
| 2010-09-18 09:07:53 |  <-- 결과가 다른 추가로 출력된 값
+---------------------+

처음 변환된 쿼리에 비해서 더 좋은 결과를 출력 되었지만, 여전히 2개의 잘못된 행이 출력되고 있습니다.
파생 테이블(derived_1_2)의 ON 절에 일치하는 여러 행이 있으므로 다시 datestamp 값은 잘못된 값을 얻게 됩니다.

안의 내부 쿼리만 별도로 수행하면 아래와 같은 결과를 확인 할 수 있습니다.

SELECT t5.datestamp AS datestamp, 
              t5.contract_id AS contract_id
       FROM t5  
       GROUP BY t5.contract_id, t5.datestamp
       ORDER BY t5.datestamp DESC;

+---------------------+-------------+
| datestamp           | contract_id |
+---------------------+-------------+
| 2014-09-18 09:07:53 |           6 |
| 2010-09-18 09:07:53 |          10 | <--- 원본의 결과와 맞지 않는 값
| 2008-09-18 09:07:53 |          10 | <--- 원본의 결과와 맞지 않는 값
| 2006-09-18 09:07:53 |           2 |
| 2006-09-18 09:07:53 |           3 |
| 2006-09-18 09:07:53 |           4 |
| 2006-09-18 09:07:53 |           7 |
| 2006-09-18 09:07:53 |           5 |
| 2006-09-18 09:07:53 |           9 |
| 2006-09-18 09:07:53 |          10 | 
+---------------------+-------------+

DESC 로 정렬하면 올바른 결과를 얻을 수 있지만 그것에 의존할 수는 없습니다.
그래서 올바른 SQL 변환은 다음과 같습니다.

SELECT derived_1_2.datestamp AS subq
FROM t6
     LEFT JOIN
     ( SELECT MIN(datestamp) OVER () AS datestamp,
              t5.contract_id AS contract_id
       FROM t5
       GROUP BY contract_id, datestamp) derived_1_2
     ON derived_1_2.contract_id = t6.id;

+---------------------+
| subq                |
+---------------------+
| NULL                |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| NULL                |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
| 2006-09-18 09:07:53 |
+---------------------+

즉, ORDER BY ASC + LIMIT 1을 MIN으로 효과적으로 변환할 수 있습니다.

그러나 MySQL Team은 이번 WL(#13520)에서 LIMIT/OFFSET을 사용한 상관 서브 쿼리에 대해서는 변환하지 않았다고 합니다.
그래서 이와 같은 케이스의 경우에도 subquery_to_derived 활성화에도 Query 변환이 되지 않으며 Plan 도 유지하게 됩니다.

이번 포스팅에서는 subquery_to_derived 를 활성화 하였을 경우 서브쿼리에서 derived table 로 변경되는 사례와 변경이 불가능한 사례 몇가지를 확인해 보았습니다.

Oracle 에서도 위의 내용과 같이 서브쿼리를 인라인뷰(테이블의 서브쿼리)로의 변환을 서브쿼리 unnest 라고 하며, 가능한 범위 내에서(기본 전제는 동일한 결과를 보장하는) Query Transformation 이 이루어지게 됩니다.

몇몇 경우 서브쿼리를 unnest 하지 않는 것이 더 좋은 수행 방법이 될수도 있으나, 대부분의 경우 서브쿼리를 unnest 를 하여 메인 쿼리 블럭과 동일한 level 로 맞춤으로써 다앙한 Access 방법과 Join 방법을 사용하는 방향으로 수행되고 있습니다.

MySQL 의 경우도 계속적으로 서브쿼리에 대해서 개선 하기 위해서 semijoin 이나 materialization 와 같은 기능을 활용하거나, 쿼리 작성시 부터 서브쿼리 보다는 Join 을 사용하도록 쿼리를 작성(또는 수정)하여 사용해왔습니다.

물론 여러 테스트나 사전에 검증과 확인이 필요한 것은 맞으나 위에서 설명된 여러가지 개선된 내용을 확인했을 때 subquery_to_derived 옵티마이저를 사용하여 서브쿼리를 조금 더 적극 적으로 풀어내는 방향으로 진행해도 좋지 않을까 하는 생각으로 포스팅을 마무리 합니다.

Reference

Reference Link
• mysql.com/worklog/13520
• mysql.com/blog/mysql-8-0-24-release
• mysql.com/correlated-subqueries
• mysql.com/subquery-materialization
• mysql.com/transformation-scalar-in
• mariadb.com/subqueries-scalar-subqueries
• oracle.com/oracle/Scalar-Subquery-Expressions

연관된 다른 글

MySQL8 해시조인(Hash Join)

MySQL 에서는 오랜 기간 조인의 Method가 nested loop join 방식만 지원되어왔습니다

오라클(Oracle) 집계함수와 공집합의 NULL 처리

이번 포스팅은 집계함수와 공집합 그리고 NULL 처리에 관한 내용 입니다.

MySQL - Block Nested-Loop and Batched Key Access Joins

MySQL 에서 Block Nested-Loop 와 Batched Key Access Joins 그리고 Multi Range Read(MRR) 을 도입 및 추가한 이유로는 쉽게 Join Method 인 Nested Loop 조인의 한계점을 보완하고 개선하기 위해서 입니다.

MySQL - 히스토그램 - Histogram - MySQL 8.0 - 통계정보

안녕하세요 이번 포스팅에서는 MySQL 8.0 버전에서 추가 및 개선된 히스토그램(Histogram) 정보에 대해서 확인 해 보도록 하겠습니다.

MySQL EXPLAIN ANALYZE - 8.0.18

MySQL 8.0.18 버전은 2019년 10월 14일에 GA 가 되었으며 8.0.18 의 New Feature 로 EXPLAIN ANALYZE 기능이 추가 되었습니다.

MySQL 통계정보 - 테이블 통계 - 인덱스 통계

안녕하세요 이번 포스팅에서는 MySQL 의 통계정보에 대해서 테이블 통계 와 인덱스 통계 각각에 대해서 확인 해보도록 하겠습니다.해당 포스팅은 Real MySQL 8.0 을 정리한 내용으로 MySQL Document 를 참조한 글 입니다.

Jade(정현호)

Principal DBA(MySQL, AWS Aurora, Oracle)
핀테크 서비스인 핀다에서 데이터베이스를 운영하고 있어요(at finda.co.kr)
Previous - 당근마켓, 위메프, Oracle Korea ACS / Fedora Kor UserGroup 운영중

Database 외에도 NoSQL , Linux , Python, Cloud, Http/PHP CGI 등에도 관심이 있습니다
purityboy83@gmail.com / admin@hoing.io

hoing.io

bug.mysql.com

Statistics

MySQL 8.0 - 상관 서브 쿼리의 쿼리 변환 2 - Transform correlated scalar subqueries

Subquery in JOIN clause

Window functions

ORDER BY + LIMIT/OFFSET

Reference

You may also like...

Subquery in JOIN clause

Window functions

ORDER BY + LIMIT/OFFSET

Reference

You may also like...

MySQL 8.0 변경된 routine 조회 권한 - mysql.proc - SHOW_ROUTINE - information_schema

번역 - Upgrading GitHub.com to MySQL 8.0

MySQL Orchestrator - HA(High Availability) - 4 - 인증 설정 - Proxy 를 이용한 로드밸런스 접속