Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
Fix misbehavior in contrib/pg_trgm with an unsatisfiable regex.
authorTom Lane <tgl@sss.pgh.pa.us>
Sat, 11 Mar 2023 17:15:41 +0000 (12:15 -0500)
committerTom Lane <tgl@sss.pgh.pa.us>
Sat, 11 Mar 2023 17:15:41 +0000 (12:15 -0500)
If the regex compiler can see that a regex is unsatisfiable
(for example, '$foo') then it may emit an NFA having no arcs.
pg_trgm's packGraph function did the wrong thing in this case;
it would access off the end of a work array, and with bad luck
could produce a corrupted output data structure causing more
problems later.  This could end with wrong answers or crashes
in queries using a pg_trgm GIN or GiST index with such a regex.

Fix by not trying to de-duplicate if there aren't at least 2 arcs.

Per bug #17830 from Alexander Lakhin.  Back-patch to all supported
branches.

Discussion: https://postgr.es/m/17830-57ff5f89bdb02b09@postgresql.org

contrib/pg_trgm/expected/pg_word_trgm.out
contrib/pg_trgm/sql/pg_word_trgm.sql
contrib/pg_trgm/trgm_regexp.c

index 936d489390e401cb09824191b077f55671112f6c..c66a67f30efd44d061ce5972305d07f5bf84c230 100644 (file)
@@ -1044,3 +1044,9 @@ select t,word_similarity('Kabankala',t) as sml from test_trgm2 where t %> 'Kaban
  Waikala                          |      0.3
 (89 rows)
 
+-- test unsatisfiable pattern
+select * from test_trgm2 where t ~ '.*$x';
+ t 
+---
+(0 rows)
+
index d9fa1c55e5e7995791bcd0694f5a184ecdca4d67..d2ada49133a80c3477693f1dd4810367a55e4235 100644 (file)
@@ -43,3 +43,6 @@ select t,word_similarity('Baykal',t) as sml from test_trgm2 where 'Baykal' <% t
 select t,word_similarity('Kabankala',t) as sml from test_trgm2 where 'Kabankala' <% t order by sml desc, t;
 select t,word_similarity('Baykal',t) as sml from test_trgm2 where t %> 'Baykal' order by sml desc, t;
 select t,word_similarity('Kabankala',t) as sml from test_trgm2 where t %> 'Kabankala' order by sml desc, t;
+
+-- test unsatisfiable pattern
+select * from test_trgm2 where t ~ '.*$x';
index 9a00564ae4fc9ade3e2acb58c6b2ae55294144d6..06cd3db67beeded09ca70df0731ad965b450f381 100644 (file)
@@ -1947,9 +1947,7 @@ packGraph(TrgmNFA *trgmNFA, MemoryContext rcontext)
                arcsCount;
    HASH_SEQ_STATUS scan_status;
    TrgmState  *state;
-   TrgmPackArcInfo *arcs,
-              *p1,
-              *p2;
+   TrgmPackArcInfo *arcs;
    TrgmPackedArc *packedArcs;
    TrgmPackedGraph *result;
    int         i,
@@ -2021,17 +2019,25 @@ packGraph(TrgmNFA *trgmNFA, MemoryContext rcontext)
    qsort(arcs, arcIndex, sizeof(TrgmPackArcInfo), packArcInfoCmp);
 
    /* We could have duplicates because states were merged. Remove them. */
-   /* p1 is probe point, p2 is last known non-duplicate. */
-   p2 = arcs;
-   for (p1 = arcs + 1; p1 < arcs + arcIndex; p1++)
+   if (arcIndex > 1)
    {
-       if (packArcInfoCmp(p1, p2) > 0)
+       /* p1 is probe point, p2 is last known non-duplicate. */
+       TrgmPackArcInfo *p1,
+                  *p2;
+
+       p2 = arcs;
+       for (p1 = arcs + 1; p1 < arcs + arcIndex; p1++)
        {
-           p2++;
-           *p2 = *p1;
+           if (packArcInfoCmp(p1, p2) > 0)
+           {
+               p2++;
+               *p2 = *p1;
+           }
        }
+       arcsCount = (p2 - arcs) + 1;
    }
-   arcsCount = (p2 - arcs) + 1;
+   else
+       arcsCount = arcIndex;
 
    /* Create packed representation */
    result = (TrgmPackedGraph *)