]> matita.cs.unibo.it Git - helm.git/blobdiff - matita/matita/lib/re/re.ma
Added in basics
[helm.git] / matita / matita / lib / re / re.ma
index 5894af561fc9126882111daff83772dec7da9ae2..9b63788461d53b8d90af8b2d73b0f4298a3e5754 100644 (file)
@@ -14,6 +14,9 @@
 
 include "re/lang.ma".
 
+(* The type re of regular expressions over an alphabet $S$ is the smallest 
+collection of objects generated by the following constructors: *)
+
 inductive re (S: DeqSet) : Type[0] ≝
    z: re S
  | e: re S
@@ -34,6 +37,9 @@ interpretation "atom" 'ps a = (s ? a).
 notation "`∅" non associative with precedence 90 for @{ 'empty }.
 interpretation "empty" 'empty = (z ?).
 
+(* The language sem{e} associated with the regular expression e is inductively 
+defined by the following function: *)
+
 let rec in_l (S : DeqSet) (r : re S) on r : word S → Prop ≝ 
 match r with
 [ z ⇒ ∅
@@ -50,8 +56,37 @@ interpretation "in_l mem" 'mem w l = (in_l ? l w).
 lemma rsem_star : ∀S.∀r: re S. \sem{r^*} = \sem{r}^*.
 // qed.
 
+(* 
+Pointed Regular expressions
+
+We now introduce pointed regular expressions, that are the main tool we shall 
+use for the construction of the automaton. 
+A pointed regular expression is just a regular expression internally labelled 
+with some additional points. Intuitively, points mark the positions inside the 
+regular expression which have been reached after reading some prefix of
+the input string, or better the positions where the processing of the remaining 
+string has to be started. Each pointed expression for $e$ represents a state of 
+the {\em deterministic} automaton associated with $e$; since we obviously have 
+only a finite number of possible labellings, the number of states of the automaton 
+is finite.
+
+Pointed regular expressions provide the tool for an algebraic revisitation of 
+McNaughton and Yamada's algorithm for position automata, making the proof of its 
+correctness, that is far from trivial, particularly clear and simple. In particular, 
+pointed expressions offer an appealing alternative to Brzozowski's derivatives, 
+avoiding their weakest point, namely the fact of being forced to quotient derivatives 
+w.r.t. a suitable notion of equivalence in order to get a finite number of states 
+(that is not essential for recognizing strings, but is crucial for comparing regular 
+expressions). 
+
+Our main data structure is the notion of pointed item, that is meant whose purpose
+is to encode a set of positions inside a regular expression. 
+The idea of formalizing pointers inside a data type by means of a labelled version 
+of the data type itself is probably one of the first, major lessons learned in the 
+formalization of the metatheory of programming languages. For our purposes, it is 
+enough to mark positions preceding individual characters, so we shall have two kinds 
+of characters •a (pp a) and a (ps a) according to the case a is pointed or not. *)
 
-(* pointed items *)
 inductive pitem (S: DeqSet) : Type[0] ≝
    pz: pitem S
  | pe: pitem S
@@ -61,6 +96,12 @@ inductive pitem (S: DeqSet) : Type[0] ≝
  | po: pitem S → pitem S → pitem S
  | pk: pitem S → pitem S.
  
+(* A pointed regular expression (pre) is just a pointed item with an additional 
+boolean, that must be understood as the possibility to have a trailing point at 
+the end of the expression. As we shall see, pointed regular expressions can be 
+understood as states of a DFA, and the boolean indicates if
+the state is final or not. *)
+
 definition pre ≝ λS.pitem S × bool.
 
 interpretation "pitem star" 'star a = (pk ? a).
@@ -73,6 +114,10 @@ interpretation "pitem ps" 'ps a = (ps ? a).
 interpretation "pitem epsilon" 'epsilon = (pe ?).
 interpretation "pitem empty" 'empty = (pz ?).
 
+(* The carrier $|i|$ of an item i is the regular expression obtained from i by 
+removing all the points. Similarly, the carrier of a pointed regular expression 
+is the carrier of its item. *)
+
 let rec forget (S: DeqSet) (l : pitem S) on l: re S ≝
  match l with
   [ pz ⇒ `∅
@@ -96,7 +141,14 @@ lemma erase_plus : ∀S.∀i1,i2:pitem S.
 lemma erase_star : ∀S.∀i:pitem S.|i^*| = |i|^*. 
 // qed.
 
-(* boolean equality *)
+(* 
+Comparing items and pres
+
+Items and pres are very concrete datatypes: they can be effectively compared, 
+and enumerated. In particular, we can define a boolean equality beqitem and a proof
+beqitem_true that it refects propositional equality, enriching the set (pitem S)
+to a DeqSet. *)
+
 let rec beqitem S (i1,i2: pitem S) on i1 ≝ 
   match i1 with
   [ pz ⇒ match i2 with [ pz ⇒ true | _ ⇒ false]
@@ -144,7 +196,11 @@ qed.
 
 definition DeqItem ≝ λS.
   mk_DeqSet (pitem S) (beqitem S) (beqitem_true S).
-  
+
+(* We also add a couple of unification hints to allow the type inference system 
+to look at (pitem S) as the carrier of a DeqSet, and at beqitem as if it was the 
+equality function of a DeqSet. *)
+
 unification hint  0 ≔ S; 
     X ≟ mk_DeqSet (pitem S) (beqitem S) (beqitem_true S)
 (* ---------------------------------------- *) ⊢ 
@@ -155,7 +211,12 @@ unification hint  0 ≔ S,i1,i2;
 (* ---------------------------------------- *) ⊢ 
     beqitem S i1 i2 ≡ eqb X i1 i2.
 
-(* semantics *)
+(*
+Semantics of pointed regular expressions
+
+The intuitive semantic of a point is to mark the position where
+we should start reading the regular expression. The language associated
+to a pre is the union of the languages associated with its points. *)
 
 let rec in_pl (S : DeqSet) (r : pitem S) on r : word S → Prop ≝ 
 match r with
@@ -176,6 +237,8 @@ definition in_prl ≝ λS : DeqSet.λp:pre S.
 interpretation "in_prl mem" 'mem w l = (in_prl ? l w).
 interpretation "in_prl" 'in_l E = (in_prl ? E).
 
+(* The following, trivial lemmas are only meant for rewriting purposes. *)
+
 lemma sem_pre_true : ∀S.∀i:pitem S. 
   \sem{〈i,true〉} = \sem{i} ∪ {ϵ}. 
 // qed.
@@ -208,6 +271,14 @@ lemma sem_star_w : ∀S.∀i:pitem S.∀w.
   \sem{i^*} w = (∃w1,w2.w1 @ w2 = w ∧ \sem{i} w1 ∧ \sem{|i|}^* w2).
 // qed.
 
+(* Below are a few, simple, semantic properties of items. In particular:
+- not_epsilon_item : ∀S:DeqSet.∀i:pitem S. ¬ (\sem{i} ϵ).
+- epsilon_pre : ∀S.∀e:pre S. (\sem{i} ϵ) ↔ (\snd e = true).
+- minus_eps_item: ∀S.∀i:pitem S. \sem{i} =1 \sem{i}-{[ ]}.
+- minus_eps_pre: ∀S.∀e:pre S. \sem{\fst e} =1 \sem{e}-{[ ]}.
+The first property is proved by a simple induction on $i$; the other
+results are easy corollaries. We need an auxiliary lemma first. *)
+
 lemma append_eq_nil : ∀S.∀w1,w2:word S. w1 @ w2 = ϵ → w1 = ϵ.
 #S #w1 #w2 cases w1 // #a #tl normalize #H destruct qed.
 
@@ -220,7 +291,6 @@ lemma not_epsilon_lp : ∀S:DeqSet.∀e:pitem S. ¬ (ϵ ∈ e).
   ]
 qed.
 
-(* lemma 12 *)
 lemma epsilon_to_true : ∀S.∀e:pre S. ϵ ∈ e → \snd e = true.
 #S * #i #b cases b // normalize #H @False_ind /2/ 
 qed.
@@ -244,6 +314,33 @@ lemma minus_eps_pre: ∀S.∀e:pre S. \sem{\fst e} =1 \sem{e}-{[ ]}.
   ]
 qed.
 
+(*
+Broadcasting points
+
+Intuitively, a regular expression e must be understood as a pointed expression with a single 
+point in front of it. Since however we only allow points before symbols, we must broadcast 
+this initial point inside e traversing all nullable subexpressions, that essentially corresponds 
+to the ϵ-closure operation on automata. We use the notation •(_) to denote such an operation;
+its definition is the expected one: let us start discussing an example.
+
+Example
+Let us broadcast a point inside (a + ϵ)(b*a + b)b. We start working in parallel on the 
+first occurrence of a (where the point stops), and on ϵ that gets traversed. We have hence 
+reached the end of a + ϵ and we must pursue broadcasting inside (b*a + b)b. Again, we work in 
+parallel on the two additive subterms b^*a and b; the first point is allowed to both enter the 
+star, and to traverse it, stopping in front of a; the second point just stops in front of b. 
+No point reached that end of b^*a + b hence no further propagation is possible. In conclusion: 
+               •((a + ϵ)(b^*a + b)b) = 〈(•a + ϵ)((•b)^*•a + •b)b, false〉
+*)
+
+(* Broadcasting a point inside an item generates a pre, since the point could possibly reach 
+the end of the expression. 
+Broadcasting inside a i1+i2 amounts to broadcast in parallel inside i1 and i2.
+If we define
+                 〈i1,b1〉 ⊕ 〈i2,b2〉 = 〈i1 + i2, b1 ∨ b2〉
+then, we just have •(i1+i2) = •(i1)⊕ •(i2).
+*)
+
 definition lo ≝ λS:DeqSet.λa,b:pre S.〈\fst a + \fst b,\snd a ∨ \snd b〉.
 notation "a ⊕ b" left associative with precedence 60 for @{'oplus $a $b}.
 interpretation "oplus" 'oplus a b = (lo ? a b).
@@ -251,12 +348,31 @@ interpretation "oplus" 'oplus a b = (lo ? a b).
 lemma lo_def: ∀S.∀i1,i2:pitem S.∀b1,b2. 〈i1,b1〉⊕〈i2,b2〉=〈i1+i2,b1∨b2〉.
 // qed.
 
+(*
+Concatenation is a bit more complex. In order to broadcast a point inside i1 · i2 
+we should start broadcasting it inside i1 and then proceed into i2 if and only if a 
+point reached the end of i1. This suggests to define •(i1 · i2) as •(i1) ▹ i2, where 
+e ▹ i is a general operation of concatenation between a pre and an item, defined by 
+cases on the boolean in e: 
+
+       〈i1,true〉 ▹ i2  = i1 ◃ •(i_2)
+       〈i1,false〉 ▹ i2 = i1 · i2
+       
+In turn, ◃ says how to concatenate an item with a pre, that is however extremely simple:
+
+        i1 ◃ 〈i1,b〉  = 〈i_1 · i2, b〉
+
+Let us come to the formalized definitions:
+*)
+
 definition pre_concat_r ≝ λS:DeqSet.λi:pitem S.λe:pre S.
   match e with [ mk_Prod i1 b ⇒ 〈i · i1, b〉].
  
 notation "i ◃ e" left associative with precedence 60 for @{'lhd $i $e}.
 interpretation "pre_concat_r" 'lhd i e = (pre_concat_r ? i e).
 
+(* The behaviour of ◃ is summarized by the following, easy lemma: *)
+
 lemma eq_to_ex_eq: ∀S.∀A,B:word S → Prop. 
   A = B → A =1 B. 
 #S #A #B #H >H /2/ qed.
@@ -266,7 +382,13 @@ lemma sem_pre_concat_r : ∀S,i.∀e:pre S.
 #S #i * #i1 #b1 cases b1 [2: @eq_to_ex_eq //] 
 >sem_pre_true >sem_cat >sem_pre_true /2/ 
 qed.
+
+(* The definition of $•(-)$ (eclose) and ▹ (pre_concat_l) are mutually recursive.
+In this situation, a viable alternative that is usually simpler to reason about, 
+is to abstract one of the two functions with respect to the other. In particular
+we abstract pre_concat_l with respect to an input bcast function from items to
+pres. *)
+
 definition pre_concat_l ≝ λS:DeqSet.λbcast:∀S:DeqSet.pitem S → pre S.λe1:pre S.λi2:pitem S.
   match e1 with 
   [ mk_Prod i1 b1 ⇒ match b1 with 
@@ -280,6 +402,8 @@ interpretation "item-pre concat" 'tril op a b = (pre_concat_l ? op a b).
 
 notation "•" non associative with precedence 60 for @{eclose ?}.
 
+(* We are ready to give the formal definition of the broadcasting operation. *)
+
 let rec eclose (S: DeqSet) (i: pitem S) on i : pre S ≝
  match i with
   [ pz ⇒ 〈 `∅, false 〉
@@ -293,6 +417,8 @@ let rec eclose (S: DeqSet) (i: pitem S) on i : pre S ≝
 notation "• x" non associative with precedence 60 for @{'eclose $x}.
 interpretation "eclose" 'eclose x = (eclose ? x).
 
+(* Here are a few simple properties of ▹ and •(-) *)
+
 lemma eclose_plus: ∀S:DeqSet.∀i1,i2:pitem S.
   •(i1 + i2) = •i1 ⊕ •i2.
 // qed.
@@ -305,22 +431,6 @@ lemma eclose_star: ∀S:DeqSet.∀i:pitem S.
   •i^* = 〈(\fst(•i))^*,true〉.
 // qed.
 
-definition lift ≝ λS.λf:pitem S →pre S.λe:pre S. 
-  match e with 
-  [ mk_Prod i b ⇒ 〈\fst (f i), \snd (f i) ∨ b〉].
-  
-definition preclose ≝ λS. lift S (eclose S). 
-interpretation "preclose" 'eclose x = (preclose ? x).
-
-(* theorem 16: 2 *)
-lemma sem_oplus: ∀S:DeqSet.∀e1,e2:pre S.
-  \sem{e1 ⊕ e2} =1 \sem{e1} ∪ \sem{e2}. 
-#S * #i1 #b1 * #i2 #b2 #w %
-  [cases b1 cases b2 normalize /2/ * /3/ * /3/
-  |cases b1 cases b2 normalize /2/ * /3/ * /3/
-  ]
-qed.
-
 lemma odot_true : 
   ∀S.∀i1,i2:pitem S.
   〈i1,true〉 ▹ i2 = i1 ◃ (•i2).
@@ -336,9 +446,18 @@ lemma odot_false:
   〈i1,false〉 ▹ i2 = 〈i1 · i2, false〉.
 // qed.
 
-lemma LcatE : ∀S.∀e1,e2:pitem S.
-  \sem{e1 · e2} = \sem{e1} · \sem{|e2|} ∪ \sem{e2}. 
-// qed.
+(* The definition of •(-) (eclose) can then be lifted from items to pres
+in the obvious way. *)
+
+definition lift ≝ λS.λf:pitem S →pre S.λe:pre S. 
+  match e with 
+  [ mk_Prod i b ⇒ 〈\fst (f i), \snd (f i) ∨ b〉].
+  
+definition preclose ≝ λS. lift S (eclose S). 
+interpretation "preclose" 'eclose x = (preclose ? x).
+
+(* Obviously, broadcasting does not change the carrier of the item,
+as it is easily proved by structural induction. *)
 
 lemma erase_bull : ∀S.∀i:pitem S. |\fst (•i)| = |i|.
 #S #i elim i // 
@@ -350,13 +469,36 @@ lemma erase_bull : ∀S.∀i:pitem S. |\fst (•i)| = |i|.
   ]
 qed.
 
-(*
-lemma sem_eclose_star: ∀S:DeqSet.∀i:pitem S.
-  \sem{〈i^*,true〉} =1 \sem{〈i,false〉}·\sem{|i|}^* ∪ {ϵ}.
-/2/ qed.
-*)
+(* We are now ready to state the main semantic properties of ⊕, ◃ and •(-):
+
+sem_oplus:     \sem{e1 ⊕ e2} =1 \sem{e1} ∪ \sem{e2} 
+sem_pcl:       \sem{e1 ▹ i2} =1  \sem{e1} · \sem{|i2|} ∪ \sem{i2}
+sem_bullet     \sem{•i} =1 \sem{i} ∪ \sem{|i|}
+
+The proof of sem_oplus is straightforward. *)
+
+lemma sem_oplus: ∀S:DeqSet.∀e1,e2:pre S.
+  \sem{e1 ⊕ e2} =1 \sem{e1} ∪ \sem{e2}. 
+#S * #i1 #b1 * #i2 #b2 #w %
+  [cases b1 cases b2 normalize /2/ * /3/ * /3/
+  |cases b1 cases b2 normalize /2/ * /3/ * /3/
+  ]
+qed.
+
+(* For the others, we proceed as follow: we first prove the following 
+auxiliary lemma, that assumes sem_bullet:
+
+sem_pcl_aux: 
+   \sem{•i2} =1  \sem{i2} ∪ \sem{|i2|} →
+   \sem{e1 ▹ i2} =1  \sem{e1} · \sem{|i2|} ∪ \sem{i2}.
+
+Then, using the previous result, we prove sem_bullet by induction 
+on i. Finally, sem_pcl_aux and sem_bullet give sem_pcl. *)
+
+lemma LcatE : ∀S.∀e1,e2:pitem S.
+  \sem{e1 · e2} = \sem{e1} · \sem{|e2|} ∪ \sem{e2}. 
+// qed.
 
-(* theorem 16: 1 → 3 *)
 lemma odot_dot_aux : ∀S.∀e1:pre S.∀i2:pitem S.
    \sem{•i2} =1  \sem{i2} ∪ \sem{|i2|} →
    \sem{e1 ▹ i2} =1  \sem{e1} · \sem{|i2|} ∪ \sem{i2}.
@@ -378,21 +520,31 @@ lemma minus_eps_pre_aux: ∀S.∀e:pre S.∀i:pitem S.∀A.
 @eqP_substract_r //
 qed.
 
-(* theorem 16: 1 *)
 theorem sem_bull: ∀S:DeqSet. ∀i:pitem S.  \sem{•i} =1 \sem{i} ∪ \sem{|i|}.
 #S #e elim e 
   [#w normalize % [/2/ | * //]
   |/2/ 
   |#x normalize #w % [ /2/ | * [@False_ind | //]]
   |#x normalize #w % [ /2/ | * // ] 
-  |#i1 #i2 #IH1 #IH2 >eclose_dot
-   @eqP_trans [|@odot_dot_aux //] >sem_cat 
+  |#i1 #i2 #IH1 #IH2 
+   (* lhs = \sem{•(i1 ·i2)} *)
+   >eclose_dot
+   (* lhs =\sem{•(i1) ▹ i2)} *) 
+   @eqP_trans [|@odot_dot_aux //] 
+   (* lhs = \sem{•(i1)·\sem{|i2|}∪\sem{i2} *)
    @eqP_trans
      [|@eqP_union_r
        [|@eqP_trans [|@(cat_ext_l … IH1)] @distr_cat_r]]
+   (* lhs = \sem{i1}·\sem{|i2|}∪\sem{|i1|}·\sem{|i2|}∪\sem{i2} *) 
    @eqP_trans [|@union_assoc]
+   (* lhs = \sem{i1}·\sem{|i2|}∪(\sem{|i1|}·\sem{|i2|}∪\sem{i2}) *) 
+   (* Now we work on the rhs that is 
+      rhs = \sem{i1·i2} ∪ \sem{|i1·i2|} *)
+   >sem_cat 
+   (* rhs = \sem{i1}·\sem{|i2|} ∪ \sem{i2} ∪ \sem{|i1·i2|} *)
    @eqP_trans [||@eqP_sym @union_assoc]
-   @eqP_union_l //
+   (* rhs = \sem{i1}·\sem{|i2|}∪ (\sem{i2} ∪ \sem{|i1·i2|}) *)
+   @eqP_union_l @union_comm 
   |#i1 #i2 #IH1 #IH2 >eclose_plus
    @eqP_trans [|@sem_oplus] >sem_plus >erase_plus 
    @eqP_trans [|@(eqP_union_l … IH2)]
@@ -409,7 +561,15 @@ theorem sem_bull: ∀S:DeqSet. ∀i:pitem S.  \sem{•i} =1 \sem{i} ∪ \sem{|i|
   ]
 qed.
 
-(* blank item *)
+(*
+Blank item
+As a corollary of theorem sem_bullet, given a regular expression e, we can easily 
+find an item with the same semantics of $e$: it is enough to get an item (blank e) 
+having e as carrier and no point, and then broadcast a point in it. The semantics of
+(blank e) is obviously the empty language: from the point of view of the automaton,
+it corresponds with the pit state. *)
+
 let rec blank (S: DeqSet) (i: re S) on i :pitem S ≝
  match i with
   [ z ⇒ `∅
@@ -446,7 +606,12 @@ theorem re_embedding: ∀S.∀e:re S.
 @eqP_trans [|@union_comm] @union_empty_r.
 qed.
 
-(* lefted operations *)
+(*
+Lifted Operators
+Plus and bullet have been already lifted from items to pres. We can now 
+do a similar job for concatenation ⊙ and Kleene's star ⊛. *)
+
 definition lifted_cat ≝ λS:DeqSet.λe:pre S. 
   lift S (pre_concat_l S eclose e).
 
@@ -469,6 +634,8 @@ lemma erase_odot:∀S.∀e1,e2:pre S.
 #S * #i1 * * #i2 #b2 // >odot_true_b // 
 qed.
 
+(* Let us come to the star operation: *)
+
 definition lk ≝ λS:DeqSet.λe:pre S.
   match e with 
   [ mk_Prod i1 b1 ⇒
@@ -513,6 +680,9 @@ cut (e1 ⊙ 〈i,false〉 = 〈\fst (e1 ▹ i), \snd(e1 ▹ i) ∨ false〉) [//
 cases (e1 ▹ i) #i1 #b1 cases b1 #H @H
 qed.
 
+(* We conclude this section with the proof of the main semantic properties
+of ⊙ and ⊛. *)
+
 lemma sem_odot: 
   ∀S.∀e1,e2: pre S. \sem{e1 ⊙ e2} =1 \sem{e1}· \sem{|\fst e2|} ∪ \sem{e2}.
 #S #e1 * #i2 * 
@@ -522,17 +692,28 @@ lemma sem_odot:
   |>sem_pre_false >eq_odot_false @odot_dot_aux //
   ]
 qed.
-
-(* theorem 16: 4 *)      
+      
 theorem sem_ostar: ∀S.∀e:pre S. 
   \sem{e^⊛} =1  \sem{e} · \sem{|\fst e|}^*.
 #S * #i #b cases b
-  [>sem_pre_true >sem_pre_true >sem_star >erase_bull
+  [(* lhs = \sem{〈i,true〉^⊛} *)
+   >sem_pre_true (* >sem_pre_true *) 
+   (* lhs = \sem{(\fst (•i))^*}∪{ϵ} *)
+   >sem_star >erase_bull
+   (* lhs = \sem{\fst (•i)}·(\sem{|i|)^*∪{ϵ} *)
    @eqP_trans [|@eqP_union_r[|@cat_ext_l [|@minus_eps_pre_aux //]]]
+   (* lhs = (\sem{i}∪(\sem{|i|}-{ϵ})·(\sem{|i|)^*∪{ϵ} *)
    @eqP_trans [|@eqP_union_r [|@distr_cat_r]]
+   (* lhs = (\sem{i}·(\sem{|i|)^*∪(\sem{|i|}-{ϵ})·(\sem{|i|)^*∪{ϵ} *)
+   @eqP_trans [|@union_assoc]
+   (* lhs = (\sem{i}·(\sem{|i|)^*∪((\sem{|i|}-{ϵ})·(\sem{|i|)^*∪{ϵ}) *)
+   @eqP_trans [|@eqP_union_l[|@eqP_sym @star_fix_eps]]
+   (* lhs = (\sem{i}·(\sem{|i|)^*∪(\sem{|i|)^* *)
+   (* now we work on the right hand side, that is
+      rhs = \sem{〈i,true〉}·(\sem{|i|}^* *)
    @eqP_trans [||@eqP_sym @distr_cat_r]
-   @eqP_trans [|@union_assoc] @eqP_union_l
-   @eqP_trans [||@eqP_sym @epsilon_cat_l] @eqP_sym @star_fix_eps 
+   (* rhs = (\sem{i}·(\sem{|i|)^*∪{ϵ}·(\sem{|i|)^* *)
+   @eqP_union_l @eqP_sym @epsilon_cat_l
   |>sem_pre_false >sem_pre_false >sem_star /2/
   ]
 qed.