]> matita.cs.unibo.it Git - helm.git/blob - helm/DEVEL/ocaml-http/http_parser.ml
00f8a68182671827bbdb0356bdfe201e767f65b5
[helm.git] / helm / DEVEL / ocaml-http / http_parser.ml
1
2 (*
3   OCaml HTTP - do it yourself (fully OCaml) HTTP daemon
4
5   Copyright (C) <2002> Stefano Zacchiroli <zack@cs.unibo.it>
6
7   This program is free software; you can redistribute it and/or modify
8   it under the terms of the GNU General Public License as published by
9   the Free Software Foundation; either version 2 of the License, or
10   (at your option) any later version.
11
12   This program is distributed in the hope that it will be useful,
13   but WITHOUT ANY WARRANTY; without even the implied warranty of
14   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
15   GNU General Public License for more details.
16
17   You should have received a copy of the GNU General Public License
18   along with this program; if not, write to the Free Software
19   Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
20 *)
21
22 open Neturl;;
23 open Printf;;
24
25 open Http_types;;
26 open Http_constants;;
27
28 (*
29 type url_syntax_option =
30     Url_part_not_recognized
31   | Url_part_allowed
32   | Url_part_required
33
34 * (1) scheme://user:password@host:port/path;params?query#fragment
35 *)
36
37 let request_uri_syntax = {
38   url_enable_scheme    = Url_part_not_recognized;
39   url_enable_user      = Url_part_not_recognized;
40   url_enable_password  = Url_part_not_recognized;
41   url_enable_host      = Url_part_not_recognized;
42   url_enable_port      = Url_part_not_recognized;
43   url_enable_path      = Url_part_required;
44   url_enable_param     = Url_part_not_recognized;
45   url_enable_query     = Url_part_allowed;
46   url_enable_fragment  = Url_part_not_recognized;
47   url_enable_other     = Url_part_not_recognized;
48   url_accepts_8bits    = false;
49   url_is_valid         = (fun _ -> true);
50 }
51
52   (* convention:
53       foo_RE_raw  is the uncompiled regexp matching foo
54       foo_RE      is the compiled regexp matching foo
55       is_foo      is the predicate over string matching foo
56   *)
57
58 let separators_RE_raw = "()<>@,;:\\\\\"/\\[\\]?={} \t"
59 let ctls_RE_raw = "\\x00-\\x1F\\x7F"
60 let token_RE_raw = "[^" ^ separators_RE_raw ^ ctls_RE_raw ^ "]+"
61 let lws_RE_raw = "(\r\n)?[ \t]"
62 let quoted_string_RE_raw = "\"(([^\"])|(\\\\\"))*\""
63 let text_RE_raw = "(([^" ^ ctls_RE_raw ^ "])|(" ^ lws_RE_raw ^ "))+"
64 let field_content_RE_raw =
65   sprintf
66     "^(((%s)|(%s)|(%s))|(%s))*$"
67     token_RE_raw
68     separators_RE_raw
69     quoted_string_RE_raw
70     text_RE_raw
71 (*
72   (* following RFC 2616 specifications *)
73 let field_value_RE_raw = "((" ^ field_content_RE_raw ^ ")|(" ^ lws_RE_raw^ "))*"
74 *)
75   (* smarter implementation: TEXT production is included in the regexp below *)
76 let field_value_RE_raw =
77   sprintf
78     "^((%s)|(%s)|(%s)|(%s))*$"
79     token_RE_raw
80     separators_RE_raw
81     quoted_string_RE_raw
82     lws_RE_raw
83
84 let token_RE = Pcre.regexp ("^" ^ token_RE_raw ^ "$")
85 let field_value_RE = Pcre.regexp ("^" ^ field_value_RE_raw ^ "$")
86
87 let is_token s = Pcre.pmatch ~rex:token_RE s
88 let is_field_name = is_token
89 let is_field_value s = Pcre.pmatch ~rex:field_value_RE s
90
91 let heal_header_name s =
92   if not (is_field_name s) then raise (Invalid_header_name s) else ()
93
94 let heal_header_value s =
95   if not (is_field_value s) then raise (Invalid_header_value s) else ()
96
97 let heal_header (name, value) =
98   heal_header_name name;
99   heal_header_value name
100
101   (** given an HTTP like query string (e.g. "name1=value1&name2=value2&...")
102   @return a list of pairs [("name1", "value1"); ("name2", "value2")]
103   @raise Malformed_query if the string isn't a valid query string
104   @raise Malformed_query_part if some piece of the query isn't valid
105   *)
106 let split_query_params =
107   let (bindings_sep, binding_sep) = (Pcre.regexp "&", Pcre.regexp "=") in
108   let http_decode url = Netencoding.Url.decode ~plus:false url in
109   fun ~query ->
110     let bindings = Pcre.split ~rex:bindings_sep query in
111     if List.length bindings < 1 then
112       raise (Malformed_query query);
113     List.map
114       (fun binding ->
115         match Pcre.split ~rex:binding_sep binding with
116         | [""; b] -> (* '=b' *) raise (Malformed_query_part (binding, query))
117         | [a; b]  -> (* 'a=b' *) (http_decode a, http_decode b)
118         | [a]     -> (* 'a=' || 'a' *) (http_decode a, "")
119         | _ -> raise (Malformed_query_part (binding, query)))
120       bindings
121
122   (** given an input channel and a separator
123   @return a line read from it (like Pervasives.input_line)
124   line is returned only after reading a separator string; separator string isn't
125   included in the returned value
126   TODO what about efficiency?, input is performed char-by-char
127   *)
128 let generic_input_line ~sep ~ic =
129   let sep_len = String.length sep in
130   if sep_len < 1 then
131     failwith ("Separator '" ^ sep ^ "' is too short!")
132   else  (* valid separator *)
133     let line = ref "" in
134     let sep_pointer = ref 0 in
135     try
136       while true do
137         if !sep_pointer >= String.length sep then (* line completed *)
138           raise End_of_file
139         else begin (* incomplete line: need to read more *)
140           let ch = input_char ic in
141           if ch = String.get sep !sep_pointer then  (* next piece of sep *)
142             incr sep_pointer
143           else begin  (* useful char *)
144             for i = 0 to !sep_pointer - 1 do
145               line := !line ^ (String.make 1 (String.get sep i))
146             done;
147             sep_pointer := 0;
148             line := !line ^ (String.make 1 ch)
149           end
150         end
151       done;
152       assert false  (* unreacheable statement *)
153     with End_of_file ->
154       if !line = "" then
155         raise End_of_file
156       else
157         !line
158
159 let parse_request =
160   let patch_empty_path s = (if s = "" then "/" else s) in
161   let pieces_sep = Pcre.regexp " " in
162   fun ic ->
163     let request_line = generic_input_line ~sep:crlf ~ic in
164     match Pcre.split ~rex:pieces_sep request_line with
165     | [meth; request_uri_raw; http_version] ->
166         if meth <> "GET" then
167           raise (Unsupported_method meth);
168         (match http_version with
169         | "HTTP/1.0" | "HTTP/1.1" -> ()
170         | _ -> raise (Unsupported_HTTP_version http_version));
171         let request_uri =
172           try
173             url_of_string request_uri_syntax request_uri_raw
174           with Malformed_URL ->
175             raise (Malformed_request_URI request_uri_raw)
176         in
177         let path =
178           patch_empty_path (String.concat "/" (url_path request_uri))
179         in
180         let query_params =
181           try (* act on HTTP encoded URIs *)
182             split_query_params (url_query ~encoded:true request_uri)
183           with Not_found -> []
184         in
185         Http_common.debug_print
186           (sprintf
187             "recevied request; path: %s; params: %s"
188             path
189             (String.concat
190               ", "
191               (List.map (fun (n, v) -> n ^ "=" ^ v) query_params)));
192         (path, query_params)
193     | _ -> raise (Malformed_request request_line)
194
195 let parse_request' ic =
196   let (path, params) = parse_request ic in
197   new Http_request.request ~path ~params
198