]> matita.cs.unibo.it Git - helm.git/blob - helm/mowgli/home/xml/publications/mowgli/crimea.xml
104cf586b69ab6d28c72db946ce1a627b648845c
[helm.git] / helm / mowgli / home / xml / publications / mowgli / crimea.xml
1 <html>
2 <head>
3  <title>MOWGLI - A New Approach for the Content Description in Digital
4   Documents</title>
5  <link rel="stylesheet" href="../../../style/mowgli.css" type="text/css">
6 </head>
7 <body>
8 <h1 style="text-align: center">MOWGLI - A New Approach for the Content Description in Digital Documents</h1> 
9
10 <h2 style="text-align: center">Andrea Asperti, University of Bologna, and Bernd Wegner, TU Berlin</h2>
11
12
13 <h2>Abstract:</h2>
14
15 <div style="font-style: italic">
16 <p>The acronym MOWGLI stands for "Mathematics On the Web: Get it by Logic and
17 Interfaces". MOWGLI is an European Project founded by the European Community
18 in the ``Information Society Technologies'' (IST) Programme. The partners are
19 the University of Bologna, INRIA (Rocquencourt), the German Research Centre
20 for Artificial Intelligence (DFKI, Saarbruecken), the Katholieke Universiteit
21 Nijmegen, the Max Planck Institute for Gravitational Physics (Albert Einstein
22 Institute, Golm), Trusted Logic (Paris) and TU Berlin.</p>
23  
24 <p>The aim of the project is the study and the development of a technological
25 infrastructure for the creation and maintenance of a virtual, distributed,
26 hypertextual library of mathematical knowledge based on a content description
27 of the information. Currently, almost all mathematical documents available on
28 the Web are marked up only for presentation, severely crippling the
29 potentialities for automation, interoperability, sophisticated searching
30 mechanisms, intelligent applications, transformation and processing. The goal
31 of MOWGLI is to overcome these limitations, passing from a machine-readable to
32 a machine-understandable representation of the information, and developing the
33 technological infrastructure for its exploitation.</p>
34
35 <p>The project deals with problems traditionally belonging to different
36 scientific communities: digital libraries, Web publishing, automation of
37 mathematics and computer aided reasoning. Any serious solution to the complex
38 problem of mathematical knowledge management needs a co-ordinated effort of
39 all these groups and a synergy of their different expertise. MOWGLI attempts
40 to build a solid co-operation environment between these communities. The
41 current paper will concentrate on the aspects related to digital libraries.</p>
42 </div>
43
44
45 <h2>1. Aims and mission of MOWGLI</h2>
46
47 <p>After a ten years period of electronic publishing in mathematics we are still
48 confronted with slightly enhanced electronic versions of printed publications.
49 Almost all mathematical documents available on the Web are marked up only for
50 presentation, if such an enhancement is available at all. Only a minority of
51 documents try to care about some of the potentialities for automation,
52 interoperability, sophisticated searching mechanisms, intelligent
53 applications, transformation and processing. But these approaches could be
54 considered as first preliminary steps towards an electronic document providing
55 all these facilities. Hence, the goal of MOWGLI is to overcome these
56 limitations, passing form a machine-readable to a machine-understandable
57 representation of the information, and developing the technological
58 infrastructure for its exploitation.</p>
59
60 <p>In order to reach this goal MOWGLI has to deal with problems traditionally
61 belonging to different scientific communities: digital libraries, Web
62 publishing, automation of mathematics and computer aided reasoning. To our
63 knowledge, MOWGLI is the first attempt to build a solid co-operation
64 environment between these communities. In principle, any serious approach for
65 providing good tools for mathematical knowledge management needs a
66 co-ordinated effort of several partners from the above mentioned communities
67 and a synergy of
68 their different expertise. The choice of partners for the took this condition
69 into account, as can be seen below.</p>
70
71 <p>The goals of MOWGLI largely overlap with the aims of the so called "Semantic
72 Web" <a href="#14">[14]</a>.
73 Associating meaning with content or establishing a layer of machine
74 understandable data will allow automated agents, sophisticated search engines
75 and interoperable services and will enable higher degree of automation and
76 more intelligent applications. The ultimate goal of the Semantic Web is to
77 allow machines to share and exploit knowledge in the Web way, i.e. without
78 central authority, with few basic rules, in a scalable, adaptable, extensible
79 manner. However, the actual development of the Semantic Web and its
80 technologies has been hindered so far by the lack of large scale, distributed
81 repositories of structured, content oriented information. The case of
82 mathematical knowledge, the most rigorous and condensed form of knowledge, is
83 paradigmatic. The World Wide Web is already now the largest single resource of
84 mathematical knowledge, and its importance hopefully be increased by the
85 emerging display technologies like MathML.</p>
86
87 <p>Machine understandable information will make possible to offer added-value
88 services like:
89 <ul>
90  <li>Preservation of the real informative content in a highly structured and
91   machine understandable format, suitable for transformation, automatic
92   elaboration and processing.</li>
93  <li>Cut and paste on the level of computation (take the output from a Web
94   search engine and paste it into a computer algebra system).</li>
95  <li>Automatic proof checking of published proofs.</li>
96  <li>Semantic search for mathematical concepts (rather than keywords).</li>
97  <li>Indexing and Classification.</li>
98 </ul>
99 </p>
100
101 <p>Due to its rich notational, logical and semantic structure, mathematical
102 knowledge is a main case study for the development of the new generation of
103 semantic Web systems. The aim of the MOWGLI project is both to help in this
104 process, as well as pave the way towards a really useful virtual, distributed,
105 hyper-textual resource for the working mathematician, scientist or engineer.</p>
106
107
108 <h2>2. Standards and Tools</h2>
109
110 <p>Current standards for electronic publishing in mathematics are mainly
111 presentation oriented. New tools for the management and publishing of
112 mathematical documents are in development like MathML
113 <a href="#3">[3]</a>, OpenMath, OMDoc
114 (<a href="#17">[17]</a>,<a href="#18">[18]</a>) and integrated with different
115 XML technology <a href="#7">[7]</a> (XSLT <a href="#8">[8]</a>, RDF
116 <a href="#4">[4]</a>, <a href="#5">[5]</a>, SOAP <a href="#6">[6]</a>, ...).
117 All these languages cover different and orthogonal
118 aspects of the information and its management; our aim is not to propose a new
119 standard, but to study and to develop the technological infrastructure
120 required for taking advantage of the potentialities of all of current
121 standards and those which are likely to be established in the near future.</p>
122
123 <p>MOWGLI makes an essential use of standard XML technology and aspires to
124 become an example of ``best practice'' in its use, and a pioneering leading
125 project in the new area of the Semantic Web <a href="#12">[12]</a>.
126 In particular, the potentialities of
127 XML will be deeply explored in the following directions:
128 <ul>
129  <li>Publishing. XML offers sophisticated publishing technologies (Stylesheets,
130   MathML, SVG, etc.) which can be profitably used to solve, in a standard way,
131   the annoying notational problems that traditionally afflict content based and
132   machine-understandable encodings of the information.</li>
133  <li>Searching and Retrieving. Metadata will play a major role in MOWGLI. New
134   W3C languages such as the Resource Description Framework or XML Query are
135   likely to produce major innovative solutions in this field.</li>
136  <li>Interoperability. Disposing of a common, machine understandable layer is a
137   major and essential step in this direction.</li>
138  <li>Distribution. All XML technology is finally aimed to the access of the Web
139   as a single, distributed resource, with no central authority and few, simple
140   rules.</li>
141 </ul>
142
143 <p>MathML <a href="#3">[3]</a>, introducing for the first time a content markup
144 layer in parallel
145 with a presentational one, has indubitably been a pioneering project towards
146 the mining of the mathematical treasure available on the web. Still, its
147 limitations are evident as well: 
148 <ul>
149  <li>MathML is merely focused on mathematical expressions. However, in order to
150 bring the idea of a Semantic Web of Mathematics to its full potentialities,
151 other layers of mathematical information must be considered as well. In
152 particular, we need a clean, microscopic description of proofs, a markup for
153 mathematichal "objects" (Theorems, Lemmas, Corollaries, Examples, etc.), a
154 markup for "structured collections" of these objects (Documents, Theories,
155 etc.), possibly "functors" between these  collections, and finally a good
156 "metadata" layer.</li>
157  <li>MathML is just an (important) piece in a much wider technological puzzle.
158 Passing from content to a good presentational format requires sophisticated
159 operations; on the other side, these transformations are themselves a basic
160 component of the whole mathematical knowledge (like mathematical fonts). XSLT
161 <a href="#8">[8]</a> provides here the right technology, opening the way to
162 the creation of well maintained and documented libraries of mathematical
163 stylesheets <a href="#11">[11]</a>.</li>
164 </ul>
165 </p>
166
167 <p>Similarly, the creation and maintenance of the library as a distributed
168 repository, and the crucial aspect of managing the information in the ``web
169 way'' requires a light but powerful communication protocol, overcoming some of
170 the limitations of HTTP (SOAP <a href="#6">[6]</a> looks as a promising
171 solution).</p>
172
173 <p>Metadata will eventually require a fairly sophisticated model, much beyond
174 what is currently offered by typical metadata models as the Dublin-Core system
175 <a href="#1">[1]</a>. Here, RDF (Resource Description Framework)
176 (<a href="#4">[4]</a>, <a href="#5">[5]</a>) looks as the right
177 framework for developing the model, providing a general architectural model
178 for expressing metadata and a precise syntax for the encoding and interchange
179 of these metadata over the Web.</p>
180
181 <p>The fact of encoding also the microscopic, logical level of mathematics opens
182 the possibility to have completely formalised subsystems of the library
183 (<a href="#9">[9]</a>,<a href="#10">[10]</a>), which could be checked
184 automatically by standard tools for the
185 automation of formal reasoning and the mechanisation of mathematics (proof
186 assistants and logical frameworks
187 (<a href="#15">[15]</a>,<a href="#16">[16]</a>). At the same time, any of these
188 tools could be used as an authoring system for documents of the library, by
189 simply exporting their internal libraries into XML, and using stylesheets to
190 transform the output into a standard, machine-understandable representation,
191 such as MathML content markup or OpenMath. In MOWGLI we shall use the COQ
192 Proof Assistant of INRIA <a href="#13">[13]</a> as a paradigmatic example of
193 these applications.</p>
194
195 <p>An alternative route for the creation of content-based mathematical
196 information from standard digital repositories by means of a suitable
197 LaTeX-based authoring system will be explored by the Albert Einstein
198 Institute. They publish the "Living Reviews in Relativity"
199 <a href="#2">[2]</a>, a solely
200 electronic journal on the Web, which provides refereed, regularly updated
201 review articles on all areas of gravitational physics. AEI will develop a
202 LaTeX-based authoring tool interfacing with MOWGLI, and serve as a showcase to
203 demonstrate how content-mark-up in mathematics improves the usability and
204 information depth of electronic science journals.</p>
205
206
207 <h2>3. A minimal technological infrastructure</h2>
208
209 <p>It is clear that the creation and maintenance of large repositories of
210 content-based mathematical knowledge can only be conceived as a cooperative
211 and distributed process, comprising not only the creation of documents, but
212 also libraries of notational rules, metadata and management tools. The crucial
213 point is to build a minimal infrastructure to start up this process, so that
214 more and more tools can be added by interested parties. All these
215 considerations lead to two requirements for the developments in MOWGLI:
216 <ul>
217  <li>Information must be accessible with few basic rules an no central
218   authority (the web way).</li>
219  <li>Make extensive use of standard XML technology and tools, even when it would
220   be easier or more efficient just to develop an ad-hoc solution.</li>
221 </ul>
222 </p>
223
224 <p>In this way, we put no barrier to third party development and, every time a
225 standard technology or tool is improved, we can simply benefit of the new
226 implementation with minimal effort.</p>
227
228 <p>The MOWGLI architecture is essentially based on three components, which are
229 distribution sites, standard browsers and plug-outs, and active components,
230 such as XSLT processors, to elaborate the information. Distribution sites are
231 simply HTTP and FTP servers, widespread throughout the world; user browsers
232 are HTTP clients and run on the user host. We do not require any other
233 components to run on a specific host. Active components must provide answers
234 to browsers, requiring an HTTP server interface; they must also ask data to
235 distribution sites, acting as HTTP clients. Hence, MOWGLI is essentially
236 conceived as an HTTP pipeline.</p>
237
238 <p>The module client of the distribution sites is the "getter", which maps URIs
239 to URLs and hence documents, offering functionalities similar to the APT
240 packet management system
241 (<a href="http://www.debian.org">http://www.debian.org</a>).</p>
242
243 <p>The main active component is the XSLT stylesheet manager, whose typical
244 functionality is the application of a list of stylesheets (each one with the
245 respective list of parameters) to a document. However, other components may be
246 added in a completely modular way. This is exactly the content-based
247 architectural design of future web system enabled by XML technology.</p>
248
249
250 <h2>4. The contributions from the participants</h2>
251
252 <p>The concrete background for the work in MOWGLI is represented by the
253 activities at the participating institutions. Though details could easily be
254 obtained from the MOWGLI web-page
255 (<a href="http://mowgli.cs.unibo.it">http://mowgli.cs.unibo.it</a>) some short
256 remarks on this background should be made here.</p>
257
258 <p>The Department of Computer Science at the University of Bologna is the only
259 educational institution in Italy to be affiliated to W3C. They care about the
260 coordination of the project. The HELM project (Hypertextual Electronic Library
261 of Mathematics,
262 <a href="http://www.cs.unibo.it/helm">http://www.cs.unibo.it/helm</a>, see also 
263 <a href="#12">[12]</a>) is active in
264 Bologna since 1999. It is one of the systems of reference mentioned in the
265 previous section.</p>
266
267 <p>INRIA (Institut National de Recherche en Informatique et Automatique) is a
268 French institution located in Rocquencourt. They pursue two projects of
269 importance for MOWGLI: the Lemme project, introducing and developing formal
270 methods for use in writing scientific computing software, and the LogiCal
271 project, which developed the Coq proof assistant (see
272 <a href="#13">[13]</a>).</p>
273
274 <p>The German Research Center for Artificial Intelligence (DFKI) is based in
275 Kaiserslautern and Saarbruecken. Its main mission is technology transfer, i.e.
276 to move innovations in Artificial Intelligence from the lab to the market
277 place. Its main MOWGLI-related prototypical product so far has been the
278 Web-based learning environment ActiveMath that integrates several external services.</p>
279
280 <p>The Subfaculteit Informatica of Katholieke Universiteit Nijmegen hosts a
281 broad experience in logic, formal methods and theorem proving. They are
282 involved in several research activities in this domain as the EC sponsored
283 Network "TYPES", the FTA project (Fundamental Theorem of Algebra), the EC
284 Working group Calculemus which also deals with OpenMath et al.</p>
285
286 <p>The role of the Albert Einstein Institute (MPG, Golm) near Potsdam has been
287 described above already. They provide a test bed with the Living Reviews which
288 will represent the important link to the domain of mathematical publishing.
289 This also is the main concern of the partner TU Berlin which is formally
290 associated to AEI caring about the exploitation and information dissemination
291 for MOWGLI.</p>
292
293 <p>Trusted Logic makes the group complete. This is a French start-up company,
294 which offers a wide range of efficient and secure solutions of smart cards and
295 terminals in a wide range of areas. Their development methodology includes a
296 permanent concern of quality and security aspects.</p>
297
298 <p>As it is common for projects like MOWGLI the cooperation between the partners
299 is regulated by workpackages and a time schedule for the deliveries. But the
300 project started formally in March 2002. Hence these things are still theory,
301 and it will be subject of the next report on MOWGLI to describe, how theory
302 came into practise.</p>
303
304
305 <h2>BIBLIOGRAPHY</h2>
306
307 <dl>
308  <dt><a name="1"></a>[1]</dt>
309  <dd>The Dublin Core Metadata Inititiative. <a href="http://purl.org/dc/">http://purl.org/dc/</a></dd>
310
311  <dt><a name="2"></a>[2]</dt>
312  <dd>Living Reviews in Relativity.
313   <a href="http://www.livingreviews.org">http://www.livingreviews.org.</a></dd>
314
315  <dt><a name="3"></a>[3]</dt>
316  <dd>Mathematical Markup Language (MathML) 2.0 W3C Recommendation, 21 February
317 2001. <a href="http://www.w3.org/TR/MathML2/">http://www.w3.org/TR/MathML2/.</a>
318  </dd>
319
320  <dt><a name="4"></a>[4]</dt>
321  <dd>Resource Description Framework (RDF) Model and Syntax Specification, W3C
322 Recommendation 22 February 1999.
323  <a href="http://www.w3.org/TR/1999/REC-rdf-syntax-19990222">/http://www.w3.org/TR/1999/REC-rdf-syntax-19990222/</a></dd>
324
325  <dt><a name="5"></a>[5]</dt>
326  <dd>Resource Description Framework (RDF) Schema Specification 1.0, W3C
327  Candidate Recommendation 27 March 2000.
328  <a href="http://www.w3.org/TR/rdf-schema/">http://www.w3.org/TR/rdf-schema/</a></dd>
329
330  <dt><a name="6"></a>[6]</dt>
331  <dd>SOAP Version 1.2 Part 0: Primer. W3C Working Draft 17 December 2001.
332  <a href="http://www.w3.org/TR/2001/WD-soap12-part0-20011217">http://www.w3.org/TR/2001/WD-soap12-part0-20011217</a>.</dd>
333
334  <dt><a name="7"></a>[7]</dt>
335  <dd>Extensible Markup Language (XML) Specification. Version 1.0. W3C
336      Recommendation, 10 February 1998.
337      <a href="http://www.w3.org/TR/REC-xml">http://www.w3.org/TR/REC-xml</a>
338  </dd>
339
340  <dt><a name="8"></a>[8]</dt>
341  <dd>XSL Transformations (XSLT). Version 1.0, W3C Recommendation, 16 November
342   1999. <a href="http://www.w3.org/TR/xslt">http://www.w3.org/TR/xslt</a>.</dd>
343
344  <dt><a name="9"></a>[9]</dt>
345  <dd>Asperti, A.; Padovani, L.; Sacerdoti Coen C.; Schena, I.: Formal
346 Mathematics in MathML. Proceedings of the First International Conference on
347 MathML and Math on the Web, October 20-21 2000, University of Illinois at Urbana-Champaign.</dd>
348
349  <dt><a name="10"></a>[10]</dt>
350  <dd>Asperti, A.; Padovani, L.; Sacerdoti Coen, C.; Schena, I.: Formal
351 Mathematics on the Web. Proceedings of the Eighth International Conference on 
352 Libraries and Associations in the Transient World: New Technologies and New
353 Forms of Cooperation, June 9-17, 2001, Sudak, Autonomous Republic of Crimea, Ukraine.</dd>
354
355  <dt><a name="11"></a>[11]</dt>
356  <dd>Asperti, A.; Padovani, L.; Sacerdoti Coen, C.; Schena, I.: XML,
357 Stylesheets and the re-mathematization of Formal Content. Proceedings of
358 Extreme Markup Languages 2001 Conference, August 12-17, 2001, Montreal, Canada.</dd>
359
360  <dt><a name="12"></a>[12]</dt>
361  <dd>Asperti, A.; Padovani, L.; Sacerdoti Coen, C.; Schena, I.: HELM and the
362 semantic Math-Web. Proceedings of the 14th International Conference on Theorem
363 Proving in Higher Order Logics (TPHOLS 2001), 3-6 September 2001, 
364 Edinburgh, Scotland.</dd>
365
366  <dt><a name="13"></a>[13]</dt>
367  <dd>B. Barras et al.:The Coq Proof Assistant Reference Manual, version 6.3.1,
368   <a href="http://pauillac.inria.fr/coq">http://pauillac.inria.fr/coq</a></dd>
369
370  <dt><a name="14"></a>[14]</dt>
371  <dd>Tim Berner's Lee: The Semantic Web. W3C Architecture Note, 1998. </dd>
372
373  <dt><a name="15"></a>[15]</dt>
374  <dd>G. Huet, G. Plotkin (eds): Logical Frameworks. Cambridge University</dd>
375 Press. 1991.
376
377  <dt><a name="16"></a>[16]</dt>
378  <dd>G. Huet, G. Plotkin (eds): Logical Environments. Cambridge University
379 Press. 1993.</dd>
380
381  <dt><a name="17"></a>[17]</dt>
382  <dd>Kohlase, M.: OMDoc: Towards an Internet Standard for the Administration,
383 Distribution and Teaching of mathematical Knowledge. Proceedings of Artificial
384 Intelligence and Symbolic Computation, Springer LNAI, 2000. </dd>
385
386  <dt><a name="18"></a>[18]</dt>
387  <dd>Kohlase, M.: OMDoc: An Infrastructure for OpenMath Content Dictionary
388 Information. Bulletin of the ACM Special Interest Group for Algorithmic
389 Mathematics SIGSAM, 2000.</dd>
390 </dl>
391
392 <p>
393 Prof. Dr. Andrea Asperti<br />
394 Dipartimento di Scienze dell Informazione<br />
395 Universita degli Studii di Bologna<br />
396 Via di mura Anteo Zamboni VII<br />
397 I - 40127 Bologna<br />
398 Italy
399 </p>
400
401 <p>
402 Prof. Dr. Bernd Wegner<br />
403 Fakultaet II, Institut fuer Mathematik<br />
404 TU Berlin, Sekr. MA 8-1<br />
405 Strasse des 17. Juni 135<br />
406 D - 10623 Berlin<br />
407 Germany
408 </p>
409 </body>
410 </html>