SYSTEMES DE BASES DE DONNEES
2002 Jean Bellec
en construction
Les applications de gestion oprent sur des entits
appeles fichiers. Ces fichiers sont drivs des supports existant depuis l'antiquit
et utiliss par les marchands, comptables, intermdiaires financiers... Le fichier est
un "container" d'informations plus ou moins bien classes qui reprsentent une
image de donnes relles (stocks, transactions, description d'ensembles divers).
L'enregistrement de donnes dans des fichiers est devenue progressivement le seul
lment des transactions financires (dmatrialisation des titres et des mouvements
de capitaux). L'informatique de gestion depuis la mcanographie des annes 1930 a eu comme objet les oprations sur des fichiers. Avant de dcrire le format de ces fichiers mcanographiques, il n'est pas inutile d'observer le traitement de fichiers "manuels". Les petits fichiers (tarifs, tables de conversion...) tiennent sur une feuille de papier et l'oeil peut accder directement l'lment recherch. Lorsque l'accs direct est un peu plus difficile, les lments sont tris par ordre alphabtique ou des critres similaires (agenda)... Les fichiers sont souvent composs de fiches comportant des lments de type identique, mais avec des valeurs diffrentes et ces fiches seront conserves tries selon certains critres et recherchs squentiellement (par exemple selon la date de cration de la fiche ou dans l'ordre alphabtique d'un certain champ de la fiche. Aprs des modifications dans les fiches, le fichier peut tre laiss en l'tat mais devient plus difficile utiliser (cf. agenda ratur) ou bien retri, ce qui signifie parfois pour les documents papier rcrit. Le traitement par ordinateur des fichiers n'est pas fondamentalement diffrent des accs manuels. Pendant longtemps, l'tre humain avait des facults de traitement global suprieur celui des ordinateurs, et ne bnficiait de la mcanographie que pour le dcharger de tches rptitives (nombre important de fiches ) ou pour liminer les aspects subjectifs de la comparaison des donnes, susceptibles d'entraner erreurs ou fraudes. Lorsque la capacit d'accs direct de l'ordinateur a dpass celle utilise par l'tre humain pour ce type d'opration, l'ordinateur a permis d'une part d'effectuer par lui-mme des traitements plus complexes que ceux faisables par un tre humain, d'autre part de mettre en commun les capacits de plusieurs tres humains au profit de tous. C'est ainsi que progressivement l'ordinateur est devenu le dpositaire des donnes d'une entreprise ou d'une fonction.
La nature des supports des fichiers a volu en fonction de la technologie, mais inversement les recherches technologiques ont t orientes par es besoins des applications esquisss ci-dessus. Le besoin des applications pour le traitement automatique de gros volumes de fiches a entran le dveloppement de supports de fichiers squentiels sur cartes perfores, bande perfore puis bandes magntiques. Ces technologies souvent venu d'autres industries (tlcommunication, radiophonie) ont t perfectionns par les industriels informatiques. Par ailleurs, leur disponibilit a orient des particularits des ordinateurs de gestion . Les besoins en fichiers accs direct ont bnfici de l'accroissement des mmoires centrales (tores, tambours) et ont suscit des tudes pour dvelopper des mmoires plus volumineuses (la recherche infructueuse de solutions base de cartes magntiques et bien entendu le succs des mmoires disques). Un dbat qui a agit le monde des supports (mdias) des bases de donnes ds l'origine a t l'attachement temporaire ou dfinitif de ces mdias l'ordinateur. Les informaticiens ont t tents par la solution d'un attachement permanent du systme de fichiers l'ordinateur tant pour des raisons d'une architecture plus simple que pour conforter le monopole des constructeurs. Les utilisateurs prfraient le plus souvent des systmes plus souples partir du moment o le mdias amovibles n'alourdissaient pas outre mesure les cots d'exploitation. Les premiers systmes de fichiers accs direct (disques et tambours) ont associs des disques fixes aux ordinateurs (IBM RAMAC, 1301, tambour Univac Fastrand...). IBM soucieux de donner aux fichiers disques la souplesse des exploitations sur bandes et peut-tre avec l'espoir de faire disparatre celle-ci lana les disc packs interchangeables au dbut des annes 1960 sur la srie 1400, puis la srie 360. La vogue du "temps partag" provoqua une rosion des avantages des disques interchangeables et des problmes technologiques de compatibilit mdia-ttes de lecture semblaient privilgier les disque fixes associs l'ordinateur. L'utilisation d'un catalogue centralis multi-utilisateurs semblait condamner le disque interchangeable. IBM riposta en fabriquant un ensemble amovible comportant le disque et ses ttes de lecture -avec la technologie Winchester- et le dbat continua sans que la victoire des disques fixes soit dfinitive. Certes des raisons de cot eurent tendance marginaliser l'approche des disques amovibles surtout sur les micro-ordinateurs, bien que la solution Winchester se retrouve chez Iomega avec le Zip. Une alternative naquit vers le milieu des annes 1990: elle consista proposer des systmes indpendants de stockage de donnes fournissant des serveurs de fichiers alimentant la demande les serveurs d'application et possdant un systme indpendant de sauvegarde des donnes tant sur le plan physique (RAID) que logique (journaux). L'organisation des fichiers dcompose le fichier en enregistrements ou "articles". Beaucoup de fichiers (notamment tous les fichiers squentiels et les tables des bases de donnes relationnelles" ne contiennent que des enregistrements de nature identique. D'autres organisations dites intgres peuvent contenir plusieurs types d'articles. Les articles sont ensuite diviss en plusieurs champs de donnes. Ce reprage des champs par le systme de base de donnes permet facilement d'effectuer des oprations de tri, de calcul et de reprage l'intrieur des fichiers. |
Au dbut de l'informatique, les architectes et les
programmeurs avaient un souci permanent de ne pas gaspiller l'espace de stockage des
donnes, non seulement en mmoire centrale, mais en mmoire secondaire. Les fichiers
d'articles composs exclusivement de champs fixes taient plus l 'exception que la
rgle. Deux procds diffrents ont t utiliss pour connatre les champs
variables: le premier consistait faire les donnes du champ d'un caractre spcial
"dlimiteur de champ" ainsi qu' un dlimiteur d'article la fin de
l'article; la second faisait prcder chaque objet de longueur variable d'un descripteur
abrg comportant la longueur du champ ou de l'article. Les code ASCII et EBCDIC
conservent la trace de ces dlimiteurs. L'inconvnient majeur de ces deux procds est
de ncessiter un traitement pralable des donnes dans le systme de fichiers qui doit
comparer chaque caractre avec les dlimiteurs (appels aussi flags ou drapeaux en
franais). Certains ont cherch transfrer ces oprations au niveau du processeur
de canaux, au prix d'un dialogue complexe entre celui-ci et la gestion des fichiers.
L'approche moderne, bnficiant de la rduction de cot des mmoires, consiste
plutt attribuer chaque champ une longueur maximum et conserver chaque
article en cours de traitement une longueur fixe, quitte comprimer les donnes brutes
en un archivage compress en utilisant des algorithmes de compression sans perte. Cette
stratgie ne s'applique pas au traitements de texte qui continuent d'associer une
reconnaissance de mots par contexte avec des dlimiteurs de champs partageant des
attributs communs. Il faut cependant distinguer les fichiers pour lesquels existe une description des donnes indpendante de tout programme d'application et ceux o les bornes de champs, voire d'articles sont dfinis l'intrieur d'un programme d'application, comme ce fut le cas dans trop de sites dans les annes 1950 1970. Cette interaction forte entre programmes et donnes avait comme prtexte la rduction de l'encombrement des fichiers, le by-pass de la gestion des donnes du systme d'exploitation, voire la possibilit de back-doors dans un but de fraude par certains programmeurs. On distingue en gnral parmi les fichiers homognes ceux organisation purement squentielle optimiss par un traitement en batch processing et les fichiers indexs o un fichier (ou plusieurs fichiers) auxiliaire(s) de "cls" permet d'accder directement l'article dont le champ dsign par la cl est compar une certaine valeur. De nombreuses variantes de ces fichiers indexs ont vu le jour depuis 1955. Ils
ne diffrent gnralement que par deux critres: la rapidit de l'accs et la
gestion des optimisations des temps d'accs sur les mdias physique. Trs rapidement ce
dernier problme s'est complexifi par l'utilisation d'un cache en mmoire principale
( l'origine rduit quelques articles situs dans un mme container), par un
systme de percolation entre des units de mmoire temps d'accs o dbit
diffrent et par la complexit du systme de journalisation propre cette varit
de mdia et aux besoins de l'informatique transactionnelle. Au milieu des annes 1960, un modle plus complexe attira l'attention, le modle hirarchique, comprennat plusieurs types d'articles organiss en arbres. C'est ainsi que IMS/DB de IBM et son sous-ensemble DL/1 s'introduisirent dans le march des main frames IBM respectivement sous OS et DOS. Les fichiers intgrs dont l'archtype est l'IDS invent par Charlie
Bachmann General Electric, plus tard adopt par ICL et Cullinet (IDMS) tait lui
aussi un systme o la description du fichier tait bien formalise dans un schma
spar des programmes d'applications, mais o des articles de types diffrents se
partageaient le mme container.
|