| Artifices 4 | 6 novembre-5 décembre 1996 | Langages en perspective |

 

ArtificesArt ? l'orninateur
Jean-Marie Dallet, Quelques éléments d'une grammaire du geste interactif


La médiation du langage

      Sur le "bureau" de l'ordinateur, on voit des signes associés à des étiquettes dont certains sont identiques dans leur forme et d'autres différents. Lorsqu'on fait glisser le curseur de la souris au-dessus de ces entités graphiques, rien ne se passe. Si, par hasard, on clique grâce au bouton de la souris sur l'une d'entre elles, la couleur de l'étiquette s'inverse et celle de l'icône devient plus sombre. Ainsi, l'action que l'on a provoquée au moyen de la souris, alors que le curseur était placé sur un signe, a été interprétée par l'ordinateur. Il apparaît à la lumière de cette courte expérience que les signes supposent, pour être manipulés, l'utilisation d'un code. Ce code est constitué par une série de règles qui permettent d'attribuer une signification au signe: "rouler" sur une entité visuelle ne produit rien, cliquer dessus la sélectionne, "double cliquer" ouvre une fenêtre ou une application en fonction du type d'occurrence...

      L'expérience précédente appelle aussi un autre développement. Si en "double cliquant" sur une image on déclenche l'ouverture d'une fenêtre, c'est qu'il existe un autre code qui traduit immédiatement en langage machine l'action effectuée. Ce langage corrèle par substitution des notations binaires —une succession de 0 et de 1— à des nombres décimaux et à des lettres de l'alphabet. La pauvreté de ce langage par rapport au code humain n'en permet pas moins d'effectuer par l'intermédiaire d'une programmation algorithmique et nécessaire des opérations de calcul complexes qui dépassent la simple numération.

      Un espace commun à l'homme et à la machine est donc créé par la médiation du langage. Les éléments d'interface mettent l'utilisateur en relation avec la machine. Ils prennent place dans l'espace d'un graphe (1). Ce processus de "sémiose" utilise comme matière première des signes. D'une manière générale, sur les interfaces standard Macintosh et P.C., de même que sur celles des CD-Rom, on peut distinguer deux types de signes: d'une part des éléments visuels —icônes, emblèmes, signaux, mots, dessins, diagrammes—, et d'autre part des gestes qui sont effectués avec le curseur de la souris.


Les modules, entités graphiques

      Les éléments graphiques des interfaces prennent une place primordiale dans la relation qui s'établit entre l'homme et la machine. Ils permettent au sens de s'incarner dans une forme matérielle et sensible. Ces entités composent une écriture idéographique pré-alphabétique (2) qui traduit directement les idées par des signes susceptibles de suggérer ces mêmes idées. La corbeille du Macintosh est un exemple célèbre de ce nouveau vocabulaire où l'idée de détruire une information présente dans l'espace du disque dur est matérialisée par le dessin d'une poubelle.

      Un élément graphique est lié à des instructions qui s'exécuteront lorsqu'il sera activé par le biais de la souris. Son rôle est double: à la fois possibilité de provoquer une action de la machine — symbole de cette action — et outil permettant de la faire exécuter. On appellera désormais module une entité graphique. Un module est donc un objet biface dont l'une des faces est tournée vers l'utilisateur. C'est aussi un signe visuel dont l'autre face est orientée vers la machine: c'est
      le programme.

      Le signe visuel est une proposition. Celle-ci peut être simple et prendre la forme par exemple de l'icône d'un dossier avec son étiquette, ou bien d'un emblème comme celui qui apparaît à la mise en fonctionnement du Macintosh. Elle peut aussi être complexe et résulter de la combinaison de diverses formes simples. Les messages d'alerte que l'on retrouve sur l'interface standard du Macintosh entrent dans cette classe-là. Un énoncé linguistico-scriptural, du type "enregistrer les modifications du document
      Introduction 28 08 96 avant de quitter?" est associé à un signal ; un point d'exclamation qui apparaît dans un triangle, et à des cibles: "Non", "Annuler" et "OK", qui indiquent où cliquer pour valider ou non l'opération d'enregistrement.Le programme est de type inférentiel.
      Ainsi, en reprenant le cas de la fenêtre d'alerte cité précédemment, on pourrait interpréter dans le langage de programmation les instructions visuelles qui nous sont fournies par: si je désire enregistrer mon document Introduction 28 08 96 maintenant, et si donc j'appuie sur la commande "OK", alors j'obtiendrais une nouvelle version q de ce même document. Il est intéressant de noter que ces consignes sont identiques, mais sur un autre registre, à celles qui composent le mécanisme de fonctionnement de cette catégorie particulière de signes que sont les cibles. D'après Umberto Eco, les cibles indiquent où diriger une opération et sont donc des instructions dont "la structure de renvoi est de type inférentiel avec quelques complications : si maintenant p, et si donc tu fais z, alors tu obtiendras q (3)."

      Suivant cette assertion, la fonction des programmes semble être de traduire en langage machine les raisonnements induits par la lecture des cibles. Ainsi, peut-on dire que cibles et programmes sont "connivents" au sein d'un module où ils sont porteurs d'instructions orientées vers le sujet d'une part et vers la machine d'autre part.


L'intentionnalité comme tenseur de la dramaturgie

      L'analyse des propositions met en évidence le mécanisme complexe qui sous-tend la dramaturgie (4) de l'interactivité dont le noeud est à chercher dans la nature bifide du module. Le signe visuel est une cible orientée vers le sujet qui lui indique où diriger une opération. La cible, qu'elle soit appelée volontairement ou déjà présente sur l'interface, n'est reconnue par nous comme cible que parce que nous sommes déjà mus par une intention. C'est le désir, à un moment donné, d'accomplir une action spécifique. Le geste qui réalise cet état Intentionnel (5) est un acte de langage. Dans ce sens-là, nous pouvons affirmer, en reprenant la célèbre formule de John L. Austin que pour le sujet "dire c'est faire (6)". Maintenant, si on regarde ce qu'implique pour l'ordinateur le geste de cliquer sur une cible, on comprend qu'il déclenche un processus de modification des informations stockées dans la mémoire morte, ou présentes en mémoire vive. Le geste spécifie, indique à l'ordinateur le type de transformation à effectuer. De ce côté-là du miroir, la formule "dire c'est faire" s'inverse pour devenir, faire c'est dire. Un module apparaît alors comme une machine transformationnelle, une machine à faire faire sur laquelle se connecte une "machine désirante (7)".


Un geste est un acte de langage

      Lorsque l'on émet l'hypothèse qu'un geste est un acte de langage, on pense naturellement aux idéogrammes chinois qui sont non seulement des désignations d'objets, mais aussi "des désignations de désignations, c'est-à-dire des dessins de gestes (8)". Ainsi, cliquer ou lâcher le bouton de la souris sur des modules, de même que déplacer le curseur d'un module à l'autre, sont des actes de langage qui expriment ces modules. Les mouvements ou les actions du curseur décrivent la proposition, ou les successions de propositions, qui elles-mêmes décrivent les cibles.

      Les gestes sont visibles sur l'écran par l'intermédiaire du curseur de la souris.Celui-ci est l'analogon numérique de la main. C'est une flèche qui indique une direction ou un doigt pointé qui marque l'intention. Dans tous les cas, il est un vecteur, ou dans la terminologie de Roman Jakobson, un "embrayeur", qui semble ne devenir expressif qu'en liaison avec un objet ou un état des choses. Il prend une multitude de significations contextuelles, mais ne s'applique jamais à plus d'une chose à la fois.

      Ainsi, sur une interface, suivant les modules que désigne le curseur, un et un seul geste sera efficace pour activer le programme. Les gestes que l'on peut réaliser avec le curseur sont au nombre de cinq et ils dépendent "physiquement" de l'action de l'utilisateur sur le bouton de la souris:
      1) Appuyer , c'est maintenir le doigt sur le bouton de la souris sans la déplacer.
      2) Relâcher, permet au bouton de la souris de revenir à sa position initiale.
      3) L'action de cliquer peut être décomposée en deux actions : appuyer sur le bouton
      de la souris, et le relâcher sans déplacer la souris.
      4) Faire glisser consiste à appuyer sur le bouton de la souris, à déplacer la souris vers une nouvelle position, puis à relâcher le bouton de la souris.
      5) Le double-clic est formé par la succession de deux clics qui ont lieu au même endroit.


Les opérateurs logiques

      Les gestes que l'on vient de décrire affectent des modules simples qui se confondent avec des cibles. Mais ils peuvent aussi s'effectuer à l'intérieur d'un module complexe constitué d'un ensemble de cibles, de même qu'ils peuvent mettre en relation des modules entre eux. Ils remplissent alors un rôle qui, en linguistique, est dévolu aux opérateurs (9). Ceux-ci permettent d'effectuer des opérations logiques sur les propositions. Ainsi, lorsque on déplace le curseur sur "la palette outils principale" du logiciel d'application Adobe Photoshop, on réalise une disjonction. En effet, c'est pour choisir tel ou tel outil, ou encore telle ou telle proposition, que l'on promène
      son curseur. De même, il nous est possible d'additionner des gestes par conjonction. La fenêtre "temps et heure" présente sur le tableau de bord du Macintosh nous permet, par l'intermédiaire de cases à cocher, de spécifier telle option et telle autre. Si la disjonction et la conjonction ne jouent que sur des modules isolés, il en va autrement pour la classe de propositions que l'on nomme "hypothétiques". Celles-ci permettent d'établir une relation entre les modules. Si on sélectionne une icône sur le bureau, alors on peut changer sa couleur en activant l'article de menu correspondant.


Les types d'action

      Dans ce qui précède, ont été identifiés les divers éléments mis en jeu dans l'interactivité écranique entre l'homme et la machine. Pour résumer, on dira que des éléments graphiques sont investis des pouvoirs des outils et portent en eux la capacité de générer des actions. Celles-ci sont de nature différente. On en recense quatre types que l'on peut faire entrer dans deux classes cinématiques : celle qui ne présente pas de mouvement a, et celle où le mouvement est obligatoire pour la transformation d'un objet (b, c, d). La liste de ces actions qui dépendent en grande partie des "opérateurs logiques", est la suivante:
      a) Les actions sont déclenchées directement
      à partir de l'endroit où l'utilisateur agit sur la souris. Le clic sur la case fermeture d'une "fenêtre document", par exemple.
      b) Les actions disjonctives où on choisit dans un module un " élément cible " parmi d'autres.
      c) Les actions conjonctives qui nous permettent, toujours à l'intérieur d'un module, la sommation d'"éléments cibles".
      d) Les actions nécessitent un mouvement du curseur. Dans ce cas, le premier module sert de réservoir d'occurrences pour sélectionner, de "désignateur" à l'action qui sera appliquée sur un autre module (le "désignataire"). Cette application est variable et dépend du programme activé par le désignateur.


Les combinaisons gestuelles

      A partir d'une table de vérité, on peut montrer quelles sont les règles qui président à l'arrangement des " phrases " gestuelles. Le tableau présente en abscisse et en ordonnée les gestes élémentaires que sont Appuyer, Relâcher et Glisser. Il permet de définir, en plaçant ces types de gestes en abscisse et en ordonnée, quelles sont les successions possibles de combinaisons gestuelles, à deux temps. Par exemple: Appuyer, au temps t1, et Relâcher, au temps t2, donne comme résultat Cliquer au temps t3. Les cases blanches indiquent des cas où les actions sont impossibles à réaliser.

      On remarque tout de suite que la ligne horizontale correspondant à la fonction Relâcher est vide, car on ne peut dans un premier temps lâcher ce qui n'est pas déjà enfoncé. Les autres occurrences qui apparaissent dans ce tableau sont connues et portent des noms: Cliquer, Appuyer et Glisser et Glisser et Appuyer.

      Les premiers gestes simples qui constituent les entrées du tableau et les arrangements de gestes élémentaires qui se trouvent dans les cases vont permettre de réaliser toutes les associations de mouvements possibles. Cette combinatoire qui préside à la construction des "phrases" ou des énoncés gestuels, est une des composantes essentielles de la syntaxe de l'interactivité.

      Intercalé entre le désir et sa réalisation, le deuxième terme de la proposition des "cibles programmes", le tertium quid: "si donc tu fais z", est ce qui fait sens dans les interfaces multimédias. En effet, Les gestes qui signifient le module et déclenchent l'activation du programme, expriment pour tout utilisateur une pensée. Ils s'agissent librement sur des modules qui ont pour particularité de tenir lieu de. Ils permettent par procuration de combler une attente, laissant ainsi à chacun la liberté d'organiser le "discours hypertextuel" suivant une direction propre. Il ne s'agit plus, comme le propose le cinéma, de regarder une histoire, mais à partir des éléments fournis par l'interface, de composer notre propre montage, notre propre histoire. Celle-ci se construit dans l'espace libre que dessine en filigrane les modules.

      Les tracés des "phrases" gestuelles esquissent des figures qu'il sera désormais possible de déterminer, de classer et de nommer à l'aide des rudiments d'interactivité définis précédemment. On parlera donc de figures de suspension pour désigner l'état d'un module, une vidéo par exemple, rendu pour un temps "immobile". Cette figure sera décrite dans les termes de cette classification comme appartenant à la classe cinématique des mouvements effectués dans un module et affectés de l'opérateur ou. De nombreuses autres figures peuvent ainsi être envisagées: figure d'annonce, deprocuration, d'appel, de croissance, d'appartenance, de défilement, de commutation, de saut, de sommation...


Notes

(1) G. Chazal, "Le miroir automate", Des interfaces aux horizons, Champ Vallon, Paris, 1995, p. 204.
(2) Pierre Levy, Les Technologies de l'intelligence, La Découverte, Paris, 1990, p. 32-47.
(3) Umberto Eco, Sémiotique et Philosophie du langage, P.U.F., Paris, 1988, p. 22.
(4) Jean-Louis.Boissier, Programmes interactifs, CREDAC, 1995, p. 6.
(5) J. R. Searle, L'Intentionnalité, Minuit, Paris, 1985.
(6) J. L. Austin, Quand dire, c'est faire, Seuil, Paris, 1970.
(7) Gilles Deleuze et F. Guattari, L'Anti-Oedipe,
Minuit, Paris, 1972-1973.
(8) Julia Kristeva, Le langage cet inconnu, Seuil, Paris, 1981, p. 85.
(9) A. Benmakhlouf, Bertrand Russel, L'atomisme logique, P.U.F., Paris, 1996, p. 63.