Des intelligences TRÈS artificielles

De JFCM
Aller à : navigation, rechercher



Jean-Louis Dessalles

Des intelligences TRÈS artificielles

x[modifier]

_________________

x[modifier]

INTRODUCTION L'ultime invention de l'être humain ?[modifier]

Le 2 décembre 2014, Stephen Hawking prédisait la fin de l'humanité au cours d'une interview à la BBC . Que craignait ce grand physicien, spécialiste de la relativité générale et notamment des trous noirs ? Une apocalypse cosmique, l'explosion d'une supernova à proximité du système solaire, ou que la Terre croise malencontreusement la trajectoire d'un trou noir ? Non. La singularité qui l'inquiète lors de cette interview n'est pas de nature physique. Elle concerne l'intelligence artificielle : [ …] je pense que le développement de l'intelligence artificielle pourrait signifier la fin de l'humanité. Une fois que les humains auront développé une intelligence artificielle, celle-ci pourrait s'amplifier par elle-même et se reconfigurer à un rythme grandissant sans cesse. Les humains sont limités par la lenteur de l'évolution biologique ; ils ne pourraient se mesurer à elle et seraient supplantés. [ …] je pense que le développement de l'intelligence artificielle pourrait signifier la fin de l'humanité. Une fois que les humains auront développé une intelligence artificielle, celle-ci pourrait s'amplifier par elle-même et se reconfigurer à un rythme grandissant sans cesse. Les humains sont limités par la lenteur de l'évolution biologique ; ils ne pourraient se mesurer à elle et seraient supplantés.

x[modifier]

Hawking n'était pas le premier à imaginer qu'une intelligence artificielle puisse s'emballer, par effet boule de neige, au point de prendre le contrôle de nos destinées, voire de nous éliminer. D'autres noms comme celui du mathématicien Irving Good sont souvent mentionnés à ce propos. Dès 1965, Good vit dans la machine ultra-intelligente la dernière invention que nous aurons besoin de réaliser et prédit ensuite une explosion de l'intelligence qui nous laissera loin derrière . D'autres auteurs ont par la suite introduit le terme de singularité technologique . À l'instar des singularités invoquées par les physiciens pour parler du Big Bang ou des trous noirs, la singularité technologique correspond à une discontinuité. Elle désigne un emballement de l'innovation dû au fait que des machines sophistiquées permettent de créer des machines encore plus sophistiquées à un rythme sans cesse croissant. Cet effet boule de neige verra l'intelligence des machines atteindre un tel degré de puissance et de sophistication que nos cerveaux limités ne pourront plus suivre. Ils seront dans l'incapacité de prévoir ou même d'imaginer ce qui se passera à partir de ce stade. Comme le Big Bang vers le passé, la singularité technologique apparaît comme un horizon pour ce que nous pouvons connaître du futur. Rien n'empêche, dans une telle éventualité, que ces super-intelligences prennent tout contrôle sur nos vies, en manipulant par exemple les informations qu'elles nous donnent de manière à nous dresser les uns contre les autres. Selon Good et ses successeurs, si leur conjecture devient réalité, alors l'intelligence artificielle restera notre ultime invention, celle qui aura précédé notre abdication intellectuelle définitive. ultra-intelligente la dernière invention que nous aurons besoin de réaliser et prédit ensuite une explosion de l'intelligence qui nous laissera loin derrière . D'autres auteurs ont par la suite introduit le terme de singularité technologique . À l'instar des singularités invoquées par les physiciens pour parler du Big Bang ou des trous noirs, la singularité technologique correspond à une discontinuité. Elle désigne un emballement de l'innovation dû au fait que des machines sophistiquées permettent de créer des machines encore plus sophistiquées à un rythme sans cesse croissant. Cet effet boule de neige verra l'intelligence des machines atteindre un tel degré de puissance et de sophistication que nos cerveaux limités ne pourront plus suivre. Ils seront dans l'incapacité de prévoir ou même d'imaginer ce qui se passera à partir de ce stade. Comme le Big Bang vers le passé, la singularité technologique apparaît comme un horizon pour ce que nous pouvons connaître du futur. Rien n'empêche, dans une telle éventualité, que ces super-intelligences prennent tout contrôle sur nos vies, en manipulant par exemple les informations qu'elles nous donnent de manière à nous dresser les uns contre les autres. Selon Good et ses successeurs, si leur conjecture devient réalité, alors l'intelligence artificielle restera notre ultime invention, celle qui aura précédé notre abdication intellectuelle définitive.

x[modifier]

Je me souviens des sourires esquissés entre collègues : Stephen Hawking était un physicien reconnu, mais que savait-il de l'intelligence artificielle ? En écho à la déclaration de Hawking, la presse a alors mis en avant les déclarations alarmistes sur l'intelligence artificielle provenant d'autres figures de premier plan, parmi celles qui ont tous moyens de s'entourer d'avis informés. C'est le cas d'Elon Musk, le fondateur des entreprises Tesla et SpaceX, qui avait parlé quelques semaines plus tôt du danger d'une super-intelligence engagée dans un cycle récursif d'autoamélioration, ou de Bill Gates, fondateur de Microsoft, qui ne comprenait pas pourquoi les gens ne se sentaient pas concernés par ce danger . J'étais ravi. J'allais pouvoir agrémenter l'introduction de mes cours d'intelligence artificielle en citant ces déclarations de personnes célèbres. Après tant d'années passées à m'excuser de faire de la recherche dans ce domaine, voilà que l'intelligence artificielle, l'IA, apparaissait au premier plan. Nous passions même d'un extrême à l'autre : des promesses non tenues à la certitude d'une apocalypse prochaine. Était-ce dû à l'effet Hawking ? Toujours est-il que l'affluence dans les cours d'intelligence artificielle à Télécom ParisTech, où je l'enseigne, a quasiment doublé du jour au lendemain. Sans doute les étudiants voulaient-ils en savoir davantage sur cette révolution qui allait peutêtre conduire à l'anéantissement de notre espèce. passées à m'excuser de faire de la recherche dans ce domaine, voilà que l'intelligence artificielle, l'IA, apparaissait au premier plan. Nous passions même d'un extrême à l'autre : des promesses non tenues à la certitude d'une apocalypse prochaine. Était-ce dû à l'effet Hawking ? Toujours est-il que l'affluence dans les cours d'intelligence artificielle à Télécom ParisTech, où je l'enseigne, a quasiment doublé du jour au lendemain. Sans doute les étudiants voulaient-ils en savoir davantage sur cette révolution qui allait peutêtre conduire à l'anéantissement de notre espèce.

x[modifier]

Peu d'enseignants ont eu l'occasion de parler à des étudiants prêts à confondre le contenu de leurs cours avec de la sciencefiction. Cet engouement pour l'IA date déjà de plusieurs années et il ne faiblit pas, bien au contraire. Il est vrai que l'IA a fini par tenir certaines de ses promesses. Mais elle en fait désormais de nouvelles, la plus extrême étant l'avènement de la singularité technologique, accompagnée de rien de moins que la possible perte du contrôle par l'humanité de son propre destin. Pouvons-nous continuer à vivre normalement face à un tel risque ?, s'interroge Bill Gates.

x[modifier]

L'objet de ce livre n'est pas de nier la possibilité d'une superintelligence artificielle qui prendrait notre contrôle. Je n'ai pas d'arguments pour l'exclure totalement. En revanche, j'en ai de nombreux pour dire que nous ne sommes pas exposés à un tel risque. Certes, les techniques actuelles d'intelligence artificielle amènent avec elles de nombreuses menaces, qui portent notamment sur le remplacement rapide de nombreux emplois et sur la disparition de la notion même de vie privée. Il se pourrait également qu'elles provoquent un appauvrissement de notre savoir. Mais ces intelligences artificielles restent limitées. Tellement limitées que nous en viendrons peut-être dans quelques années à leur refuser le qualificatif « intelligent », les considérant comme des techniques informatiques standard. Je ne parle pas seulement des méthodes d'apprentissage artificiel dont les progrès récents ont provoqué une véritable révolution dans le monde des technologies de l'information. J'inclus également toutes les versions améliorées de ces techniques qui reposeraient sur les mêmes principes. Autrement dit, rien ne permet de croire qu'une super-intelligence pourrait être construite dans un avenir prévisible sur la base de ce qui existe. L'avènement de nouvelles intelligences capables de se mesurer à la nôtre passera par des découvertes qualitatives qui, comme toutes les découvertes, sont impossibles à dater. reposeraient sur les mêmes principes. Autrement dit, rien ne permet de croire qu'une super-intelligence pourrait être construite dans un avenir prévisible sur la base de ce qui existe. L'avènement de nouvelles intelligences capables de se mesurer à la nôtre passera par des découvertes qualitatives qui, comme toutes les découvertes, sont impossibles à dater.

x[modifier]

Prenons un exemple qui donnera une idée de l'abîme qui nous sépare encore, et pour un temps indéterminé, des IA actuelles. L'exemple ressemble à un test de QI, ce qui est après tout pertinent puisque l'on parle d'intelligence. Un enfant de 6 ans à qui l'on montre la suite 1223334444 est parfaitement capable de la continuer avec cinq 5 . Certaines IA peuvent faire de même, mais en trichant. Si elles ont accès à la Toile, elles sont capables d'y trouver la réponse à la question, telle qu'elle a été écrite par des humains . En revanche, aucune technique d'apprentissage artificiel n'est en mesure de passer ce test. Pire, une technique à base d'apprentissage statistique risque de continuer la suite sans sourciller (c'est-à-dire sans savoir qu'elle se trompe grossièrement) par quelque chose comme 4434 . Les progrès du stockage et de l'accès à l'information permettent d'imaginer que les machines pourront mémoriser les réponses à toutes les questions qu'on est susceptible de leur poser. Mais une machine qui aurait appris par c œur les réponses à tous les tests de QI connus serait-elle intelligente pour autant ?

x[modifier]

Prenons un exemple encore plus concret. Une amie vous raconte au téléphone qu'elle est sur la plage, qu'elle marche sur le sable mouillé. Elle décide de marcher à reculons et regarde les traces de pas devant elle. Nous comprenons aussitôt qu'elle parle de ses propres traces de pas, mais aucune IA actuelle n'est en mesure de tirer cette conclusion. Ainsi, un fait qui apparaît aussi immédiatement à un esprit humain reste inaccessible au raisonnement de la machine. On peut multiplier la puissance des ordinateurs d'un facteur 1 000 ou davantage, rien ne permet de penser qu'il en sera autrement. Je ne dis pas que ces raisonnements, élémentaires pour nous, sont par principe hors d'atteinte des machines.

x[modifier]

Bien au contraire. Mon travail de recherche, ainsi que celui de bien d'autres chercheurs, vise à les rendre possibles. Simplement, la création d'une intelligence décente, capable de comprendre ce qu'un très jeune enfant saisit instantanément, ne s'obtiendra pas en augmentant la puissance des techniques actuelles.

x[modifier]

Il ne s'agit pas de poser un regard sceptique sur les développements actuels de l'intelligence artificielle. Comme tout le monde, j'ai été très impressionné par la résurgence des « réseaux de neurones » et par la puissance de ce que l'on appelle l'« apprentissage profond ». Je conserve précieusement le numéro du 28 janvier 2016 de la revue Nature qui présente le système AlphaGo. Le jeu de go représentait un horizon réputé pour longtemps inaccessible pour l'intelligence des machines : trop de combinaisons à explorer, des structures à la fois locales et globales, une expertise des grands maîtres de go difficile à traduire sous forme explicite. Et pourtant, AlphaGo a été capable de battre les meilleurs joueurs du monde, exploit que les spécialistes les plus optimistes de l'IA renvoyaient au moins à une décennie dans le futur. Ne boudons pas notre plaisir de voir ainsi l'intelligence artificielle revenir sur le devant de la scène, de voir des machines effectuer des tâches que l'on croyait réservées à la quintessence du génie humain et de voir les étudiants s'intéresser à ce qui pourrait représenter la plus grande aventure intellectuelle de tous les temps. Pour autant, ne perdons pas tout sens de la mesure. N'en déplaise à Elon Musk, à Stephen Hawking et à bien d'autres, nous ne sommes pas à l'orée d'une prise de pouvoir des robots. Les IA actuelles sont très intelligentes et très stupides à la fois. Elles sont stupides car, lorsqu'elles prennent une décision intelligente, elles n'ont aucun moyen de le savoir. Il est important de bien cerner ce que les IA peuvent faire et ne pas faire dans l'état prévisible des techniques. Nous parlons d'un domaine étonnant où les optimistes et les pessimistes ont tour à tour vu leurs prévisions démenties par les faits. Je me range volontiers du côté des optimistes, mais je me bats contre l'idée que « c'est arrivé ». On peut intellectuellement penser que le futur appartient à l'intelligence artificielle, mais la véritable intelligence artificielle, elle, appartient encore au futur, et pour un temps indéterminé. artificielle, mais la véritable intelligence artificielle, elle, appartient encore au futur, et pour un temps indéterminé.

x[modifier]

Ce livre propose une visite critique du domaine de l'intelligence artificielle.
Nous partirons de son histoire mouvementée qui a déjà connu maints moments euphoriques, avec leurs lots de prédictions sur l'avènement, chaque fois imminent et chaque fois démenti, de machines aux performances intellectuelles stupéfiantes.
Dans le deuxième chapitre, nous regarderons d'un peu plus près la révolution actuelle, celle notamment des réseaux de neurones et l'apprentissage profond. Même si l'objectif premier de ce livre est de montrer les limites de principe de cette IA, je m'attacherai à décrire la réalité impressionnante des progrès récemment accomplis.
Au troisième chapitre, je parlerai des dangers réels ou supposés que cette IA permet déjà d'envisager. Vient ensuite le temps de dénoncer ses limitations : une IA qui agit sans rien comprendre à ce qu'elle fait est-elle vraiment intelligente ?
Le quatrième chapitre approfondira cette question en dressant le portrait d'une intelligence bien éloignée de la nôtre et, finalement, pas si intelligente que ça.
Les cinquième et sixième chapitres sont plus constructifs. Il s'agira d'envisager ce qui manque aux techniques actuelles pour devenir réellement intelligentes.
Le cinquième chapitre examine ce que l'intelligence artificielle pourrait emprunter à l'intelligence naturelle,
tandis que le sixième tente de donner corps à un rêve, celui d'une IA capable de communiquer intelligemment avec nous.
---

1. L'interview de Stephen Hawking dans laquelle le physicien fait part de ses craintes quant à l'IA (www.bbc.com/news/technology-30290540) portait essentiellement sur le système de parole intelligent qui lui permettait de parler malgré son handicap. Il aborde la question de l'avenir de l'IA à la fin de l'interview.
2. Dans un article de 1965 publié dans Advances in Computers, Good explique : « Une machine ultra-intelligente pourrait concevoir des machines encore meilleures ; il y aurait alors incontestablement une “explosion d'intelligence ” et l'intelligence de l'homme serait laissée loin derrière. Ainsi, la première machine ultra-intelligente est la dernière invention que l'homme aurait besoin de réaliser, à condition que la machine soit suffisamment docile pour nous dire comment la contrôler. »
3. Elon Musk a exprimé ses craintes concernant l'intelligence artificielle dans une interview mise en ligne en octobre 2014 : www.youtube.com/watch?v=Ze0_1vczikA. L'interview de Bill Gates a été publiée en janvier 2015  : www.reddit.com/r/IAmA/ comments/2tzjp7/hi_reddit_im_bill_gates_and_im_back_for_my_third.
4. Alexey Turchin et David Denkenberger explorent différents scénarios catastrophiques impliquant l'IA dans un article paru en mai 2018 sur le site de la revue AI & Society .
5. Un système comme Watson, de la société IBM, serait capable d'extraire la réponse correcte en accédant à un site comme OEIS.org et en ne conservant que le premier résultat proposé.

x[modifier]

CHAPITRE 1 Les promesses de l'intelligence artificielle[modifier]

Les chercheurs en intelligence artificielle ont beaucoup promis. Certains paris sur l'avenir se sont révélés bien trop risqués. Nous le savons maintenant, mais pouvions-nous nous en douter à l'époque de leur formulation ? Peut-être les auteurs de ces prédictions folles ont-ils péché par naïveté, ou se sont-ils laissé griser par l'effet de leurs annonces sur les médias. Toujours est-il que ces moments d'euphorie ont été suivis de périodes beaucoup plus modestes, bien trop modestes à mon goût, où l'intelligence artificielle n'osait plus parler d'elle-même et où « IA » ne signifiait rien de plus qu'« informatique avancée ». Qu'en est-il de la période actuelle ? Ne retombons-nous pas dans ce même travers des promesses folles, qui risque de déclencher à nouveau un scepticisme lui aussi exagéré ?

x[modifier]

Rêves fous[modifier]

Le domaine de l'intelligence artificielle repose sur une utopie. Une étudiante typique qui révise son cours de résistance des matériaux et se destine à une carrière dans le génie civil rêve peut-être de réaliser des ponts plus beaux et plus longs que tous les ponts existants. Pour autant, elle ne décrira probablement pas son activité professionnelle comme orientée vers un but qui reste pour longtemps hors d'atteinte et qu'elle risque de ne pas voir de son vivant. De nombreux chercheurs et ingénieurs en intelligence artificielle, et j'en fais partie, conçoivent leur travail comme orienté vers un objectif mythique, celui de voir émerger une machine vraiment intelligente. Nous avons bien sûr des objectifs à plus court terme. Nous différons aussi sur la signification de ce « vraiment ». Mais le domaine de l'intelligence artificielle est indissociable d'une part de rêve. de réaliser des ponts plus beaux et plus longs que tous les ponts existants. Pour autant, elle ne décrira probablement pas son activité professionnelle comme orientée vers un but qui reste pour longtemps hors d'atteinte et qu'elle risque de ne pas voir de son vivant. De nombreux chercheurs et ingénieurs en intelligence artificielle, et j'en fais partie, conçoivent leur travail comme orienté vers un objectif mythique, celui de voir émerger une machine vraiment intelligente. Nous avons bien sûr des objectifs à plus court terme. Nous différons aussi sur la signification de ce « vraiment ». Mais le domaine de l'intelligence artificielle est indissociable d'une part de rêve.

x[modifier]

En 1950, le mathématicien Alan Turing décrit son rêve dans un article devenu célèbre. Dans la vision de Turing, une machine doit être considérée comme intelligente si elle est capable de se montrer pertinente au cours d'une conversation où elle tente d'imiter un humain. Ce test, connu sous le nom de « jeu de l'imitation », a donné son titre à un célèbre film sur la vie de Turing. Son critère pour définir ce que serait une intelligence artificielle s'accompagne d'une prédiction :

x[modifier]

Je crois que d'ici une cinquantaine d'années, il sera possible de programmer des ordinateurs avec une capacité de stockage d'environ 10 [bits] pour leur faire jouer le jeu d'imitation tellement bien qu'un interrogateur moyen n'aura pas plus de 70 % de chances de faire la bonne identification après cinq minutes d'interrogatoire.

x[modifier]

Turing est conscient qu'il se réfère à une utopie, et il se justifie :

x[modifier]

 
L'opinion populaire selon laquelle les scientifiques procèdent inexorablement de faits bien établis en faits bien établis, sans jamais être influencés par des conjectures non prouvées, est tout à fait erronée. Tant que l'on précise quels sont les faits prouvés et quelles sont les conjectures, aucun mal ne peut en résulter. Les conjectures sont d'une grande importance puisqu'elles suggèrent des pistes de recherche utiles.
 

x[modifier]

La prédiction de Turing se retrouve dans le célèbre film de Stanley Kubrick 2001 : l'Odyssée de l'espace . Le film, réalisé en 1968, met en scène un ordinateur prénommé HAL capable de soutenir une conversation parfaitement sensée avec les astronautes. À l'époque, l'« an 2000 » avait encore une résonance futuriste et il était tout à fait raisonnable d'imaginer qu'une telle machine pût être encore conçue et réalisée dans le délai imparti par Turing. Inutile de préciser à quel point cette anticipation a été déçue. Je me souviens d'avoir demandé à mes étudiants, en 2001, s'ils pensaient que HAL pourrait exister en 2051, soit à un horizon aussi éloigné que lorsque Turing émit sa conjecture. Je faisais moi-même partie des optimistes, mais j'étais accompagné par moins de la moitié de l'auditoire.

x[modifier]

L'ordinateur pertinent imaginé par Turing n'est pas la seule prédiction ratée du monde de l'intelligence artificielle. Au milieu des années 1950, les États-Unis et l'URSS ont dépensé des millions de dollars pour réaliser des traductions automatiques. Engagés dans la guerre froide, chacun de ces deux pays avait un besoin pressant d'informations sur tout ce qui se publiait de l'autre côté. En 1962, le chercheur italien Silvio Ceccato pouvait écrire que le système réalisé par la société IBM produit des résultats étonnamment excellents. La seule chose qui ralentit maintenant la production de traductions par cette machine est le problème de l'introduction des textes dans la machine, ce qui, en l'absence d'un dispositif de lecture automatique adéquat, doit reposer sur les productions d'un dactylographe hautement qualifié. produit des résultats étonnamment excellents. La seule chose qui ralentit maintenant la production de traductions par cette machine est le problème de l'introduction des textes dans la machine, ce qui, en l'absence d'un dispositif de lecture automatique adéquat, doit reposer sur les productions d'un dactylographe hautement qualifié.

x[modifier]

Ce type de constat n'a pas tardé à être reconnu comme illusoire. Certaines voix se sont élevées pour qualifier de déraisonnables les ambitions de la traduction automatique, entraînant des conséquences dramatiques pour ce domaine de recherche qui a vu ses subventions brusquement coupées . Le chercheur Victor Yngve pouvait ainsi observer dès 1964 que : le travail de traduction mécanique s'est heurté à une barrière sémantique … Nous nous sommes trouvés face au constat que nous n'aurons des traductions automatisées que lorsque la machine pourra « comprendre » ce qu'elle est en train de traduire, ce qui constitue une tâche très difficile. le travail de traduction mécanique s'est heurté à une barrière sémantique … Nous nous sommes trouvés face au constat que nous n'aurons des traductions automatisées que lorsque la machine pourra « comprendre » ce qu'elle est en train de traduire, ce qui constitue une tâche très difficile.

x[modifier]

Il est remarquable que plus d'un demi-siècle plus tard, à une époque où la traduction automatique réalise des progrès considérables, Yngve pourrait encore faire la même déclaration sans en modifier un seul mot. époque où la traduction automatique réalise des progrès considérables, Yngve pourrait encore faire la même déclaration sans en modifier un seul mot.

x[modifier]

D'autres prédictions erronées concernant l'avenir de l'intelligence artificielle ont été émises par des chercheurs de premier plan. Le grand psychologue Herbert Simon a ainsi pris des risques en prédisant en 1958 que, avant dix ans  : un ordinateur serait champion du monde d'échecs (cela ne devint possible qu'à la fin des années 1990) ; un ordinateur découvrirait un important théorème mathématique (ce qui n'est encore jamais arrivé) ; un ordinateur composerait de la musique « qui serait acceptée par les critiques comme ayant une réelle valeur esthétique ». Simon n'est pourtant pas le premier venu. Il était connu pour avoir conçu avec son collègue Allen Newell, dès les années 1950, les premiers programmes capables de produire des théorèmes de logique et de résoudre des problèmes formulés sous forme logique. Il reçut le prix Nobel d'économie en 1978 pour ses travaux sur la psychologie de la décision. Comment quelqu'un qui, comme lui, était parfaitement au fait non seulement des capacités des machines de l'époque, mais également de la puissance du raisonnement humain, a-t-il pu à ce point se tromper sur l'avenir de l'IA ? D'autant que le même Herbert Simon a récidivé en 1965, annonçant que « les machines seront capables, d'ici vingt ans, de réaliser n'importe quelle tâche accessible à l'homme ». D'autres auteurs fameux ont eux aussi fait montre d'un optimisme exagéré. Marvin Minsky, un autre père fondateur de l'intelligence artificielle, déclare en 1967 :

x[modifier]

Je suis convaincu qu'en une génération peu de compétences intellectuelles resteront hors du domaine des machines – le problème de créer une « intelligence artificielle » sera pour l'essentiel résolu.

x[modifier]

On peut se dire que ces chercheurs, grisés par leurs premiers succès et aveuglés par leur enthousiasme, étaient déconnectés des réalités. Mais que dire du projet visant à créer la « cinquième génération » d'ordinateurs ? Pendant la décennie 1980, le gouvernement japonais a injecté l'équivalent d'un demi-milliard en euros actuels pour tenter de créer une nouvelle forme d'informatique ancrée sur l'intelligence artificielle. Il s'agissait de construire des machines adaptées au traitement logique des connaissances, bien différentes des ordinateurs séquentiels de l'époque (qui représentent encore la quasi-totalité des ordinateurs actuels). L'espoir était de changer la manière de programmer les ordinateurs, passant d'un mode impératif où l'on donne à la machine la suite des opérations à effectuer, à un mode déclaratif où l'on se contente d'indiquer à la machine les contraintes du problème à résoudre. L'idée était belle. Elle reposait pour une part sur le choix d'un langage de programmation unique en son genre, Prolog. L'initiative nipponne a été commentée dans le monde entier, et particulièrement en France puisque c'est dans ce pays que Prolog était né une décennie plus tôt . Prolog est un langage remarquable à bien des égards. Je l'affectionne particulièrement et je l'utilise encore à l'occasion dans ma recherche et mon enseignement. Mais, là encore, l'ambition du projet de cinquième génération d'ordinateurs s'est révélée démesurée. Les recherches qu'il a suscitées, quoique intéressantes, ont permis de constater la naïveté des objectifs affichés au départ.

x[modifier]

Ces chercheurs ont consacré des années de recherche passionnée à l'avancement de l'IA. Mais, avec le recul, leurs rêves fous d'une intelligence artificielle prête à éclore m'évoquent, et je dis cela avec toute la déférence que je dois à ces grands pionniers, la charge d'un Don Quichotte s'imaginant que la tâche qui l'attend est à la mesure de ses armes et de son courage. Pour cela, et contre les sceptiques et les blasés, ma sympathie est du côté de ces chercheurs « qui y ont cru ». Le problème ne vient pas du travail qu'ils ont accompli, qui est remarquable et inspirant. Il ne vient pas non plus du fait qu'ils se sont trompés. Le point problématique est qu'ils ont utilisé leur position d'autorité pour présenter leurs souhaits et leurs conjectures comme des prédictions vraisemblables. L'analogie avec la situation que nous vivons en ce moment vient immédiatement à l'esprit. Les cauchemars de super-intelligences capables de prendre le contrôle de l'humanité ne sont-ils pas aussi fous que les rêves fous des pères fondateurs ? sceptiques et les blasés, ma sympathie est du côté de ces chercheurs « qui y ont cru ». Le problème ne vient pas du travail qu'ils ont accompli, qui est remarquable et inspirant. Il ne vient pas non plus du fait qu'ils se sont trompés. Le point problématique est qu'ils ont utilisé leur position d'autorité pour présenter leurs souhaits et leurs conjectures comme des prédictions vraisemblables. L'analogie avec la situation que nous vivons en ce moment vient immédiatement à l'esprit. Les cauchemars de super-intelligences capables de prendre le contrôle de l'humanité ne sont-ils pas aussi fous que les rêves fous des pères fondateurs ?

x[modifier]

Une machine qui sait tout[modifier]

Les rêves des Simon, Minsky et autres ont donné lieu à des concrétisations bien plus raisonnables. Au départ, il s'agissait de fournir à la machine des connaissances sur un domaine très limité, par exemple les pathologies de la tomate . C'est ainsi que sont nés les « systèmes experts ». Ces programmes intelligents ont eu un certain succès dans l'industrie et dans des domaines comme la médecine. Je me souviens d'un système expert utilisé par la compagnie ferroviaire nationale pour optimiser le routage des trains, notamment en banlieue parisienne, permettant ainsi aux aiguilleurs de s'adapter bien plus rapidement à la survenue d'événements imprévus comme des retards permutant les arrivées, ou des interventions neutralisant une voie. Les systèmes experts se sont banalisés sous le nom de « systèmes à base de connaissances ». Ils représentent le premier vrai succès de l'IA.

x[modifier]

Avec les systèmes experts, l'IA se présentait sous un jour tout à fait paradoxal et inattendu. Les machines pouvaient faire jeu égal, dans un domaine spécialisé, avec les meilleurs spécialistes de ce domaine, autrement dit avec ce que l'intelligence humaine pouvait produire de mieux. Les programmes pouvaient produire des diagnostics médicaux susceptibles d'améliorer significativement les performances de médecins spécialisés . En revanche, les systèmes à base de connaissances voyaient leur efficacité chuter dès lors qu'on les appliquait à des sujets plus quotidiens. Tous les humains sont des experts de la vie quotidienne : nous savons comment déplacer les objets sans les briser et passer l'aspirateur sans rien renverser ; nous avons l'idée de plier un papier en huit pour caler une table branlante. Nous avons cependant besoin d'années de formation pour acquérir une spécialité avancée, comme pianiste, avocat, ajusteur ou médecin. Pour les systèmes experts, c'est l'inverse. Il est relativement facile de leur donner une expertise pointue, alors qu'il est quasiment impossible de les faire raisonner sur ce qui nous paraît évident. performances de médecins spécialisés . En revanche, les systèmes à base de connaissances voyaient leur efficacité chuter dès lors qu'on les appliquait à des sujets plus quotidiens. Tous les humains sont des experts de la vie quotidienne : nous savons comment déplacer les objets sans les briser et passer l'aspirateur sans rien renverser ; nous avons l'idée de plier un papier en huit pour caler une table branlante. Nous avons cependant besoin d'années de formation pour acquérir une spécialité avancée, comme pianiste, avocat, ajusteur ou médecin. Pour les systèmes experts, c'est l'inverse. Il est relativement facile de leur donner une expertise pointue, alors qu'il est quasiment impossible de les faire raisonner sur ce qui nous paraît évident.

x[modifier]

J'ai été confronté à ce problème en réalisant, à la fin des années 1980, un programme dénommé SAVANT capable d'enseigner en conversant avec les étudiants. Le fonctionnement de SAVANT reposait sur un principe simple. Il disposait de règles logiques sous la forme d'incompatibilités. Par exemple, un dialogue conçu pour un cours de communication numérique portait sur la façon la plus efficace de transmettre des symboles entre un émetteur et un récepteur. L'une des règles utilisées dans ce dialogue disait qu'on ne peut pas modifier le débit de transmission sans modifier l'émetteur. Une autre règle disait qu'on ne peut pas supprimer l'interférence entre les symboles (qui est source d'erreurs de transmission) sans changer ni le débit ni la forme des impulsions. Avec de telles règles, SAVANT pouvait ressembler à un système expert, mais il ne fonctionnait pas du tout comme tel. Il n'essayait pas de produire de nouvelles connaissances par déduction. Sa seule stratégie était de tenter de coincer l'étudiant dans une contradiction. Et cela fonctionnait plutôt bien. D'un côté, cette seule stratégie suffisait à guider le dialogue, qui ne suivait donc aucun schéma prévu à l'avance. De l'autre côté, le principe de contradiction faisait que l'étudiant comprenait la pertinence des interventions de la machine :
Machine. – Pouvez-vous annuler les termes de l'interférence entre symboles ? :
Étudiant. – Oui. :
Machine. – Mais encore ? :
Étudiant. – On peut raccourcir les impulsions. :
Machine. – Mais, là, vous modifiez l'émetteur. On ne veut pas modifier l'émetteur. :
Étudiant. – Je mets plus de temps entre les impulsions.
Machine. – Vous ralentissez le débit. Cela modifie les paramètres de l'émetteur. Comment proposez-vous d'annuler l'interférence entre symboles ? :
Étudiant. – … :
Machine. – On pourrait changer la forme des impulsions.
Étudiant. – Oui. :
Machine. – Mais, là, vous modifiez l'émetteur. :
Étudiant. – Non, on peut les filtrer juste avant le récepteur.
Machine. – OK. :
Cette méthode poussait la logique du système expert à l'extrême en ne donnant à la machine que des bouts de connaissances lui permettant de gérer des dialogues, certes avec une certaine variété, mais sur un seul sujet à la fois. La technique ne fonctionnait plus dès que l'expérience de tous les jours s'invitait dans l'interaction. Un autre dialogue abordait la notion de filtrage des fréquences en parlant des suspensions de voiture. L'idée était que des amortisseurs défectueux changeaient la nature du filtrage. Malheureusement, l'ordinateur était incapable de maîtriser le vocabulaire utilisé par les étudiants (« Ma voiture est une vieille occase ») et ne comprenait pas les implications de ce qu'ils disaient (si la voiture est ancienne, les amortisseurs sont probablement endommagés). Je me heurtais au problème, de plus en plus pressant à l'époque, de la représentation du sens commun, c'est-à-dire du savoir ordinaire.

x[modifier]

Le système expert CYC fut l'une des premières tentatives d'envergure à attaquer de front la question du sens commun. Le projet a émergé au milieu des années 1980, probablement en réponse à l'initiative japonaise de cinquième génération d'ordinateurs. L'objectif de Doug Lenat, le porteur du projet, était de reproduire la connaissance de sens commun d'un enfant de 6 ans . D'un côté, j'étais heureux que des sommes si importantes fussent ainsi allouées à la recherche en IA. D'un autre côté, une voix en moi s'offusquait d'un objectif qui me paraissait aussi irréaliste.

x[modifier]

La question du sens commun est fondamentale en IA. Doug Lenat prend les exemples suivants  :

x[modifier]

– Si vous coupez un morceau de beurre en deux, chaque moitié est encore un morceau de beurre ; mais si vous coupez une table en deux, aucune moitié n'est une table.

x[modifier]

Les machines ne savent rien de tout cela. Bien évidemment, cette absence de sens commun limite considérablement l'intelligence dont elles peuvent faire preuve, notamment dans un dialogue ouvert comme le prévoit le jeu de l'imitation de Turing. Les raisonnements et les discussions qui mobilisent notre intelligence au quotidien reposent sur d'innombrables éléments de sens commun comme ceux que cite Lenat. Une machine qui ignore que la mort est un état définitif peut-elle avoir une discussion intéressante et nous aider à prendre des décisions sensées ? Dans l'état actuel de la technique, le seul moyen pour qu'une machine dispose de connaissances de sens commun consiste à les lui donner de manière explicite, en utilisant des relations du type mort ( ‘Marie Curie-Sk łodowska ‘, 1934, ‘Passy (74)') qui signifie que Marie Curie est décédée en 1934 à Passy (Haute-Savoie). La connaissance explicite comporte également des règles qui combinent ces relations à la manière des règles logiques de type si … alors … Par exemple, on peut vouloir exprimer le fait que l'on n'est pas vivant un an après sa mort en utilisant des variables comme en mathématique  : si mort (X,A) alors non vivant (X,A+1) . Lenat a ainsi décidé en 1984 qu'il pourrait donner des connaissances de sens commun à la machine en les exprimant sous forme de règles. Au cours des années, des millions de règles, le plus souvent écrites à la main, ont été enregistrées dans la mémoire de CYC. Plus de trente ans après le début du projet, il semble que le système commence à produire des raisonnements suffisamment intéressants pour qu'il soit commercialisé et engendre des profits.

x[modifier]

Une étudiante a travaillé à ma demande sur un projet qui utilisait un système similaire, ConceptNet, développé au MIT. Les règles de ConceptNet étaient pour l'essentiel issues de phrases simples fournies par des contributeurs humains. Le système savait par exemple qu'il faut de l'eau pour faire du thé. Le programme créé par l'étudiante s'efforçait de trouver des situations problématiques de la vie quotidienne. Le programme disait ainsi qu'il voulait faire du thé et pouvait ajouter, de manière plutôt pertinente, qu'il ne disposait pas d'eau pour cela. Il allait ensuite chercher plus loin dans la mémoire de ConceptNet et ajoutait  : « Mais la mer est tout près ! », puisque selon ConceptNet, il y a de l'eau dans la mer. Personne n'avait pensé à préciser que le thé se fait avec de l'eau douce.

x[modifier]

Ce type de technique utilisant des connaissances explicites repose le plus souvent sur des « ontologies ». C'est le cas de CYC et de ConceptNet. Une ontologie, pour les ingénieurs, n'est rien d'autre qu'un moyen d'organiser les connaissances. Une ontologie est faite d'un ensemble de concepts comme thé, eau, ‘Marie CurieSk łodowska' et de relations comme mort qui lie une personne à une date et un lieu ou marié qui lie une personne à une autre. Les ontologies rendent de nombreux services dans des domaines spécialisés comme la médecine. On les utilise aussi pour représenter le contenu des pages de la Toile de manière compréhensible pour l'ordinateur, dans ce que l'on appelle le « Web sémantique ».

x[modifier]

Le but est de permettre aux moteurs de recherche de répondre à une question comme « Marie Curie était-elle vivante en 1939 ? », alors que cet élément de connaissance n'existe probablement nulle part sur la Toile.

x[modifier]

Les ontologies sont un outil incontournable en tant que technique, mais on peut leur reprocher de devoir être construites à la main, par l'accumulation laborieuse de faits et de règles fournies par des opérateurs humains. Cela n'est que partiellement vrai. Il existe maintenant des techniques pour extraire des connaissances automatiquement à partir de bases de données et de textes. Mon collègue à Télécom ParisTech, Fabian Suchanek, a contribué à créer l'ontologie YAGO, non pas en lui fournissant les connaissances une par une, mais en exploitant des faits répartis sur des bases de données, des bases de connaissances et d'autres ontologies, de manière à construire automatiquement de nouveaux faits et de nouvelles règles. L'une des techniques utilisées permet par exemple de découvrir que si deux personnes sont mariées et que l'une habite une ville, alors l'autre habite cette même ville. Même si la règle découverte souffre d'exceptions, elle peut se révéler utile pour produire des raisonnements originaux. Et la méthode fonctionne. YAGO a notamment été utilisé par le système Watson développé par la société IBM pour répondre à des questions sur tous les sujets.

x[modifier]

Watson est connu pour avoir réussi à surclasser les meilleurs joueurs humains au jeu Jeopardy! en 2011. Ce résultat a été considéré comme une prouesse, surtout aux États-Unis où ce jeu télévisé dont les débuts datent des années 1960 est très connu. La victoire de Watson contre des champions légendaires de Jeopardy! représente un jalon dans l'histoire de l'intelligence artificielle, au même titre que la victoire en 1997 d'un autre programme développé à IBM, Deep Blue, contre le légendaire champion d'échecs Garry Kasparov. Jeopardy! est un jeu de questions-réponses. Les joueurs doivent deviner un contenu à partir d'indices. Il faut par exemple deviner « Versailles » à partir d'indices comme « Louis XIV y mourut le 1 septembre 1715 ». La machine peut parfois deviner la réponse en se connectant à un simple moteur de recherche qui va trouver la bonne association entre Louis XIV et 1715, mais le plus souvent, il est crucial d'analyser la relation mort ( ‘Louis XIV', 1715, ‘Versailles') . C'est là que l'accès à une ontologie comme YAGO peut se révéler indispensable. Watson est maintenant utilisé à d'autres fins, notamment pour aider au diagnostic médical. Sa force réside non pas dans la connaissance qu'il a pu emmagasiner à l'avance, mais dans les connaissances qu'il est capable d'aller rechercher sur la Toile et dans d'autres systèmes en fonction du contexte de la question qu'on lui pose.

x[modifier]

Jusqu'où peut-on ainsi aller ? Une machine peut-elle tout savoir ? De nos jours, les limitations imposées par des mémoires exiguës et des temps d'accès trop longs ont largement disparu. Qu'est-ce qui pourrait empêcher une machine d'accéder à l'entièreté du savoir humain, sous forme de règles que nous lui donnerions, qu'elle trouverait sur des ressources externes ou découvrirait par elle-même ? Ce fut sans doute, à certaines époques, l'espoir des Turing, Simon, Minsky, Lenat et autres. Une machine sachant tout ce que nous savons serait capable de raisonner en toute matière et sur tout sujet. Nul doute qu'elle passerait avec succès le test du jeu de l'imitation imaginé par Turing. Hélas, les choses sont très loin d'être aussi simples.

x[modifier]

L'entreprise consistant à donner des connaissances aux machines sous forme de règles est parfaitement louable sur le plan technique. Avec le recul, cependant, on constate à quel point il était naïf de croire que cela nous mènerait à une super-intelligence artificielle. Si Doug Lenat était sincère en voulant amener la machine au niveau cognitif d'un enfant de 6 ans, il n'avait pas dû rencontrer d'enfant de 6 ans depuis longtemps . Il ne s'agit pas de critiquer le travail de ce chercheur et de ses collègues. Leur projet existe encore et son objectif, la reproduction du sens commun, est un vrai problème. Je veux simplement souligner le décalage presque abyssal entre les prétentions affichées et la réalité.

x[modifier]

Le but de mon propos n'est pas non plus de suggérer que la cognition humaine est ineffable ou que sa complexité la rend insondable. Bien au contraire ! J'ai consacré ma vie professionnelle à tenter d'en décoder les mécanismes, en faisant l'hypothèse que ces mécanismes devaient être simples. Comme bien d'autres auteurs, je veux attirer l'attention sur le fait que l'esprit humain ne fonctionne pas en appliquant des règles, contrairement à ce que l'on a pu croire aux débuts de l'IA, et à ce que j'ai moi-même cru quand j'écrivais ma thèse de doctorat. On pourrait rétorquer que la machine n'a pas besoin de fonctionner comme nous pour être intelligente. Certes, mais il y a de nombreuses raisons pour penser qu'une approche à base de règles est intrinsèquement limitée. De toutes les manières, une grande partie de la communauté IA s'est détournée des approches à base de relations et de règles au cours des années 1980 pour se tourner vers des techniques de type numérique, comme les réseaux de neurones, qui leur sont diamétralement opposées.

x[modifier]

Ne plus être étonnés d'être surpris[modifier]

x[modifier]

Depuis le début des années 2010, nous nous trouvons à bien des égards dans la situation des années 1950, lorsque Turing ou Simon faisaient leurs prévisions concernant l'imminence d'une super-intelligence. Le risque tel qu'il est perçu actuellement, comme probablement à cette époque-là, n'est pas tellement de se tromper lourdement, de s'exposer à la possibilité de faire des prédictions qui seront rétrospectivement jugées ridicules et infondées. La crainte des personnes qui s'expriment sur l'avenir de l'IA se situe exactement à l'opposé  : pécher par excès de prudence ; ne pas se montrer capable d'anticiper la prochaine révolution que tout le monde jugera évidente après coup. Il faut dire qu'en matière de technologies numériques les deux dernières décennies ont produit leur lot d'innovations qui ont instantanément modifié la vie de milliards d'individus sans que leur usage disproportionné ait été anticipé par quiconque, pas même parfois par leurs inventeurs.

x[modifier]

L'émergence de la Toile n'a été pensée par personne. L'idée que tout individu connecté puisse mettre un contenu à disposition des autres a été imaginée par des scientifiques qui voulaient partager des données . Internet et le courriel existaient depuis longtemps, mais ils mettaient en relation des individus à l'initiative de celui qui émettait l'information. Les premiers navigateurs inversaient cette logique en laissant aux bénéficiaires de l'information le soin de la trouver et de la prendre s'ils la trouvaient pertinente. La différence avec les systèmes antérieurs, comme le Minitel en France, est qu'avec le Web, chacun pouvait produire l'information sans connaître à l'avance celui qui la lirait, simplement pour la mettre à la disposition de qui voudrait bien la consulter. Ainsi, un système pensé pour accéder à l'information est devenu principalement, sans que personne l'ait anticipé, un moyen pour les individus de faire valoir l'information qu'ils ont à offrir. Au milieu des années 1990, le système s'est presque instantanément répandu dans la communauté scientifique : beaucoup d'entre nous avaient une page Web donnant accès à ses articles. On connaît la suite : de nos jours, plus de 200 millions de sites Web sont actifs, et plus de la moitié de la population mondiale utilise la Toile.

x[modifier]

La succession des innovations majeures qui ont pris tout le monde de court est longue. Je me souviens de ma stupéfaction lorsque j'ai découvert Altavista, l'un des premiers moteurs de recherche. Avant Altavista, on ne pouvait que naviguer de site en site. Ne connaissant pas les pouvoirs des techniques d'indexation, le fait que le moteur pût instantanément repérer une combinaison de mots clés dans le contenu du million de sites de la Toile de l'époque semblait relever de la magie. Ensuite, Wikipédia est arrivé. J'avais moi-même imaginé et réalisé une encyclopédie hypertexte en ligne vingt ans plus tôt, mais l'idée d'une encyclopédie collaborative ne m'avait pas effleuré, et je l'aurais probablement regardée comme non viable. Parmi les autres inventions dont presque personne n'a anticipé l'impact, je citerai encore les minimessages (SMS), les blogs, les forums de discussion, le logiciel libre, et bien sûr les réseaux sociaux comme Facebook et Twitter.

x[modifier]

L'innovation qui fut peut-être la moins anticipée de toutes est celle qui nous concerne le plus ici. Il s'agit de l'apprentissage profond. L'essentiel de la révolution de l'intelligence artificielle à laquelle nous assistons en ce moment est lié à cette technique qui a permis aux réseaux de neurones de revenir au premier plan des méthodes de l'IA. L'immense majorité des professionnels de l'IA, et j'avoue en faire partie, ne l'a pas vue venir. Après une telle avalanche de surprises, chaque auteur qui s'exprime sur l'avenir des technologies de l'information se demande un peu quelle sera la prochaine innovation majeure qu'il n'aura pas su anticiper. Le contexte est ainsi favorable à une forme de surenchère. Il s'agit de ne plus s'étonner d'être surpris, comme il est dit dans la chanson . L'une des stratégies pour paraître moins surpris consiste à multiplier les prédictions. Avec un peu de chance, la prochaine innovation majeure sera dans la liste, sinon elle n'apparaîtra que comme une ligne à ajouter, un oubli bien anodin tant il est difficile de penser à tout lorsque l'on se donne la tâche de décrire le futur technologique.

x[modifier]

Je suis pleinement conscient du fait que la futurologie, particulièrement en matière de techniques, est comme une loterie  : les chances de faire partie de ceux qui ne se sont pas trompés sont minces. L'intelligence artificielle que l'on peut déduire par extrapolation des techniques d'apprentissage actuelles, au premier rang desquelles l'apprentissage profond, va certainement bouleverser la plupart des secteurs économiques et modifier le quotidien de nos vies. En un sens, elle va se retrouver en compétition avec l'esprit humain. Regarderons-nous ces systèmes dotés de capacités d'apprentissage surhumaines comme réellement intelligents ? Pas si sûr. Dans ce qui suit, je vais imaginer le quotidien d'une jeune étudiante en 2030. Je prends cela comme un jeu, une manière d'illustrer les idées, et non de faire une prédiction. Car mon propos concerne le présent plutôt que le futur.

x[modifier]

Essayons d'imaginer une journée de la vie de Lisa, une jeune fille qui a 20 ans en 2030. Elle se réveille. Son assistant automatique connaît son agenda et a assimilé ses habitudes. Il l'a réveillée en lui faisant entendre les nouvelles qui, estime-t-il, vont retenir son attention ; elles sont issues de sources qu'il a appris à considérer comme fiables du point de vue de Lisa. Lorsqu'elle s'assied dans la cuisine, le flux sonore qui la suivait de pièce en pièce devient vidéo. Les sources purement textuelles sont lues et sont augmentées par des images que l'assistant a récupérées ou a composées. Les vidéos en langue étrangère sont automatiquement traduites. L'heure tourne. L'assistant le sait et commence à résumer le texte et les images des vidéos qu'il pense devoir lui présenter. Il garde un peu de temps pour les messages les plus pertinents envoyés par les amis de Lisa. Il les lui présente pendant qu'elle se prépare. Lisa prononce quelques mots en réponse. L'assistant les met en forme et les décore de la manière que Lisa affectionne, puis les envoie. Lisa est prête et sort. Un taxi autonome vient de se ranger devant la porte. Lisa s'installe dans la voiture. Elle consulte son compte en banque. Son assistant sait sans risque d'erreur qu'elle est bien Lisa par de nombreux paramètres biométriques, notamment sa façon de bouger. Il sait aussi qu'elle est seule dans la voiture et que celle-ci possède une certification de confidentialité. Il affiche les données bancaires. Lisa a reçu une somme importante qu'elle souhaite investir. C'est aussi ce que lui conseille son assistant. Pour ce genre de décision impliquant de nombreux critères de risque et de préférence, Lisa s'en remet à lui car il est censé optimiser ses intérêts, et a accès aux décisions prises par de nombreuses autres personnes ayant des profils proches du sien. Lisa confirme son accord oralement.

x[modifier]

La voiture s'arrête un peu plus loin et un ami de Lisa monte. Leurs deux assistants, autorisés à se coordonner, leur ont ménagé cette surprise, puisque leurs agendas coïncidaient pour cette heure-là. Ils arrivent à leur université. Venir ici pour voir et être vu des autres étudiants et des professeurs reste un choix majoritaire, même si certains préfèrent participer à distance. La professeure aime bien parler devant un auditoire réel, en faisant les cent pas. Des images et des textes illustrent ses propos à l'écran, selon un scénario qu'elle a défini. Son assistant synchronise automatiquement les illustrations avec son discours. Le cours est enregistré. Les étudiants pourront le revoir en version automatiquement augmentée ou résumée.

x[modifier]

Lisa quitte le cours et va dans une salle informatique. Elle doit finir un projet technique sur le langage naturel. Son travail porte sur l'imitation de la conversation spontanée. Il consiste à comparer les répliques effectivement prononcées dans des conversations réelles aux interventions qu'un assistant aurait proposées dans les mêmes conditions. Lisa compte étudier chaque étape de l'interaction afin de voir s'il est possible d'améliorer la pertinence des assistants. Elle récupère un composant logiciel capable de découper le flux de parole en répliques, un autre capable de reconstituer les connaissances mises en jeu dans la conversation analysée. Son assistant l'aide à trouver divers autres composants logiciels après que Lisa lui a décrit ce qu'elle cherchait. Elle est enfin en mesure d'analyser quelques écarts entre la version naturelle de la conversation et les répliques qu'un assistant typique aurait produites à chaque étape. Elle se demande quelles répliques elle aurait elle-même émises dans les mêmes conditions. Elle sort pour déjeuner avec des amies. Dans la boutique de produits frais, Lisa choisit une salade et sort. Cela fait longtemps que les magasins n'ont plus de caisse.

x[modifier]

Lisa passe du temps à bavarder avec ses amies dans le jardin public en repensant un peu à son projet. Elle se demande si son assistant pourrait la remplacer, ici, maintenant. L'une de ses amies est chinoise. Elle parle en mandarin, mais Lisa peut entendre une traduction simultanée que lui fournit son assistant. Lisa répond en français. Son amie chinoise n'a pas mis son oreillette. Elle pense que c'est mieux ainsi pour apprendre le français, même si elle ne comprend pas tout. Lisa se dirige ensuite vers la salle de sport. C'est l'heure de l'entraînement. Elle est douée pour le basket. Elle est moins grande que les autres membres de l'équipe, mais elle est plus rapide. Son assistant se coordonne avec les assistants des autres joueurs et lui prodigue des conseils de placement en continu, à partir des images des caméras du plafond. Son intelligence du jeu lui permet souvent d'anticiper les consignes, ce qui lui ouvre des opportunités. En sortant du gymnase, Lisa n'oublie pas qu'elle est encore à la recherche un stage d'été. Elle doit envoyer son CV. Son assistant lui a rédigé un CV parfait, mais elle hésite. Est-ce comme cela que sa candidature sera remarquée ? Elle sait que l'employeur confie la sélection des stagiaires à son propre assistant. Son CV ne va-t-il pas apparaître comme trop standard ? Quel type de différence serait-il capable de repérer ? Si sa candidature apparaît trop originale, le système du recruteur risque de l'écarter parce qu'il ne parviendra pas à la classer. Que faire ?

x[modifier]

Lisa rentre chez elle. Elle commande un dîner qui lui est livré par une machine. Son assistant lui prépare des messages pour ses amis qui incorporeront des événements de sa journée. Plus tard dans la soirée, Lisa demande à son assistant de concevoir une fiction qui montrera une version alternative de sa journée, où elle-même et les personnes qu'elle a croisées auront des comportements un peu différents, entraînant des séquences d'événements différentes, le tout étant, bien entendu, passionnant. Si elle est satisfaite, elle partagera peut-être le résultat avec les amies qu'elle a croisées aujourd'hui.

x[modifier]

Cette petite esquisse de scénario à la Black Mirror (toutes proportions gardées) a pour seul objectif de juxtaposer en les inscrivant dans la vie quotidienne quelques-unes des technologies déjà disponibles ou annoncées comme imminentes. J'aurais pu en mentionner bien d'autres comme les drones policiers, l'identification ubiquitaire et la surveillance générale, l'être humain augmenté, les implants corticaux et ainsi de suite. Mon objectif ici n'est pas le réalisme, et je suis déjà certain que ma description de la journée de Lisa paraîtra surannée lorsque l'an 2030 sera venu. La question que je souhaite poser porte sur l'intelligence de l'assistant qui accompagne le personnage de Lisa tout au long de sa journée. Est-il vraiment intelligent ? Assurément oui, et Lisa a probablement raison de se fier à lui lorsqu'il s'agit de prendre des décisions, qu'elles soient anodines ou importantes. Cependant, on attend d'un assistant intelligent comme celui de notre histoire qu'il comprenne les problèmes, les actions, les décisions. Que veut dire comprendre ? Au minimum, cela veut dire être capable d'en discuter rationnellement. C'est la raison pour laquelle le problème de la pertinence s'invite subrepticement dans l'histoire, dans le projet que Lisa doit étudier en analysant des conversations humaines spontanées. Il s'agit bien sûr d'une allusion au jeu de l'imitation de Turing. L'assistant de Lisa réussirait-il le test ? Peut-être pas. S'il a été conçu à partir de versions améliorées des techniques actuelles, il est probable qu'il parvienne à réaliser toutes les autres actions que ce petit scénario lui prête sans rien y comprendre, autrement dit, sans pouvoir les commenter rationnellement. Voilà qui est plutôt paradoxal !

x[modifier]

Ce paradoxe, c'est celui de l'intelligence artificielle telle qu'on nous la décrit en ce moment. Comprendre, c'est bon pour les humains. Une IA n'aurait pas besoin de comprendre pour être intelligente, de même que les avions n'ont pas besoin de battre des ailes pour voler. Il devient assez courant de nos jours de définir l'intelligence comme la capacité d'extrapoler et d'anticiper . Une machine intelligente dans ce sens-là pourra prendre des décisions pertinentes et effectuer des actions pertinentes, mais sans savoir pourquoi ces décisions ou ces actions sont pertinentes. Cette vision ne correspond pas exactement à la notion commune d'intelligence qui repose aussi sur l'idée de compréhension. Du point de vue humain, une telle machine sera à la fois intelligente et stupide. Il ne s'agit pas de porter un jugement intermédiaire, comme dans le cas du verre qui est à la fois à moitié plein et à moitié vide. Non. Du point de vue humain, une telle machine sera à la fois très intelligente et très stupide. Sommes-nous prêts à laisser de telles machines prendre le contrôle de nos vies ? C'est ce hiatus entre deux visions de l'intelligence que je propose d'explorer dans la suite.

x[modifier]

----

1. L'article où Turing décrit sa vision de l'intelligence des machines, « Computing machinery and intelligence », est paru en 1950 dans le numéro 59 de la revue Mind . Turing n'emploie pas le mot « pertinent ». Il décrit un jeu, le jeu de l'imitation, dans lequel la machine, pour paraître intelligente, doit produire des répliques pouvant faire croire qu'elle est humaine. La capacité qu'il décrit à travers ce jeu recouvre exactement la notion de pertinence.
2. Silvio Ceccato est cité dans un article de Maurice Gross sur l'histoire de la traduction automatique publié dans le numéro 28 de la revue Langages en 1972. L'article de Gross montre l'ampleur du coup d'arrêt porté aux recherches en traduction automatique, y compris en France.
3. Le mot « déraisonnable » appliqué aux ambitions de la traduction automatique est employé dès 1960 dans un article retentissant de Yehoshua Bar-Hillel publié dans le numéro 1 de la revue Advances in Computers . Le coup de grâce fut porté par le rapport dirigé par John Pierce publié en 1964 à la demande de plusieurs agences gouvernementales des États-Unis. Un autre rapport, rédigé en 1973 par James Lighthill pour le Science Research Council du Royaume-Uni, a entraîné une baisse drastique des subventions pour la recherche en IA en Grande-Bretagne et en Europe.
4. L'article de Victor Yngve sur la barrière sémantique en traduction automatique a été publié en 1964 dans le numéro 108 des Proceedings of the American Philosophical Society .
5. Herbert Simon est généralement présenté comme un économiste. Je le connais essentiellement pour ses travaux en psychologie. Ce sont ses travaux notamment sur la psychologie de la décision qui lui ont valu le prix Nobel d'économie. L'article contenant ses prédictions reprend l'un de ses discours. Il est cosigné par Allen Newell et a été publié en 1958 dans le numéro 6 de la revue Operations Research .
6. La citation apparaît à la p. 96 de son livre, The Shape of Automation for Men and Management, publié en 1965 chez Harper & Row.
7. Marvin Minsky est connu entre autres pour avoir contribué à la création de Logo, un langage informatique pour enfants, et pour avoir critiqué les premiers réseaux de neurones au point de provoquer un arrêt de la recherche dans ce domaine pendant toute la décennie 1970. Il a également imaginé la notion de frame (« cadre » en français, mais le mot n'est presque jamais traduit dans ce contexte) qui a constitué une source d'inspiration pour de nombreux chercheurs, notamment ceux qui ont développé les premiers langages orientés objet. Sa citation concernant la création prochaine d'une intelligence artificielle apparaît en p. 2 de son livre Computation  : Finite and Infinite Machines publié en 1967 chez Prentice Hall.
8. Pierre Morizet-Mahoudeaux indique le chiffre de 50 milliards de yens de l'époque dans son article « Le programme Ordinateurs de cinquième génération », publié en 1994 dans la revue Ebisu .
9. Prolog a été imaginé par deux chercheurs de l'université d'Aix-Marseille au début des années 1970, Alain Colmerauer et Philippe Roussel. Ils en ont réalisé les premières implémentations.
10. Le système expert TOM, présenté en 1985 dans le numéro 261 de la Revue horticole, offre une aide au diagnostic pour les maladies de la tomate.
11. Le système d'aide à l'aiguillage pour la SNCF s'appelle SEPIA. Il est décrit en 1996 dans le numéro 4 de la revue Control Engineering Practice.
12. Eta Berner et ses collègues citent des évaluations des systèmes d'aide au diagnostic médical dans une étude parue en 1999 dans le numéro 6 du Journal of the American Medical Informatics Association, réalisée sur des cas présentés sous forme écrite.
13. Je parle ici de la troisième génération de SAVANT. La première, développée en 1980, consistait en une encyclopédie hypertexte. La deuxième, qui vit le jour en 1984, incluait des vidéos pédagogiques distribuées automatiquement par fibre optique. La troisième génération du système développée en 1988, SAVANT-3, offrait un dialogue pédagogique automatisé dans lequel la machine calculait ses interventions à partir de minibases de connaissances. L'extrait est une version simplifiée d'un dialogue figurant dans un article de 1990 publié dans le numéro 438 des Lecture Notes in Computer Science (www.dessalles.fr/papers/Dessalles_90061501.pdf).
14. Doug Lenat parlait de son objectif d'atteindre la connaissance d'un enfant de 6 ans dans une interview pour le documentaire de Dominique Lecuivre, Intelligences artificielles, produit par Culture Production en 1989, auquel j'ai collaboré.
15. Les exemples proviennent de l'article « CYC  : A large-scale investment in knowledge infrastructure », publié par Doug Lenat dans le numéro de novembre 1995 de la revue Communications of the ACM . Le mot « cyc » est censé évoquer le mot encyclopédie.
16. Nicoleta Oita a travaillé avec moi à la synthèse de dialogues de type contradiction-solution en utilisant ConceptNet.
17. L'expression « un enfant de 4 ans comprendrait ça » (ce à quoi Groucho Marx répond dans le film Duck Soup  : « Allez me chercher un enfant de 4 ans ») est là pour nous rappeler à quel point l'intelligence éclot tôt chez l'enfant.
18. Le site line-mode.cern.ch/www/hypertext/WWW/TheProject.html donne une idée fidèle de l'aspect et du contenu du tout premier site Web.
19. Il s'agissait du premier système SAVANT que j'ai développé avec mes collègues de Télécom ParisTech, notamment Daniel Cadé et Jean-Pierre Bach. Cette encyclopédie hypertexte pédagogique, l'une des toutes premières du genre, est décrite dans le numéro 117 de L'Écho des recherches, paru en 1984 (www.dessalles.fr/papers/ Dessalles_90080301.pdf).
20. Je pense à la chanson de Renaud, « Le retour de la Pépette », sur l'album Mistral gagnant, Warner Chappell Music France.
21. Black Mirror est une série télévisée britannique que je trouve remarquable et que tous mes étudiants connaissent, avant sa diffusion sur les chaînes françaises. L'idée de la série consiste à mettre en scène des futurs plausibles en extrapolant à partir des technologies actuelles, de manière à en imaginer les conséquences sociales et psychologiques.
22. C'est par exemple le cas de Yann Le Cun, l'un des inventeurs de l'apprentissage profond, pour qui « l'essence de l'intelligence réside dans la capacité de prédire » (voir par exemple sa conférence du 30 janvier 2017 au Future of Life Institute, www.youtube.com/watch?v=bub58oYJTm0).

x[modifier]

CHAPITRE 2 Les prouesses de l'intelligence artificielle numérique[modifier]

Il est habituel de citer l'année 2012 comme étant le moment où l'intelligence artificielle a commencé son retour fracassant parmi les technologies de l'information. 2012 est l'année où fut publiée une étude montrant qu'on pouvait diminuer d'un tiers le taux d'erreur en reconnaissance d'images en utilisant l'apprentissage profond. Dans un domaine où les performances plafonnaient, cette brusque amélioration semblait tenir du miracle. L'ordinateur commençait à voir comme nous, à voir mieux que nous. Et, pour la première fois, des programmes intelligents semblaient pouvoir « passer à l'échelle » et ainsi être appliqués à des problèmes d'intérêt majeur. Dans le public, la révélation est arrivée un peu plus tard, en 2015, lorsque le programme AlphaGo s'est mis à battre les champions du jeu de go, exploit réputé alors impossible pour plusieurs années, voire plusieurs décennies. Un seul responsable de ce qui apparaît de plus en plus comme une révolution : l'apprentissage profond. Il s'agit d'une technique d'apprentissage automatique de type numérique  : elle consiste, pour résoudre une tâche comme reconnaître des images ou jouer au go, à optimiser la valeur de nombres, des millions de nombres, qui représentent les forces des connexions dans un grand réseau de neurones. Rien à voir, donc, avec d'autres systèmes intelligents qui stockent leur expertise sous forme symbolique, à l'aide de relations et de règles logiques. Quelles sont les formes que peut prendre l'IA numérique ? De quelle sorte d'intelligence s'agit-il vraiment ?

x[modifier]

Utiliser des neurones pour reproduire l'intelligence[modifier]

x[modifier]

En janvier 2013, le monde scientifique européen stupéfait découvre que la Commission européenne décide d'allouer un demimilliard d'euros à un projet lancé en 2011 qui vise principalement à simuler le cerveau humain : le Human Brain Project. Pour de nombreux chercheurs, l'ambition de départ d'un tel projet cherchant à reproduire par simulation des circuits comportant des millions, voire des milliards de neurones artificiels, semblait prématurée . Peut-on espérer faire émerger l'intelligence du simple fait de connecter de petits composants électroniques censés fonctionner comme les neurones ? Une intelligence de niveau humain, on peut en douter, mais on sait depuis longtemps que des tâches intelligentes peuvent être effectuées à l'aide de circuits faits de neurones artificiels.

x[modifier]

L'existence des neurones – le fait que notre cerveau est constitué de cellules séparées – a été comprise par Santiago Ramón y Cajal dès 1888. À cette époque, les biologistes pensaient que les cellules du cerveau étaient fusionnées, autrement dit que les réseaux nerveux présentaient une continuité cytoplasmique. Avec les observations au microscope de Ramón y Cajal, l'intelligence des humains et des animaux cessait d'être une et se retrouvait atomisée en de petites unités séparées, les neurones, reliées par de multiples connexions, les synapses. Quel rapport peut-il exister entre ces tout petits éléments et les idées qu'ils permettent de former ? Au milieu du xx siècle, plus que maintenant, l'analogie entre les circuits neuronaux et les circuits électroniques semblait évidente. Elle fut formalisée dès 1943 . Cependant, un cerveau ne se contente pas de calculer. Il apprend aussi. L'idée que le siège de l'apprentissage se situe non au niveau des neurones eux-mêmes, mais de leurs connexions, les synapses, avait déjà été proposée par Ramón y Cajal, mais c'est Donald Hebb qui, en 1949, a proposé un mécanisme pour cela . Hebb explique qu'une représentation (image, idée ou scène) correspond à une assemblée de neurones simultanément actifs. La formation répétée de la représentation aura tendance à renforcer les connexions entre les neurones de cette assemblée. Comment ? Cela s'explique au niveau de chaque synapse. Il suffit de supposer que la synapse se renforce et conduit un peu mieux les influx nerveux chaque fois que les deux neurones qu'elle relie sont actifs en même temps. C'est ainsi que Hebb a pu démystifier le fonctionnement de la mémoire. Une représentation mentale s'inscrit dans le souvenir parce que les neurones qui lui permettent de se former sont actifs assez longtemps ou de manière suffisamment intense ou répétée. Ainsi, les connexions qui relient ces neurones se renforcent. Il suffira ensuite d'un seul élément de l'image ou de la scène pour que la représentation se reforme dans son entier par simple association. Elle a été mémorisée.

x[modifier]

Bien que l'idée que des neurones puissent à la fois calculer et apprendre fût séduisante pour la compréhension du fonctionnement de notre propre intelligence, elle était loin d'être naturelle pour les ingénieurs. Elle se situait à l'opposé de tout ce qui avait été fait en informatique. Le fonctionnement des ordinateurs, que l'on appelait encore parfois « cerveaux électroniques » quand j'étais enfant, reposait (et repose toujours) sur l'utilisation d'un processeur central chargé de calculer, bien distinct des circuits chargés de mémoriser. Mélanger les deux processus, calcul et mémorisation, n'allait pas de soi, mais il était tout de même tentant d'essayer de s'inspirer du fonctionnement (supposé) du cerveau pour réaliser des opérations intelligentes. C'est ce que tenta Frank Rosenblatt vers 1960 en imaginant des machines qu'il appelait « perceptrons », constituées d'un ensemble de petits circuits électroniques identiques appelés « neurones formels », « neurones artificiels » ou tout simplement « neurones ». La version artificielle des neurones est bien plus simple que sa contrepartie naturelle. Dans la machine de Rosenblatt, un neurone est un petit circuit (imaginez une puce électronique) relié par des fils à d'autres neurones du même type. Le neurone ressemble à une petite pieuvre  : la tête est le circuit, et les tentacules sont les connexions qui proviennent d'autres neurones ou partent vers d'autres neurones. Le circuit ne fait qu'une seule chose : la somme des activations qui lui parviennent par les connexions. Si cette activation atteint un niveau suffisant, il s'active lui-même et envoie son activation à d'autres neurones. Le neurone possède deux mémoires  : une mémoire instantanée, qui est son niveau d'activation, et une mémoire à long terme, qui est stockée dans l'efficacité des connexions, ce qu'on appelle les « poids » des connexions. Ainsi, le neurone apprend à accorder plus de poids à certaines connexions qu'à d'autres quand il calcule la somme des influx qui lui parviennent, comme s'il était relié aux autres neurones par des synapses plus ou moins efficaces. C'est ainsi qu'apprend un réseau de neurones. Comme l'avait imaginé Donald Hebb, l'apprentissage à long terme se situe au niveau de l'efficacité des connexions entre neurones. L'idée de Rosenblatt, avec ses perceptrons, était de connecter les neurones entre eux en les organisant selon une ou plusieurs couches. Les perceptrons monocouches étaient parfois désignés comme des rétines artificielles, car ils étaient capables d'apprendre à reconnaître certaines formes.

x[modifier]

Étudiant, j'étais fasciné par la possibilité de reproduire l'intelligence. Je suis allé voir un chercheur de mon école qui avait travaillé sur les réseaux de neurones. À mon grand désappointement, il m'a déclaré que ce thème de recherche ne mènerait à rien . Marvin Minsky, dont nous avons déjà parlé, avait démontré que les perceptrons à une seule couche avaient certaines limitations qui les rendaient sans intérêt . L'anathème avait entraîné un désintérêt pour les perceptrons en général, même ceux qui comportaient plusieurs couches. Certes, rien n'empêchait d'aller au-delà du modèle de rétine en connectant plusieurs couches l'une derrière l'autre, mais on ne savait pas bien comment un tel réseau multicouche pouvait apprendre. Tout a changé au milieu des années 1980.

x[modifier]

J'ai eu la chance de participer à la conférence Cognitiva à Paris en 1985. Ce fut une révélation. Des grands noms des réseaux de neurones étaient là. J'ai découvert que certains réseaux de neurones étaient capables de jouer le rôle de mémoires associatives, comme Hebb l'avait imaginé. Comme pour la mémoire humaine, les entités mémorisées pouvaient être retrouvées grâce à une partie de leur contenu. En revoyant un cloître, je peux me rappeler qu'il fut le lieu du mariage de ma s œur et me souvenir de certains des invités. Une mémoire d'ordinateur ne fonctionne pas comme cela. Son contenu ne peut être récupéré que si je connais sa localisation dans la mémoire, son adresse. Voilà qu'en connectant des neurones artificiels on parvenait à imiter l'une des caractéristiques fondamentales de notre fonctionnement cognitif. J'étais émerveillé, et je n'étais pas au bout de mes surprises.

x[modifier]

Au même congrès, j'ai fait la connaissance de Teuvo Kohonen et de ses « cartes auto-organisatrices ». Lorsqu'on comprend leur fonctionnement, on peut se dire que le mécanisme sous-jacent tombe sous le sens, qu'on aurait presque pu les inventer soi-même. Mais je peux assurer que je n'étais pas le seul, ce jour-là, à penser que ce que je voyais relevait de la magie. Kohonen partait de données, par exemple les phonèmes d'une langue comme l'anglais ou le finnois qui étaient décrits par 15 mesures de fréquence chacun. Son système à base de neurones produisait spontanément, sans aucune instruction spécifique, une cartographie des phonèmes. On pouvait facilement y retrouver les proximités et les contrastes que les phonologues ont définis à partir des concepts de leur science. Les /a/ étaient rangés en haut à gauche, bien séparés des /o/ et des /u/ (« ou ») à mesure qu'on allait vers le bas. Les /i/ apparaissaient à droite après les /e/ (« é »). Les consonnes étaient rangées dans un ordre cohérent au milieu et en bas à droite de la carte. La magie venait du fait que le réseau de neurones avait fait tout cela par lui-même, sans qu'on lui eût fourni aucune information de type phonologique, selon un processus « non supervisé ».

x[modifier]

Ce congrès ménageait d'autres surprises de taille pour le jeune scientifique que j'étais. Je compris, comme d'autres à cette occasion, que les perceptrons pouvaient apprendre des choses intéressantes, n'en déplaise à Minsky. Nous découvrions pour la première fois qu'il existait une méthode permettant à des perceptrons comportant plusieurs couches d'apprendre, nous semblait-il, tout ce qui pouvait être appris. La révélation de cette méthode, dite « algorithme de rétropropagation du gradient », a eu une influence considérable sur la communauté des chercheurs en intelligence artificielle. La révélation fut d'une telle intensité que plusieurs de mes collègues ont littéralement décidé du jour au lendemain de changer de métier, passant d'une approche symbolique fondée sur la logique et sur l'emploi de règles à une approche purement numérique à base de neurones. La révolution déclenchée par l'utilisation des neurones renvoyait les techniques symboliques traditionnelles, qui avaient fait l'essentiel de la recherche en IA pendant trente ans, au rang de GOFAI ( good old-fashioned artificial intelligence ), la bonne vieille IA. Il en est résulté une décennie de débats passionnés sur les mérites de ce qu'on appelait alors le « connexionnisme », non seulement pour la révolution technologique qu'il promettait de produire, mais également en tant que modèle de l'intelligence humaine. Je conserve une grande nostalgie de cette époque où les chercheurs s'intéressaient à de grandes questions sur la nature de l'intelligence, du langage ou de la perception, et étaient prêts à en débattre à chaque rencontre, dans des ateliers formels ou à la machine à café, avec parfois des empoignades verbales permises par ce qui nous apparaissait comme des enjeux d'une ampleur considérable.

x[modifier]

À la suite de cette décennie passionnée, la raison a pris le pouvoir sous la forme d'un recours accru à la mathématisation. Les chercheurs voulaient mieux comprendre ce qu'ils faisaient, or les réseaux de neurones ne se prêtaient pas à une analyse mathématique complète de leur comportement. On voulait alors moins d'intuition et plus de théorèmes. Par ailleurs, les progrès d'autres techniques numériques comme les « machines à vecteurs supports » (SVM) permettaient de traiter des problèmes trop compliqués pour les réseaux de neurones de l'époque. Alors qu'un réseau de neurones fonctionne sur des données numériques brutes, c'est-à-dire sur des tableaux de chiffres représentant des images, des sons, des textes ou des ensembles de mesures, les méthodes de type SVM pouvaient classer des situations semi-symboliques, décrites par des attributs symboliques associés à des valeurs numériques. Il est plus facile de reconnaître si un champignon est comestible ou non à partir d'une description de sa taille, de sa couleur, du nombre de taches, de la profondeur des lamelles, de la présence d'une collerette, plutôt qu'à partir d'une photo. C'est moins intéressant, car il faut décrire chaque situation à la main pour que le système d'apprentissage prenne la décision finale. Mais cela fonctionnait plutôt bien, à une époque où les réseaux de neurones étaient incapables de discriminer de nombreuses caractéristiques dans les données brutes. Tout a brusquement changé dans les années 2010, lorsque l'apprentissage profond a consacré le retour triomphal du neurone artificiel en IA.

x[modifier]

Les réseaux de neurones, pas profonds[modifier]

x[modifier]

Quiconque est confronté pour la première fois aux réseaux de neurones ne peut qu'être impressionné par le décalage entre leurs impressionnantes capacités et la simplicité de leur principe de fonctionnement. Un réseau de neurones peut par exemple apprendre à reconnaître des visages. Dans mes cours d'introduction à l'intelligence artificielle, je demandais aux étudiants d'entraîner un petit réseau sur les photos du groupe. À la fin de l'apprentissage, leur réseau pouvait non seulement identifier les photos, mais également reconnaître des versions altérées de ces photos. Les étudiants pouvaient ainsi ajouter du bruit à leur portrait ou se dessiner des lunettes, le réseau pouvait encore le plus souvent les reconnaître. Avant cela, les techniques symboliques utilisées pour reconnaître les formes n'étaient pas aussi robustes. Les méthodes de reconnaissance de l'écriture manuscrite s'attachaient typiquement à repérer la présence de boucles, d'arcs et de traits pour en faire des symboles (boucle n° 3, arc n° 7), puis décider sur cette base symbolique si la lettre était un « c » ou un « e ». En conséquence, un « e » pas tout à fait fermé était pris pour un « c ». En revanche un réseau de neurones, comme l' œil humain, repère plutôt la ressemblance globale et identifie correctement un « e » même s'il n'est pas tout à fait bien formé. Le plus impressionnant était que ces réseaux de neurones résolvaient des problèmes de reconnaissance et de classification sans rien connaître au domaine. Contrairement aux systèmes d'IA de la période précédente, ils fonctionnaient sans qu'il fût nécessaire de leur fournir une expertise préalable extraite du savoir humain. Il suffisait de leur donner une information de supervision, autrement dit des exemples  : cette image représente un « e », cette image représente un « c ». L'information de supervision ne comporte rien de plus, elle ne contient aucune connaissance qui dit au réseau à quoi ressemble un « e ». Voyons comment cela est possible.

x[modifier]

Il faut avant tout préciser une chose : les réseaux de neurones ne contiennent, dans la plupart des cas, pas le moindre neurone artificiel ! Le perceptron de Rosenblatt, lui, possédait de tels neurones. Il était conçu pour être une machine à part entière, avec un circuit électronique différent pour chaque neurone et un fil pour chaque connexion. C'était dans les années 1960. À partir de la décennie qui a suivi, la rapidité incomparable des ordinateurs leur a permis de simuler de manière bien plus aisée n'importe quelle architecture comportant des neurones artificiels, si bien que lorsqu'on parle de réseau de neurones, on ne fait référence dans l'immense majorité des cas à rien d'autre qu'à une métaphore. De même que l'ordinateur d'un service météo simule l'évolution des dépressions sans utiliser de courants d'air ni de vapeur d'eau, on peut simuler des neurones sans perdre son temps à connecter physiquement des circuits entre eux à l'aide de fils conducteurs. Il suffit d'écrire un programme informatique qui dit comment les neurones doivent se comporter. Chaque « neurone » est représenté quelque part dans la mémoire de l'ordinateur  : on y stocke d'une part son niveau d'activation et, d'autre part, l'adresse en mémoire des autres neurones auxquels il est connecté. Le programme calcule comment l'activation du neurone change au cours du temps, en fonction des activations qu'il reçoit d'autres neurones. L'ordinateur exécute ce programme de manière répétitive, pour chaque « neurone » et pour chaque pas de temps. Les neurones n'existent pas plus dans cet ordinateur que les nuages ou les vents n'existent dans l'ordinateur des prévisionnistes de la météorologie nationale. La métaphore du réseau de neurones est toutefois bien utile : elle peut donner lieu, dans des cas encore rares, à de véritables réalisations sur des circuits spécialisés, mais, surtout, elle est incroyablement confortable pour l'esprit de leurs concepteurs, dont elle guide l'intuition. Continuons donc ici à parler de neurones exactement comme s'il s'agissait de véritables entités physiques susceptibles d'être connectées entre elles.

x[modifier]

Les réseaux de neurones apprennent à partir d'exemples qui se présentent sous la forme de tableaux de nombres. Si le réseau doit apprendre à reconnaître des images, le tableau contient autant de nombres qu'il y a de pixels si l'image analysée est monochrome. Si l'image est en couleurs, il faut trois nombres par pixel, ce qui multiplie par trois la taille du tableau. Le codage numérique est aussi possible pour le langage naturel. On peut coder chaque caractère d'imprimerie par un nombre (par exemple 97 représente la lettre « a »), si bien qu'une portion de texte de taille donnée peut se représenter par un tableau de nombres. Un réseau de neurones peut alors apprendre à associer les lettres à des phonèmes et ainsi parvenir à lire un texte à haute voix de manière très compréhensible, sans faire (trop) d'erreurs de prononciation. C'est ce que les chercheurs parvinrent à faire avec NETtalk en 1987 . Dans la métaphore des réseaux de neurones, le tableau recevant les nombres qui codent les exemples est figuré comme une couche de neurones, dite couche d'entrée. Les nombres qui garnissent le tableau quand on charge un exemple deviennent les valeurs d'activation des neurones de cette couche d'entrée.

x[modifier]

Les réseaux qui nous intéressent ici sont organisés en couches. Les connexions n'existent qu'entre neurones de couches adjacentes. La première couche est la couche d'entrée. Elle ne compte pas vraiment, car aucun apprentissage ne va opérer à son niveau. La dernière couche est la couche de sortie, c'est là que sont lus les résultats. Un réseau dit « monocouche » possède donc en réalité deux couches, une couche d'entrée et une couche de sortie, seule la seconde étant capable d'apprendre. Les perceptrons monocouches critiqués par Minsky n'avaient pas d'autres couches. Les petits réseaux que j'utilisais pour illustrer mes cours d'introduction avaient généralement une, parfois deux couches supplémentaires, dites couches « cachées », situées entre l'entrée et la sortie. Comme ils étaient chargés d'identifier les photographies des étudiants du cours, il y avait autant de neurones dans la couche de sortie que d'étudiants dans la classe. NETtalk avait lui aussi une couche cachée, comportant 80 neurones. Comme il ne considérait que 26 phonèmes, il avait 26 neurones dans sa couche de sortie. Les réseaux d'apprentissage profond qui sont très à la mode depuis quelques années comportent bien davantage de couches cachées successives, habituellement une dizaine ou plusieurs dizaines. Cette structure en couches est répétitive, ce qui la rend particulièrement simple. Dans la version classique de l'architecture multicouche, chaque neurone reçoit des connexions de tous les neurones de la couche située en amont, et c'est tout. Pas de connexions entre neurones d'une même couche, pas de connexions à rebours d'une couche en direction de la précédente (les connexions sont directionnelles). Ce type de réseau est dit « à propagation avant », ce qui signifie que l'information progresse de la couche d'entrée vers la couche de sortie. Le fonctionnement d'un tel réseau est en théorie très rapide, puisque les nombres sont propagés en parallèle d'une couche à la suivante. Toutefois, ce parallélisme est longtemps resté illusoire car ces réseaux étaient simulés sur des ordinateurs normaux, autrement dit sur des processeurs séquentiels.

x[modifier]

L'architecture n'est pas tout. Il faut aussi dire comment un tel réseau calcule : de la manière la plus simple possible, conforme au modèle inspiré des neurones naturels imaginé en 1943 . Chaque neurone actif envoie un nombre aux neurones de la couche suivante par les connexions qui les relient. Chaque neurone de cette deuxième couche calcule la somme pondérée des nombres qui lui parviennent, c'est-à-dire qu'il affecte un coefficient (un poids) différent à chacune des connexions qui lui arrivent. Il choisit ainsi d'« écouter » certains des neurones, plus que les autres. Il prend ensuite la décision d'entrer en activité ou pas. Si la somme pondérée dépasse un certain seuil propre au neurone, celui-ci s'active et envoie à son tour un signal vers les neurones de la couche suivante. Sinon, il ne fait rien. L'intensité du signal envoyé est fonction de la somme pondérée qu'il a calculée, sauf pour la couche d'entrée où le signal correspond au nombre que l'on a chargé dans le neurone. Et voilà ! Le réseau peut maintenant fonctionner et, si chaque neurone dispose des poids adéquats sur ses connexions, il peut reconnaître les visages des étudiants ou, dans le cas de NETtalk, se mettre à phonétiser un texte écrit. Il propage les nombres correspondant à la valeur des pixels de la photo ou aux caractères du texte, de la couche d'entrée vers les couches cachées et enfin vers la couche de sortie où la décision finale, nom de l'étudiant ou valeur du phonème, est prise. Notez que, par sa nature, un tel système va hésiter. Autrement dit, si Marianne Dupont ressemble à Cécile Durand, il se peut que le système hésite et active simultanément les deux neurones correspondants de la couche de sortie. Pour ces tâches de classification, on complète le réseau par un système qui repère le neurone le plus actif de la couche de sortie et produit une décision non ambiguë. Néanmoins, l'hésitation est aussi une information utile qui peut parfois être récupérée.

x[modifier]

Évidemment, le secret du fonctionnement de tels réseaux réside dans l'apprentissage de la force des connexions, autrement dit de leur poids dans la somme qu'effectue chaque neurone. Comme on ne sait pas au départ quelles sont les bonnes valeurs à donner à ces poids pour que le réseau se comporte comme on le souhaite, on va faire évoluer les valeurs des poids de proche en proche jusqu'à ce que la sortie du réseau corresponde bien à celle qui est attendue, au moins dans le cas d'un ensemble d'exemples qui sert de batterie de tests. Facile à dire. Facile à faire dans le cas du perceptron monocouche, comme l'a montré Rosenblatt dans les années 1960 . C'est plus difficile à faire avec plusieurs couches, mais cela a été résolu grâce au fameux algorithme de rétropropagation du gradient (dont nous allons parler tout de suite) qui a été largement utilisé à partir du milieu des années 1980. Le problème redevenait impossible à résoudre quand on multipliait le nombre de couches, mais les technologies liées à l'apprentissage profond ont permis de passer ce nouveau cap au début des années 2010, ouvrant ainsi un champ immense à l'application des réseaux de neurones.

x[modifier]

En quoi consiste l'algorithme de rétropropagation du gradient qui a tellement impressionné la communauté IA dans les quinze dernières années du xx siècle ? Un réseau de neurones, surtout en début d'apprentissage, commet de nombreuses erreurs de classification  : pour un exemple donné, il active souvent les mauvais neurones de la couche de sortie. On calcule ces erreurs en faisant la différence, pour chaque neurone de la couche de sortie, entre l'activation souhaitée et l'activation observée. Le mot « gradient » fait référence à la contribution marginale à l'erreur de chaque connexion qui parvient au neurone. Le principe de la méthode de rétropropagation du gradient consiste à modifier les poids des connexions tant que celui-ci commet des erreurs de classification. On ne peut pas, toutefois, le faire trop brusquement. Si je force le réseau à reconnaître tout de suite Marianne Dupont, il risque de ne plus jamais reconnaître Cécile Durand. La sortie souhaitée, dans le cas de la couche de sortie, correspond généralement au fait d'activer un seul neurone (celui qui correspond à Marianne Dupont dans notre exemple) en laissant les autres inactifs. Le réseau a certainement hésité, conférant un niveau d'activation à tous les neurones de sortie, et le plus actif n'est peut-être pas le bon. L'erreur ainsi calculée est utilisée pour corriger les poids des connexions qui parviennent à la couche de sortie, c'est-à-dire les pondérations que les neurones de la dernière couche affectent aux connexions qui leur parviennent. Les poids qui ont contribué à augmenter l'activité des neurones (ou du neurone) censés être actifs doivent être renforcés, tandis qu'à l'inverse on diminue les poids qui ont provoqué une activation dans les neurones censés être inactifs. Tout cela tombe sous le sens. Si l'on refait fonctionner le réseau, il reconnaîtra Marianne Dupont un peu mieux que précédemment. Mais le c œur de l'algorithme consiste à trouver un moyen de corriger de proche en proche les poids des neurones de toutes les couches, pas seulement la dernière. Lorsqu'on regarde d'où vient l'erreur de la dernière couche, on repère les connexions dont le poids trop élevé a conduit les mauvais neurones à s'activer, ainsi que les poids trop faibles qui ont manqué d'activer le ou les neurones corrects. Ce faisant, on peut remonter ces connexions fautives et repérer les neurones de l'avant-dernière couche qui sont les plus responsables de l'erreur finale. On calcule facilement leur contribution marginale à cette erreur, et le tour est joué  : on a reculé d'une couche, on dispose à nouveau d'une erreur pour chaque neurone, et l'on peut réitérer l'opération de correction vers l'avant-avant-dernière couche. L'algorithme de rétropropagation repose sur la constatation que la contribution marginale à l'erreur se calcule récursivement, à partir de l'erreur constatée au niveau des neurones situés en aval. D'où le préfixe « rétro », puisque les contributions marginales à l'erreur sont calculées et propagées de l'aval vers l'amont, jusqu'à atteindre la première couche cachée, celle qui se trouve immédiatement après la couche d'entrée.

x[modifier]

L'algorithme de rétropropagation semblait donner un pouvoir considérable aux informaticiens  : donnez-leur des données à classer, il leur suffit de faire tourner l'algorithme et la machine apprendra ce qu'on veut lui faire apprendre. Il faut tout de même disposer d'un ensemble d'exemples pour lesquels on connaît le résultat souhaité. Cette forme d'apprentissage est dite « supervisée », puisqu'on enseigne au réseau ce qu'on attend de lui. On l'entraîne donc avec une batterie d'exemples connus, puis on le fait fonctionner sur des cas inconnus mais qui, bien sûr, ont un lien avec les exemples. Il pourra ainsi distinguer les chiens des chats, pourvu qu'on l'entraîne avec des exemples d'images montrant des chiens ou des chats et qu'on lui donne l'information de supervision : on lui dit parmi ces images-exemples lesquelles montrent un chien et lesquelles montrent un chat. Comme de très nombreux problèmes nécessitant une décision intelligente se présentent sous forme de classification (dans quel cas dois-je faire telle action ?), les réseaux de neurones à plusieurs couches semblent constituer la solution idéale, une sorte de couteau suisse de l'intelligence artificielle permettant d'aborder toutes sortes de questions avec la même technique.

x[modifier]

Quand la classification est délicate et demande de repérer des caractéristiques fines dans les données d'entrée, comme quand on veut reconnaître des types de champignons ou reconnaître des mots dans un signal sonore, il faut bien sûr augmenter la taille du réseau, notamment en le rendant « profond », c'est-à-dire en ajoutant des couches cachées supplémentaires. Hélas, on se heurte vite à une difficulté qui a découragé pas mal de chercheurs à la fin du siècle dernier : le problème dit de l'« évanouissement du gradient ». Lorsque le nombre de couches augmente, on s'aperçoit que les neurones des premières couches, celles qui sont proches de l'entrée et loin de la sortie, influent très peu sur le résultat final, surtout en début d'apprentissage quand les connexions ont des valeurs un peu arbitraires. Il devient impossible de corriger leur contribution marginale à l'erreur, puisque cette contribution est très faible. Un réseau de neurones semblait ainsi incapable d'apprendre dès lors qu'il devenait profond.

x[modifier]

La communauté des chercheurs en apprentissage artificiel s'est ainsi détournée des réseaux de neurones. Pour les problèmes de classification un peu difficiles, mais qui se trouvent être ceux qui sont d'intérêt pratique, le problème du nombre de couches était contourné par un prétraitement des données pour en extraire les caractéristiques pertinentes. On ne s'intéressait plus à des entrées de bas niveau comme les pixels, les lettres d'un texte ou les échantillons d'un signal de parole. Les valeurs des entrées correspondaient à des attributs ayant déjà un sens. Par exemple, pour des diagnostics de malignité dans le cas du cancer du sein, l'analyse reposait non pas sur une radiographie, mais une description utilisant des attributs comme le rayon de la tumeur, sa texture, son aspect régulier, sa compacité, sa convexité, sa symétrie, etc. Ainsi décrits avec des attributs de haut niveau, les exemples se prêtent bien à des méthodes mathématiques, comme les machines à vecteurs supports développées dans les années 1990. Les réseaux de neurones semblaient avoir perdu tout intérêt. Jusqu'à ce que l'apprentissage profond arrive sur le devant de la scène.

x[modifier]

L'apprentissage profond[modifier]

x[modifier]

Les réseaux de neurones profonds, c'est-à-dire comportant de nombreuses couches, occupent le devant de la scène de l'apprentissage artificiel depuis 2012. Ils sont utilisés pour reconnaître des images, synthétiser des images et des vues 3D, identifier les personnes, jouer à des jeux d'action ou de réflexion, analyser la parole, effectuer des diagnostics médicaux, analyser des expressions du visage, et la liste s'allonge régulièrement. Pourquoi cette technique, qui a progressivement mûri dans la première décennie de ce siècle, s'est-elle brusquement révélée, presque à elle seule, comme le renouveau de l'intelligence artificielle ?

x[modifier]

J'ai entendu parler des premiers succès de l'apprentissage profond relativement tôt, dès 2006, lorsqu'une étudiante que j'encadrais a effectué un stage dans le laboratoire de Yann Le Cun à New York . Je fus impressionné, non seulement par le travail de l'étudiante, mais également par le chemin parcouru par ce domaine de recherche depuis que je m'étais, un peu comme tout le monde, détourné de ces techniques une décennie plus tôt. Car le domaine des réseaux de neurones avait progressé, à l'abri des regards, sous les radars en quelque sorte, grâce à l'obstination de quelques chercheurs convaincus de la fécondité de leurs idées malgré les vents contraires des modes qui rythment la vie de la recherche. Plusieurs techniques commençaient à produire leurs effets  : les « autoencodeurs », les « machines de Boltzmann restreintes », les « réseaux convolutifs », l'« abandon sélectif » ( drop out ), etc. Ces différentes méthodes ont conjugué leurs effets pour amener peu à peu l'apprentissage profond du stade d'utopie à celui de technique couramment utilisée.

x[modifier]

Pourquoi veut-on à toute force faire de l'apprentissage qui soit « profond » ? Pourquoi vouloir multiplier le nombre de couches d'un réseau de neurones, passant de deux couches comme dans NETtalk, à plusieurs dizaines ? Les réseaux de neurones servent à classer les situations, c'est-à-dire à associer à toute situation présentée au niveau de la couche d'entrée, une décision qui se concrétise par le neurone le plus actif de la couche de sortie. D'un point de vue mathématique, un réseau qui a appris réalise une fonction, qui consiste par exemple à associer les photos de chats à la décision « chat » et les photos de chiens à la décision « chien ». Pourquoi vouloir apprendre la fonction souhaitée au long de dizaines de couches plutôt que deux ou trois, voire d'une seule ? Après tout, rien ne dit qu'une fonction nécessite plusieurs étapes pour être calculée. Au contraire, il est facile de voir que la valeur d'une fonction quelle qu'elle soit peut être trouvée en une seule étape, par simple lecture d'une mémoire. Ainsi, lorsque tous les cas possibles sont mémorisés, on peut associer instantanément une classe, comme « chat » ou « chien », à chacune des situations possibles, représentées ici par la configuration des pixels de l'image que l'on veut classer.

x[modifier]

La profondeur est égale à zéro dans une telle méthode. Connaissant par ailleurs tous les obstacles, comme celui de l'évanouissement du gradient, qui semblaient rendre l'apprentissage profond impossible, il faut vraiment que la profondeur présente un intérêt théorique fondamental pour que des chercheurs se soient obstinés à vouloir empiler couche sur couche.

x[modifier]

La force de la profondeur vient du fait qu'elle permet de combiner des détecteurs. Si l'on voulait réaliser une mémoire qui stocke toutes les images possibles pour indiquer celles qui représentent des chats, il n'y aurait pas assez d'atomes dans l'univers entier pour la fabriquer. Les réseaux profonds, comme d'ailleurs le cerveau, s'y prennent autrement. Au lieu de détecter d'emblée la présence de chats ou de chiens dans une image, ils s'attachent dans leurs premières couches à détecter des choses bien plus simples, comme des taches localisées ou des éléments de contour. Les couches suivantes vont combiner ces premières détections pour repérer des zones importantes de l'image  : présence d'un œil, présence d'un contour caractéristique. Les couches qui viennent encore après vont combiner ces éléments jusqu'à pouvoir distinguer ce qui fait que l'image présentée représente un chat plutôt qu'un chien. Cette combinatoire de détection permet aux réseaux profonds d'apprendre à distinguer un nombre potentiellement gigantesque de types de données avec un nombre grand, mais tout de même limité, de neurones. Cela explique pourquoi la profondeur est indispensable si l'on veut augmenter la puissance de discernement des réseaux de neurones, puisque chaque couche ajoutée multiplie les capacités combinatoires du réseau.

x[modifier]

Bien, mais comment apprendre avec tant de couches ? La réponse apportée par les chercheurs est simple : on fait d'abord apprendre les premières couches, puis on s'intéresse à l'apprentissage des suivantes, et ainsi de suite jusqu'aux couches les plus élevées, celles qui distinguent les chats des chiens. Voilà qui prend le contre-pied du principe de rétropropagation du gradient ! L'idée géniale des années 1980 consistait précisément à partir de la dernière couche, celle où l'on sait ce que l'on veut, à constater l'erreur, puis à permettre au réseau de tenir compte de cette erreur de proche en proche, de l'aval vers l'amont, jusqu'à corriger les neurones des premières couches en fonction de leur responsabilité. Si l'on casse cette logique, sur quelle base va-t-on apprendre ? La réponse fut que les premières couches doivent apprendre par elles-mêmes, indépendamment de toute idée d'erreur, autrement dit sans utiliser l'information de supervision fournie lorsqu'on dit à quelles classes les exemples connus appartiennent.

x[modifier]

Comment fonctionne l'apprentissage non supervisé des premières couches d'un réseau profond ? En repérant des caractéristiques fréquentes dans les données, indépendamment de la classification que l'on souhaite réaliser en bout de réseau. Autrement dit, peu importe qu'on veuille distinguer les chats des chiens plutôt que les voitures des camions, l'important pour les premières couches consiste à repérer des structures fréquentes dans les images, ou plus généralement dans les données d'entrée. Dans le cas des images, on souhaite donc amener les premières couches d'un réseau profond à apprendre à détecter les éléments, taches, bords, coins ou autres qui suffisent à représenter l'image de départ sans perdre trop d'information . C'est en résolvant ce problème d'apprentissage non supervisé des premières couches que l'apprentissage profond a préparé sa révolution.

x[modifier]

Cette technique convient à une large gamme de types de données, ce qui permet d'envisager l'application des réseaux profonds à des problèmes d'une grande variété qui commence seulement à être explorée. Un réseau profond peut ainsi apprendre à reconnaître des signaux de parole, à classer des états dans un jeu ou à classer des films pour les recommander à des spectateurs. Mais, pour certains types de données, en premier lieu les images, on rencontre certaines difficultés, comme le fait qu'une image apprise cesse d'être reconnue si on la décale ou si on la zoome ! Or le bon sens ainsi que la compréhension du fonctionnement du cortex visuel suggèrent que la reconnaissance des images passe par le fait de repérer la présence d'éléments, tache, coins ou autres, sans tenir compte de manière trop stricte de leur position dans l'image. Un chat continue d'avoir deux yeux si sa tête est à droite de l'image plutôt qu'à gauche. Les chercheurs ont eu l'idée d'aller puiser dans les techniques de traitement du signal pour résoudre ce problème. La principale technique de ce type repose sur l'opération de convolution. C'est cette méthode qui a permis à l'apprentissage profond de connaître ses succès spectaculaires en reconnaissance d'images dans les années 2010.

x[modifier]

L'idée à la base des réseaux convolutifs consiste à conserver l'organisation en deux dimensions de l'image au cours de son traitement dans les premières couches du réseau. Le rôle d'un neurone dans un réseau convolutif consiste à opérer une détection locale (un filtrage) sur la couche précédente. Il s'agit d'une opération simple comme une moyenne ou la détection de contrastes liés à une tache locale ou un élément de contour. Ainsi, un neurone à la position (20, 30) de la première couche cachée va réaliser une détection autour de cette position, par exemple dans la zone [15-25] × [25-35]. Si les poids du neurone lui permettent de repérer une petite tache et qu'une tache est effectivement présente, il s'activera. Comme on veut pouvoir repérer cette tache quelle que soit sa position, on va appliquer la même détection à tous les endroits de l'image. Tout se passe comme si c'était le même neurone, avec les mêmes poids, qui était répliqué sur toute la longueur et la largeur de l'image.

x[modifier]

Bien, mais ce dispositif ne permet de détecter qu'une seule forme, une tache. Or on veut pouvoir repérer d'autres formes. Il faudrait un deuxième neurone, répété lui aussi, pour réaliser une deuxième détection à tous les endroits de l'image, puis un troisième neurone, et ainsi de suite. Pour cela, il suffit de considérer que les couches du réseau de neurones sont épaisses et composées de plusieurs tranches (des couches dans la couche, en quelque sorte). Les neurones d'une tranche, tous identiques et dotés des mêmes poids, réalisent la même opération de détection à différents endroits de l'image. Si l'on veut repérer 96 formes différentes dans l'image, il faut prévoir 96 tranches dans la couche, et donc 96 neurones différents dont chacun sera répliqué au sein de sa tranche. L'apprentissage non supervisé des premières couches va porter sur la mise au point de ces neurones-détecteurs.

x[modifier]

Ainsi, les réseaux convolutifs tirent avantage de la localité des caractéristiques intéressantes à détecter  : taches, bords, coins ou autres. Et, par la magie de l'apprentissage non supervisé, c'est le réseau qui va décider quelles sont les formes les plus intéressantes à repérer pour parvenir à classer les images. L'étude qui a fait la renommée de l'apprentissage profond en 2012 a pu apprendre 96 filtres dans la première couche et plusieurs centaines dans les suivantes . Les dernières couches d'un réseau convolutif abandonnent la géométrie de l'image pour redevenir des couches classiques sans épaisseur (sans tranche) dont tous les neurones sont différents. La toute dernière couche, la couche de sortie, sert de base à la classification  : le ou les neurones les plus actifs de cette couche permettent de caractériser l'image qui a été présentée en entrée du réseau. Par exemple, dans l'étude de 2012, l'image d'un porte-conteneurs présentée dans la couche d'entrée finit par activer dans la dernière couche les neurones portant les étiquettes suivantes, par ordre d'intensité décroissante : porte-conteneurs, canot de sauvetage, amphibien, bateau-pompier, plateforme de forage. Non seulement le meilleur candidat est correct, mais ceux qui suivent restent plausibles.

x[modifier]

Un réseau profond permet ainsi à ses premières couches d'apprendre par elles-mêmes, de manière non supervisée, les motifs qui apparaissent fréquemment dans les données. À partir de là, il s'agit pour le réseau de s'assurer que sa fonction – distinguer les chats des chiens ou assigner une étiquette verbale comme « porte-conteneurs » – est bien assurée. Pour cela, le réseau utilise les techniques standard du type rétropropagation du gradient, mais seulement après que la phase initiale d'autoapprentissage des premières couches a préparé le terrain. On évite ainsi le problème d'évanouissement du gradient qui empêchait auparavant les réseaux d'être profonds . La partie n'est toutefois pas encore gagnée.

x[modifier]

La multiplication des couches, bien utile pour donner toute sa puissance de traitement au réseau, introduit un nombre important de neurones et de connexions. Le premier réseau profond qui a fait parler de lui en 2012 comportait déjà 650 000 neurones, et devait apprendre 60 millions de poids . Si le nombre d'images n'est pas suffisant, il y a un risque qu'elles soient apprises par c œur. Un réseau qui apprend les données par c œur est incapable de généraliser, si bien que si on lui présente une version légèrement modifiée d'une image qui fait partie des exemples appris, il ne la reconnaît plus. Or le principal avantage des réseaux de neurones est précisément leur capacité à généraliser. Les chercheurs utilisent diverses techniques, comme l'abandon sélectif ( drop out ), qui empêchent le réseau d'apprendre les données par c œur, évitant ainsi le surapprentissage. Mais, surtout, il est important que le réseau voie suffisamment de données pour apprendre ses poids. Le réseau de 2012 a été entraîné sur plus d'un million d'images qu'il a appris à classer dans 1 000 catégories différentes.

x[modifier]

La soudaineté du succès qu'a connu l'apprentissage profond dans les années 2010 n'est pas due aux innovations qui viennent d'être mentionnées. Celles-ci ont lentement mûri au cours de la décennie qui a précédé. L'un des facteurs souvent mentionnés est la possibilité de fournir à ces systèmes des masses considérables de données, par exemple des stocks de millions d'images issues de la Toile. C'est vrai, mais, là encore, ces stocks de données se sont constitués progressivement. Non, ce qui a permis à l'apprentissage profond de littéralement exploser à un moment où on ne l'attendait pas est tout autre chose, que personne n'avait envisagé : c'est le jeu vidéo. Pendant deux décennies, la demande constante des joueurs pour plus de réalisme a poussé les grandes firmes du jeu vidéo à exiger de l'industrie électronique le développement de processeurs graphiques (GPU) toujours plus puissants, capables de synthétiser en temps réel des images de plus en plus fines. Ces composants cruciaux des consoles de jeux, et qui en constituent l'essentiel du prix, calculent et transforment les images en parallèle, en effectuant chaque fois que c'est possible les mêmes traitements en même temps sur différentes portions de l'image. Les concepteurs des réseaux de neurones ont brusquement compris dans les années 2010 tout l'avantage qu'ils pouvaient tirer de l'existence de tels superprocesseurs. Les réseaux de neurones ont en effet besoin d'effectuer quantité d'opérations similaires sur les éléments de grands tableaux de nombres représentant les activations des neurones et les forces de leurs connexions. Or les GPU sont capables d'effectuer la plupart de ces opérations en parallèle, sans se demander si ces tableaux de nombres représentent autre chose que des images. Les opérations qui auraient nécessité plusieurs semaines et parfois plusieurs années pour être effectuées par des ordinateurs standard des années 1990 ou 2000 pouvaient s'effectuer en quelques heures seulement grâce aux GPU. On peut dire que les millions de joueurs avides de réalisme sont, indirectement, les vrais responsables de la brusque irruption de l'intelligence artificielle à laquelle nous venons d'assister. Actuellement les fabricants de processeurs graphiques, alertés par les succès récents des réseaux de neurones, se rapprochent des chercheurs en intelligence artificielle et réalisent des profits importants en développant des circuits qui sont, cette fois, spécialisés pour les réseaux de neurones.

x[modifier]

Apprendre par autodressage[modifier]

x[modifier]

L'exploit le plus retentissant qui marquera le renouveau de l'intelligence artificielle aux yeux du grand public est probablement la victoire du programme AlphaGo, le 15 mars 2016, contre le joueur considéré comme le meilleur du monde, Lee Sedol. Quelques mois auparavant, le même programme avait déjà gagné contre le champion d'Europe Fan Hui, ce qui avait donné lieu, fait rare jusque-là, à une publication relevant du domaine de l'informatique dans la revue Nature . Lee Sedol déclarait avant la série de cinq parties qui devaient l'opposer à AlphaGo  :

x[modifier]

J'ai confiance avant ce match. Je crois que l'intuition humaine est encore trop en avance pour que l'IA ait pu la rattraper. Je ferai de mon mieux pour protéger l'intelligence humaine.

x[modifier]

Le programme remporta la première partie, à la grande surprise de nombreux observateurs et, bien sûr, de Lee Sedol lui-même. Au 37 coup de la deuxième partie, le jeu a basculé, selon les observateurs : [ …] pas un seul joueur humain n'aurait choisi le coup 37. [ …] AlphaGo était d'ailleurs d'accord avec cette appréciation. Selon AlphaGo, la probabilité que le coup 37 ait été effectué par un joueur humain était de 1 sur 10 000. Le programme savait donc qu'il s'agissait d'un coup extrêmement inhabituel. Il est allé au-delà de son tuteur humain, et est arrivé à quelque chose de nouveau, de créatif et de différent.

x[modifier]

Lee Sedol livra plus tard ses pensées :

x[modifier]

Je pensais qu'AlphaGo fonctionnait à partir du calcul des probabilités et qu'il s'agissait d'une simple machine. Mais quand j'ai vu ce coup, j'ai changé d'avis. C'est certain, AlphaGo est capable de créativité. Ce coup-là était créatif et beau.

x[modifier]

La machine a fini par l'emporter par quatre parties contre une. Pour beaucoup, ce résultat a sonné le glas de la supériorité de l'intuition humaine. Cependant, le programme qui venait de battre le meilleur joueur du monde utilisait une expertise venant d'autres joueurs de niveau mondial, à laquelle Fan Hui avait d'ailleurs contribué. On a ainsi pu penser que Lee Sedol avait été vaincu, non par une machine, mais par une machine augmentée du savoir d'autres champions humains. Un an et demi plus tard, la même équipe de chercheurs fait savoir qu'elle a mis au point un autre programme, AlphaGo Zero, qui ne contient aucune expertise humaine relative au jeu de go . Ce nouveau programme est pourtant bien meilleur que le précédent, qu'il a battu cent fois sur les cent parties qu'ils ont jouées ensemble. Plus moyen de se rassurer, la machine est supérieure. Qu'est-ce qui a permis ce succès tout à fait inattendu de la machine sur l'humain dans un domaine, le jeu de go, précédemment réputé inaccessible pour longtemps à la mécanisation ?

x[modifier]

Je discutais, en 2004, avec l'un de mes collègues à Télécom ParisTech, spécialiste du codage et excellent joueur de go. Il m'expliquait que des chercheurs en IA venaient pour la première fois d'appliquer une technique, extrêmement choquante du point de vue des joueurs, consistant à évaluer la valeur d'un état du goban (l'échiquier des joueurs de go) en effectuant tout un ensemble de parties au hasard à partir de la position courante, et en faisant la moyenne des résultats. Autrement dit, l'ordinateur essaye d'imaginer tout un ensemble de futurs possibles en s'écartant souvent des coups qu'il juge optimaux. Cette méthode, qui utilise largement le hasard, est dite « de Monte-Carlo ». En quoi le fait d'essayer des coups stupides peut-il aider à mesurer la valeur d'une position ? Toujours est-il que les méthodes de type Monte-Carlo ont significativement amélioré les performances des programmes de go. Elles se retrouvent, une décennie plus tard, au c œur du système d'évaluation d'AlphaGo. Pour guider cette exploration des futurs possibles, AlphaGo apprend la valeur de chaque position (la probabilité de gagner à partir de là), et pour chaque position la valeur des différentes actions possibles. Il utilise pour cela un réseau profond de type convolutif . La couche d'entrée du réseau représente l'état du goban. Il faut fournir en sortie du réseau une information de supervision permettant de rétropropager l'erreur et donc d'apprendre à mieux estimer la valeur des positions et des actions. Cette information de supervision provient de l'issue de la partie. Comment s'y prend-on pour faire le lien entre la fin de la partie et l'état courant du goban ? Par une technique dite « apprentissage par renforcement ».

x[modifier]

L'apprentissage par renforcement est chose tellement naturelle que n'importe qui peut le réinventer. Ce fut mon cas quand j'étais étudiant. Je m'intéressais au jeu de Nim, tel qu'il a été illustré de manière si mystérieuse dans le film L'Année dernière à Marienbad d'Alain Resnais, sorti en 1961. Le jeu est simple : 16 cartes disposées en 4 rangées de 1, 3, 5 et 7 cartes. Chaque joueur peut prendre à son tour autant de cartes qu'il le souhaite, mais dans une seule rangée. Celui qui prend la dernière carte a perdu. Dans le film de Resnais, on voit à plusieurs reprises les personnages s'essayer au jeu, croire qu'ils ont compris comment gagner, et chaque fois constater qu'ils sont piégés. Cela n'est bien sûr pas dit dans le film, mais il existe une stratégie optimale qui permet au joueur qui ne commence pas de gagner à coup sûr. Je n'avais pas vu le film, sorti vingt ans plus tôt, mais je connaissais le jeu. Ayant découvert l'informatique depuis peu et rêvant d'une machine intelligente, je voulais écrire un programme qui découvrît ce moyen d'être imbattable, sans bien sûr que je lui fournisse la théorie mathématique sous-jacente. Ma technique était simple. Il y a 384 états possibles dans ce jeu, en incluant l'état de départ et l'état où toutes les cartes ont été prises. Je calculais et mettais à jour une note pour chacun de ces états, en ajoutant 1 ou en retranchant 1 à la note selon que l'état avait été produit par le gagnant ou par le perdant de la partie. La stratégie de jeu allait ensuite de soi : à chaque étape, le programme faisait l'action conduisant à l'état accessible le mieux noté. J'ai alors entrepris d'enseigner le jeu à mon programme en lui servant de professeur. Inutile de dire que j'ai vite abandonné, car il aurait fallu avoir la patience de jouer des centaines de parties très ennuyeuses, surtout au début. Mon idée suivante fut de faire jouer le programme contre le hasard. Mauvaise idée ! Il est tellement facile de gagner contre le hasard pur que mon programme n'apprenait rien, hormis les tout derniers coups à jouer. Puis l'illumination me vint (pas tout de suite, bizarrement, contrairement à mes étudiants qui trouvent la bonne idée immédiatement quand je leur raconte cette histoire)  : faire jouer le programme contre lui-même. Le résultat fut spectaculaire. L'ordinateur atteignait une technique de jeu imbattable en quelques secondes après avoir joué à peine trois cents parties contre lui-même. Cet épisode a probablement beaucoup influé sur mon orientation professionnelle. Il m'a aussi plongé dans de profondes réflexions sur la nature de l'inné et de l'acquis.

x[modifier]

AlphaGo Zero utilise cette même technique d'apprentissage par renforcement pour guider l'apprentissage global de son réseau en lui offrant une information de supervision. La version précédente, AlphaGo, utilisait en outre une expertise humaine sur la valeur des coups à jouer. Il est spectaculaire qu'AlphaGo Zero ait pu se passer de cette expertise tout en parvenant à un niveau de jeu encore meilleur. Si l'on conçoit l'intelligence comme le fait de choisir à chaque instant la meilleure action possible, alors l'apprentissage par renforcement semble être une manière naturelle de tenir compte de l'expérience passée. Cette forme d'apprentissage est à la base du dressage animal  : les récompenses (et parfois hélas les punitions) que l'on donne à l'animal l'amènent à biaiser ses actions dans le sens souhaité par l'humain. Une machine qui interagit avec l'environnement et perçoit les effets de ses actions peut de même évaluer ces effets et en tenir compte pour s'améliorer. Il est même possible d'imaginer, au moins sur le papier, une intelligence artificielle ultime qui calcule ses actions de manière parfaite en fonction de son expérience et de sa perception. Dans le cas où l'univers des possibles est circonscrit, comme pour le jeu de go, la machine peut s'autodresser en jouant contre elle-même.

x[modifier]

Cette idée d'autodressage, c'est-à-dire d'apprentissage par renforcement en circuit fermé, se prolonge dans les techniques d'apprentissage antagoniste. Dans le cas des réseaux de neurones, le système d'apprentissage antagoniste utilise un réseau pour détecter les faiblesses d'un autre réseau, si bien que le couple finit par apprendre plus efficacement.

x[modifier]

Découvrir le sens dans les textes[modifier]

x[modifier]

Il est impossible, dit-on, d'apprendre le chinois avec comme seule information sur cette langue un dictionnaire chinois-chinois. De même, les personnes sourdes reprochent aux entendants de croire naïvement que l'on peut apprendre la langue écrite tout simplement en s'aidant d'un dictionnaire . Peut-on acquérir le sens du mot « pomme » sans avoir jamais vu de pomme ? Peut-on comprendre le sens du mot « jaloux » sans être capable d'éprouver le sentiment correspondant ? L'intelligence artificielle se trouve largement confrontée à ce type de défi. Or il semble qu'elle parvienne en grande partie à contourner le problème. Depuis un peu plus d'une décennie, les ordinateurs ont accès à une quantité gigantesque de textes numérisés. La plupart des phrases contenues dans ces textes ont un sens. Est-ce qu'une machine qui ne sait rien au départ peut découvrir le sens des mots à force d'analyser les phrases qui les contiennent ? La réponse semble être : oui !

x[modifier]

Le secret de l'extraction du sens des mots réside dans leur cooccurrence. Si je regarde dans un moteur de recherche le nombre d'occurrences de « le drapeau noir » et « le drapeau blanc », j'obtiens des résultats comparables  : plus de cent mille occurrences dans chaque cas. C'est l'indication que les mots « noir » et « blanc » partagent un aspect de signification qui leur permet d'apparaître aussi souvent après le mot « drapeau ». Si l'on généralise la méthode et que l'on travaille sur une masse considérable de textes, on est capable de calculer une proximité de sens entre les mots. On peut même constituer une géométrie des significations dans laquelle chaque mot trouve une place à côté de ses synonymes, à proximité des mots dont le sens est proche comme « sombre » par rapport à « noir », pas trop loin des mots qui concernent les mêmes qualités comme « blanc » par rapport à « noir » et loin des mots qui n'ont rien à voir. Ces espaces géométriques de significations sont aussi appelés espaces de sémantique « latente ».

x[modifier]

Les techniques numériques qui extraient le sens des mots à partir de l'analyse statistique de nombreux textes produisent un « plongement lexical » ( word embedding ), c'est-à-dire une géométrisation du sens. Elles donnent déjà lieu à des applications spectaculaires. L'un des résultats les plus médiatisés est lié à la résolution d'analogies. Ainsi, un système qui a appris le sens des mots en réalisant des statistiques de cooccurrence sur les textes est capable de remarquer que la différence, au sens géométrique, entre les significations de « reine » et « femme » est à peu près égale à la différence entre les significations de « roi » et « homme ». Un tel système auquel on présente l'expression « roi » – « homme » + « femme » est capable de conclure « reine », ce qui tend à démontrer qu'il a correctement saisi le sens des mots .

x[modifier]

Du sens à la traduction, il n'y a en principe qu'un pas. Le plongement lexical laisse penser que le traducteur universel imaginé dans Star Trek pourrait être réalisé dans un avenir proche, à condition que la machine ait accès à des textes des deux langues (et que les cultures ne soient pas trop éloignées l'une de l'autre, autrement dit que les textes parlent en gros des mêmes situations, ce qui est à peu près vrai pour les langues terrestres). Les techniques de traduction automatique, même celles qui vont bien au-delà d'une traduction mot à mot, reposent sur l'emploi de dictionnaires. Or le plongement lexical permet de constituer un dictionnaire de manière entièrement automatisée. La technique consiste à aligner l'ensemble des sens des mots d'une langue avec l'ensemble des sens des mots de l'autre langue en les représentant comme des formes dans le même espace géométrique . Si les distances entre significations déduites des fréquences de voisinage dans les textes des deux langues sont les mêmes, alors les formes globales se ressembleront. Si l'on donne les distances entre les villes françaises à un ordinateur, il peut reconstruire une carte de France parfaitement reconnaissable. C'est le même principe qui est à l' œuvre ici avec les représentations géométriques des significations issues des deux langues. Rien ne garantit, toutefois, que ces deux ensembles de significations occupent les mêmes coordonnées. La technique consiste alors à faire « tourner » le premier ensemble pour tenter de le superposer globalement avec le second. Ce rapprochement global permet de s'assurer qu'on utilise le même type de coordonnées dans les deux représentations géométriques. Il s'agit ensuite de faire correspondre les mots entre eux. Pour cela, on commence par les mots les plus fréquents comme « femme » ou « manger », en supposant qu'ils sont également fréquents dans les deux langues et qu'ils ont des positions déjà proches, d'une langue à l'autre, dans les repères alignés des deux représentations géométriques. Puis on déforme localement les espaces géométriques afin que les mots fréquents localement proches finissent par coïncider. Ces déformations entraînent avec elles les autres mots, si bien que les mots les plus rares finissent par tomber à proximité immédiate de leur traduction. Ce type de technique de traduction à base de plongement lexical peut se révéler précieux, pas encore pour traduire des langues extraterrestres comme dans Star Trek, mais déjà pour traduire des couples de langues pour lesquelles on ne dispose pas de dictionnaire direct.

x[modifier]

Comment s'y prend-on pour passer d'une collection de textes à une représentation géométrique du sens des mots ? On part d'un espace de dimension gigantesque, une dimension par mot du vocabulaire. Chaque mot est un point, seul sur son axe. S'il y a 10 000 mots, il y a 10 000 axes. L'idée du plongement lexical consiste à projeter les mots dans un autre espace de dimension bien plus petite, mais respectable tout de même, comportant par exemple 100 axes indépendants. À la différence du premier espace de dimension 10 000 qui n'offre aucune mesure de similarité entre les mots, on souhaite que l'espace d'arrivée de dimension 100 soit géométrique, c'est-à-dire que les distances entre les mots soient représentatives des ressemblances de sens. Comment fait-on ? On peut faire intervenir la « magie » des réseaux de neurones. On va par exemple construire un réseau, grand mais simple, avec une seule couche cachée comportant 100 neurones . Ce réseau va apprendre, pour chaque mot présenté sur la couche d'entrée, à prédire les mots avec lesquels il apparaît souvent dans les textes. Ainsi, si l'expression « jus d'orange » est fréquente dans le corpus alors que « jus d'herbe » est rare, on fait évoluer les connexions pour que la présentation du mot « orange » en entrée active le mot « jus » en sortie alors que la présentation du mot « herbe » le laisse inactif. Pour les mêmes raisons, on modifie le poids des réseaux pour que le mot « pomme » prédise également « jus » en activant le neurone correspondant en sortie. C'est là que la magie opère. Pour effectuer ces prédictions correctement, le réseau est en quelque sorte obligé d'élaborer une représentation sémantique des mots, c'est-à-dire une représentation de leur sens. Le fait que les oranges et les pommes apparaissent dans des textes à proximité du mot « jus » est une indication que les concepts associés partagent certaines propriétés.

x[modifier]

Cela ne marche pas à tous les coups. Avec un autre de ses sens, le mot « pomme » va apparaître fréquemment associé à « douche » et le mot « orange », en tant que couleur, se retrouvera dans de nombreux contextes où « pomme » n'a pas sa place. Mais si le corpus de textes est assez grand, le plongement lexical sera capable de placer « pomme » et « orange » à proximité dans l'espace à 100 dimensions. Et comme il s'agit d'un espace géométrique, on peut réaliser des opérations comme « roi » – « homme » + « femme » = « reine », ou « Paris » – « France » + « Italie » = « Rome ». Ces techniques semblent empiéter sur un domaine, celui de la signification, qui est au c œur de l'intelligence humaine. Les méthodes symboliques s'étaient déjà attaquées à la représentation du sens, mais elles ne savaient rien qu'on ne leur eût dit de manière explicite. Cette fois, la machine ne nous a rien demandé. Elle s'est contentée d'avaler une masse de textes et en a déduit par elle-même une représentation du sens des mots. Même si cela fait des décennies que des chercheurs réalisent des traitements statistiques à base de corpus linguistiques, c'est seulement maintenant, grâce à la puissance accrue des machines, que les applications pour le traitement de la langue commencent à éclore.

x[modifier]

LES PROUESSES DE L'INTELLIGENCE ARTIFICIELLE NUMÉRIQUE Une intelligence capable d'évoluer[modifier]

x[modifier]

L'intelligence artificielle, notamment l'intelligence artificielle numérique dont il est question dans ce chapitre, réalise depuis peu tant de prouesses inattendues qu'il est permis de se demander jusqu'où cela va aller. Et puis on se rassure  : après tout, ce ne sont que des programmes, et les programmes ne peuvent effectuer que les opérations pour lesquelles ils ont été conçus. Et puis on s'inquiète à nouveau lorsqu'on apprend que les programmes, à l'image de la vie, peuvent évoluer selon un processus darwinien, par sélection naturelle : il suffit que plusieurs versions d'un même programme, variant par le jeu de mutations aléatoires, soient mises en compétition. La plupart des mutations conduisent à des programmes moins efficaces mais, de temps en temps, le hasard fait bien les choses et un programme nouveau apparaît, doté de performances que personne, pas même le programmeur, n'a prévues. Si l'informatique parvient ainsi à se dépasser elle-même, ne risque-t-elle pas de nous dépasser, nous ?

x[modifier]

J'ai toujours été fasciné par cette idée de reproduire l'évolution dans la machine. J'ai écrit un petit livre, dans lequel je compare l'évolution naturelle et l'évolution telle qu'on l'utilise en informatique dans ce qu'on appelle les « algorithmes génétiques ». J'y présente les algorithmes génétiques comme le couteau suisse de la résolution de problème, car ils sont capables de proposer des solutions pour des problèmes souvent mal posés. Ils ne sont pas toujours les plus efficaces, mais ils peuvent trouver les solutions par eux-mêmes, sans qu'on leur dise comment. C'est en partie la raison pour laquelle les algorithmes génétiques ont été appliqués dans de nombreux contextes. Ils sont largement utilisés en ingénierie, pour des problèmes aussi variés que le calcul de la meilleure forme des pales dans un turboréacteur, le positionnement optimal des antennes pour un réseau de détection, ou le sevrage optimal en oxygène pour les malades devant sortir de réanimation.

x[modifier]

L'idée qu'une IA puisse se dépasser elle-même à force d'évoluer fait un peu penser à l'idée qu'on puisse se soulever en tirant sur ses lacets de chaussures très fort vers le haut (en anglais, on tire sur ses bootstraps ). Dans le monde de l'informatique, on sait que ce n'est pas exclu. Il y a quelques décennies, les ordinateurs étaient incapables de démarrer seuls (on parle encore d'ailleurs (re) booter un ordinateur). Chaque instruction exécutée par un programme doit préalablement être chargée dans le processeur par une autre instruction. Question : comment faire pour exécuter la toute première instruction ? À l'époque, un opérateur humain devait actionner des interrupteurs pour entrer manuellement dans le processeur la première instruction à exécuter. Dans cette instruction se trouvait l'adresse d'un programme enregistré, ce qui permettait au système de décoller. Lorsque des circuits spécialisés permirent aux ordinateurs d'exécuter directement le programme de démarrage dès la mise sous tension, le phénomène parut magique. Les ordinateurs pourraient-ils de même élever leur niveau d'intelligence par eux-mêmes, sans aide extérieure, en évoluant au sens darwinien du terme ?

x[modifier]

La technique de base des algorithmes génétiques suppose une double intervention de leurs concepteurs. Ceux-ci doivent dans un premier temps trouver comment des solutions au problème qu'ils se sont donné peuvent être codées sous forme de suites de bits de taille fixe. Pour positionner des antennes, on peut par exemple mettre bout à bout leurs coordonnées sur le terrain, représentées sous forme binaire. Ces suites binaires sont l'analogue informatique de l'ADN des êtres vivants. D'ailleurs, les informaticiens spécialistes de ce domaine utilisent les mots ADN, chromosome, génome, individus pour parler des entités de leur programme. Le génome (ou l'ADN) d'une solution lui dit comment traiter le problème. La deuxième intervention du concepteur consiste à trouver un moyen d'évaluer les solutions. Dans le cas des antennes, les solutions seront évaluées d'après la qualité de la couverture de détection. Et voilà le programme prêt à évoluer. Il maintient en mémoire une population d'« individus » dont chacun voit son génome décodé sous la forme d'une solution au problème. Les meilleurs individus, ceux dont les solutions obtiennent les meilleures évaluations, sont sélectionnés pour la reproduction. Celle-ci fait intervenir l'hybridation des génomes ( crossover ) ainsi que des mutations aléatoires, si bien que la génération suivante ne ressemble pas exactement à la précédente. Avec un peu de chance, du fait de la sélection, elle contient des individus plus efficaces. Puis le cycle recommence jusqu'à ce que l'on obtienne des solutions jugées satisfaisantes.

x[modifier]

Cette technique des algorithmes génétiques donne des résultats spectaculaires dans certains domaines. Mais peut-elle faire mieux, peut-elle créer une intelligence supérieure ? C'est le rêve de certains chercheurs, notamment de John Koza qui fut pionnier dans le domaine de la « programmation génétique ». Koza a trouvé un moyen de coder davantage que des paramètres dans l'ADN des individus de l'algorithme génétique. Il y insère des programmes informatiques. L'opération ne va pas de soi. Si l'on représente des programmes sous forme binaire dans le génome des individus, la moindre mutation va casser le programme. Koza a donc redéfini les opérateurs de crossover et de mutation de telle manière qu'ils produisent le plus souvent des programmes qui restent capables de s'exécuter. Grâce à ce stratagème, il est parvenu à faire évoluer des programmes au point que ceux-ci ont réalisé de véritables inventions. L'évolution darwinienne des programmes a ainsi permis de redécouvrir des circuits électroniques qui avaient fait l'objet de brevets au début du xx siècle. Dans certains cas, les programmes ont évolué jusqu'à produire des inventions originales que Koza a pu breveter . Une technique voisine, la « programmation génétique cartésienne », se donne comme objectif de faire aussi bien que l'apprentissage profond. Elle y est déjà parvenue au moins dans un cas, la découverte de stratégies dans des jeux vidéo simples . Ce genre de technique pourrait ménager d'autres surprises.

x[modifier]

Que manque-t-il à une IA pour qu'elle évolue au-delà de ce que ses concepteurs peuvent imaginer ? Un système de programmation génétique à la Koza capable d'évoluer pour concevoir des filtres électroniques trouvera peut-être des solutions inédites, voire géniales, pour réaliser une opération de filtrage. Mais il ne fera jamais rien qui s'écarte de ce problème. La manière dont sont codées et interprétées les solutions ainsi que celle dont elles sont évaluées condamnent le système à fabriquer des filtres, rien que des filtres. Contrairement au vivant, un tel système ne peut innover qu'à l'intérieur d'un cadre strictement délimité. Quelle est la différence entre cette évolution artificielle et celle des êtres vivants pour laquelle nous ne savons pas assigner de limites ? J'ai abordé cette question avec deux collègues . Le génome des êtres vivants (à l'exception des virus) contient des instructions qui permettent indirectement à l'ADN de s'interpréter lui-même. Un peu comme une recette de cuisine qui comporterait non seulement les instructions pour réaliser un gâteau, mais contiendrait en plus les instructions pour réaliser le pâtissier chargé de faire le gâteau ! Sommes-nous proches de cette situation dans le cas de l'intelligence artificielle ? Il semble que non. Nous ne savons pas encore concevoir de mécanisme capable d'évoluer en dehors de limites étroites fixées au départ. Il ne s'agit pas tant d'imaginer des robots capables de construire matériellement des copies d'euxmêmes en utilisant des imprimantes 3D qu'ils seraient également capables de dupliquer . Même en restant strictement au niveau logiciel, l'éventail de ce qu'un programme peut faire, même s'il est capable d'évoluer pour mieux le faire, est toujours fixé à l'avance. Cela n'empêcherait pas ce type de programme d'acquérir un pouvoir considérable, en contrôlant par exemple les finances mondiales ou la manière de penser de communautés entières dans les réseaux sociaux. Mais cela ne suffit pas pour créer une intelligence incontrôlée.

x[modifier]

L'intelligence artificielle numérique se présente sous un jour impressionnant. Nous venons de passer en revue la technique des réseaux de neurones, celle de l'apprentissage profond avec notamment ses réseaux convolutifs, l'apprentissage par renforcement, le plongement lexical et les algorithmes génétiques. Chacune de ces techniques, indépendamment ou combinée aux autres, a démontré sa puissance. Le prochain chapitre explore la possibilité que cette puissance puisse aller au-delà de ce qui est souhaitable.

x[modifier]

---

1. L'étude a été publiée par Alex Krizhevsky, Ilya Sutskever et Geoffrey Hinton à la conférence NIPS 2012 (papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks).
2. AlphaGo a été conçu par une équipe au sein de la société DeepMind dirigée par Demis Hassabis. Son fonctionnement a été partiellement décrit par ses auteurs dans le numéro 7587 du 28 janvier 2016 de la revue Nature, avec David Silver comme premier signataire.
3. Le lancement du Human Brain Project a été rapporté dans le journal Le Monde daté du 20 mai 2011. Le financement décidé en 2013 se monte à plus de 1 milliard d'euros, dont la moitié est assurée par la Commission européenne. En juillet 2014, une lettre ouverte (www.neurofuture.eu) signée par 800 chercheurs dénonce, entre autres, le fait qu'une telle approche par synthèse fasse l'impasse sur la compréhension du cerveau humain offerte par les neurosciences.
4. Ramón y Cajal reçut le prix Nobel de physiologie ou médecine en 1906 pour la découverte de la discontinuité des neurones. Il mentionne la date de 1888 pour la découverte de la séparation des neurones à la page 9 de sa publication traduite en français (et relue par lui), Les Nouvelles Idées sur la structure du système nerveux chez l'homme et chez les vertébrés, parue à Paris en 1894 chez Reinwald.
5. Dans leur article de 1943 publié dans le numéro 5 du Bulletin of Mathematical Biophysics, Warren McCulloch et Walter Pitts proposent un modèle simplifié du neurone physiologique, qu'ils voient comme un moyen d'effectuer des calculs logiques.
6. Hebb propose son hypothèse dans le chapitre 4 de son livre The Organization of Behavior, publié en 1949 chez Wiley & Sons. Il reconnaît l'apport de Ramón y Cajal à la page 230 du même livre.
7. La connexion de neurones sur plusieurs couches est décrite et analysée par Frank Rosenblatt en 1961 dans le rapport technique 1196-0-8 du Cornell Aeronautical Lab Inc. à Buffalo.
8. Le chercheur qui m'a découragé de m'intéresser aux modèles neuronaux, P. L., a fait ensuite une belle carrière dans l'industrie biomédicale. Il a très probablement oublié notre interaction.
9. Les perceptrons à une seule couche (en plus de la couche d'entrée) séparent les objets linéairement. Dans une représentation géométrique, les objets doivent être de part et d'autre d'un hyperplan pour être correctement classés par un tel perceptron. C'est ce qu'on montré Marvin Minsky et Seymour Papert dans leur livre Perceptrons  :An Introduction to Computational Geometry, publié en 1969 par MIT Press. En conséquence, ces perceptrons sont incapables de résoudre des problèmes pourtant élémentaires comme déterminer la parité d'une suite de bits ou la connexité d'une forme.
10. Les réseaux dit de Hopfield et les machines de Boltzmann ont été présentés à Cognitiva en 1985, notamment par Geoffrey Hinton et Terry Sejnowski (il me semble me souvenir que John Hopfield était également présent).
11. Les cartes auto-organisatrices de Teuvo Kohonen classent des entités, par exemple les phonèmes d'une langue décrits par leurs fréquences, en les projetant sur une carte de faible dimension (deux ou trois) de manière à minimiser les distorsions de distance. Le fonctionnement du réseau consiste à augmenter, de proche en proche, la cohérence entre la distance entre les vecteurs de paramètres et la distance sur la carte.
12. Yann Le Cun, alors étudiant à l'ESIEE, présenta à Cognitiva l'une des toutes premières versions de l'algorithme de rétropropagation du gradient.
13. NETtalk analyse un texte par petits segments et tente chaque fois de prononcer la lettre située au centre du segment dans son contexte. Par exemple, pour prononcer la lettre « n » dans le mot anglais translate, NETtalk tient compte des lettres situées à gauche et à droite et tente d'associer la lettre « n » avec le phonème correct, ici /n/. Puis la fenêtre d'analyse glisse d'un cran vers la droite et le système verra cette fois la lettre « s » au centre. Le système parvenait ainsi à l'époque à identifier plus de 90 % des phonèmes correctement. Cette étude a été publiée en 1987 par Terry Sejnowski et Charles Rosenberg dans le numéro 1 de la revue Complex Systems .
14. Voir note 5 ci-dessus.
15. Voir note 178 ci-dessus.
16. J'ai eu connaissance de l'apprentissage profond à l'occasion du stage d'Y-Lan Boureau dans le laboratoire de Yann Le Cun. Son travail portait principalement sur l'utilisation des machines de Boltzmann restreintes.
17. Les premières couches d'un réseau profond sont généralement des autoencodeurs ou des machines de Boltzmann restreintes qui fonctionnent par apprentissage non supervisé. L'apprentissage consiste à extraire les caractéristiques qui permettent le mieux de reconstruire les données. Chaque couche est ainsi entraînée pour être capable d'offrir un « reflet » de la couche précédente. Évidemment, on veut absolument éviter l'effet photocopie, qui correspond à ce qu'on appelle le surapprentissage. En cas de surapprentissage d'images, un neurone va apprendre par c œur telle ou telle portion qui se trouve dans l'image numéro 14, un autre va se spécialiser dans la détection d'un motif de l'image numéro 17. Ce n'est pas ce que l'on veut. Grâce à des méthodes d'échantillonnage et à l'introduction de l'aléatoire, on force la couche en train d'apprendre à s'intéresser à des caractéristiques moins contingentes et donc bien plus pertinentes, comme la présence d'une tache ou d'un élément de bord. La couche détecte ces éléments parce qu'ils sont fréquents dans l'ensemble des images et non parce qu'ils distinguent telle image de toutes les autres. Cette phase d'apprentissage est bien de type non supervisé, puisque aucune information concernant ce que l'on souhaite repérer – chat, chien, camion ou voiture – n'est utilisée à ce stade.
18. Voir note 178 du chapitre 2.
19. D'autres techniques, comme le saut de couches ( skip connections ou short-cuts ), diminuent les effets de l'évanouissement du gradient en permettant au réseau de différencier progressivement ses couches plutôt que de démarrer à partir de couches totalement disparates.
20. Voir note 178 du chapitre 2.
21. Voir note 178 du chapitre 2.
22. Les déclarations de Lee Sedol et les commentaires sur le jeu sont extraits du documentaire réalisé par Greg Kohs et Cindy Lee sorti en septembre 2017.
23. L'équipe de Demis Hassabis publie ce résultat dans la revue Nature, dans le numéro 7676 du 19 octobre 2017, avec David Silver comme premier signataire.
24. Gilles Zémor m'a alerté au début des années 2000 sur l'importance des méthodes de Monte-Carlo pour automatiser ce jeu.
25. AlphaGo Zero utilise des réseaux profonds à résidus, une technique qui permet un apprentissage efficace dans des réseaux plus profonds en permettant aux couches empilées de mieux conserver l'information contenue dans les couches situées en amont. AlphaGo Zero simplifie aussi l'architecture de son prédécesseur en n'utilisant qu'un seul réseau de neurones (au lieu de deux) pour estimer à la fois la valeur d'une situation de jeu et les probabilités d'action à partir de cette situation.
26. Marcus Hutter a défini un système parfaitement intelligent au sens où il effectue les meilleures actions possibles compte tenu des actions passées et de leurs effets observés. Son système, AIXI, n'existe dans sa version pure que sur le papier. Il repose sur l'idée d'estimer la probabilité des récompenses issues de ses actions futures en privilégiant les hypothèses les plus simples capables d'extrapoler le passé. Hutter expose ses idées dans un livre, Universal Artificial Intelligence, publié en 2005 chez Springer.
27. Christian Cuxac m'a raconté que les personnes sourdes avaient l'impression que les entendants ne se séparaient jamais de leur dictionnaire, tant leur insistance sur son utilisation était systématique.
28. L'une des études notables permettant d'effectuer des analogies par plongement lexical ( word embedding ) a été publiée par Tomas Mikolov et ses collègues en 2013, à la conférence NAC-ACL. D'autres techniques numériques exploitant des dictionnaires de synonymes avaient déjà permis de représenter le sens des mots dans un espace géométrique, par exemple le travail de Fabienne Venant et Bernard Victorri publié en 2007 dans le numéro 1 de la revue Le Français moderne . Avec le plongement lexical, l'expertise humaine contenue dans le dictionnaire de synonymes n'est plus nécessaire.
29. L'article de Guillaume Lample et ses collègues, « Word translation without parallel data », publié à l'occasion des comptes rendus de la conférence ICLR 2018, montre comment cette technique peut être utilisée pour traduire.
30. Le fonctionnement décrit ici correspond à la technique word2vec avec skipgram, utilisée dans l'étude de Tomas Mikolov mentionnée dans la note 180 du chapitre 2.
31. Les opérations qui réalisent des analogies à partir d'un plongement lexical ont des limites, explorées notamment par Thomas Griffiths et ses collègues dans un article des comptes rendus de la conférence CogSci 2017, p. 1746.
32. L'Ordinateur génétique a été publié chez Hermès Science en 1996.
33. Voir www.genetic-programming.com/patents.html pour une liste de brevets obtenus par programmation génétique.
34. Une étude de Julian Miller et de ses collègues de l'Institut de recherche en informatique de Toulouse publiée sur arXiv.org (1806.05695) en 2018 montre comment la technique de programmation génétique cartésienne parvient à apprendre des stratégies pour jouer mieux que les humains et mieux que les réseaux de neurones à des jeux vidéo classiques comme Space Invaders .
35. Dans Le Fil de la vie, publié par Odile Jacob en 2016, nous proposons, Cédric Gaucherel, Pierre-Henri Gouyon et moi, de décrire le fonctionnement de la vie non pas en regardant simplement ce qu'elle nous offre de plus immédiat, les êtres qui la peuplent, mais sous l'angle de l'information qui se propage à travers le temps et les générations. Cette description informationnelle de la vie révèle une autre logique du vivant, différente de celle à laquelle nous sommes habitués.
36. John von Neumann est l'un des premiers, dans les années 1940, à avoir théorisé la possibilité d'automates matériels autoréplicateurs, à l'occasion d'exposés repris par Arthur Burks dans un livre publié en 1966 par University of Illinois Press.

x[modifier]

CHAPITRE 3 Dangers réels et dangers fantasmés[modifier]

L'intelligence artificielle est là. Elle exerce déjà un pouvoir significatif sur nos vies, sans que nous en ayons toujours conscience. Ce pouvoir devrait considérablement augmenter dans les prochaines années par la simple généralisation des techniques actuelles, et cela s'accompagnera inévitablement d'une mise en danger de notre mode de vie. Les prédictions alarmistes et infondées concernant des menaces potentielles extrêmes liées à l'IA risquent de masquer des dangers bien plus immédiats et bien plus probables. Le fait de critiquer ces prédictions extrêmes en essayant de ramener l'IA actuelle à ses justes proportions ne saurait être l'indication d'un manque de lucidité. Les techniques actuelles sont suffisantes pour produire du mieux comme du pire, beaucoup de mieux comme beaucoup de pire.

x[modifier]

Parler sans comprendre[modifier]

Le 23 mars 2016, l'entreprise Microsoft permet à son programme prénommé Tay de discuter à visage découvert sur le réseau social Twitter. La capacité conversationnelle de Tay a été conçue pour intéresser des Nord-Américains âgés de 18 à 24 ans. Sa force réside dans sa capacité d'analyser et de produire des messages dans le style de ceux des jeunes adultes présents sur le réseau à cette période. Comme pour la plupart des agents conversationnels, l'« intelligence » de Tay se nourrit des paroles précédemment échangées. Certains utilisateurs facétieux de Twitter ont immédiatement compris l'avantage qu'ils pouvaient retirer de ce mode de fonctionnement. Ils ont abreuvé Tay de quantité de contenus conçus pour choquer, espérant que Tay les imiterait, ce qui n'a pas manqué de se produire. À la question de savoir si Ricky Gervais (humoriste connu pour tourner en ridicule certains aspects de la religion) était athée, Tay finit par répondre que Ricky Gervais « avait appris le totalitarisme d'Adolf Hitler, l'inventeur de l'athéisme ». Les créateurs de Tay se sont empressés de la retirer du réseau et de faire disparaître ses tweets. Est-ce que Tay « pense » ce qu'elle dit ? Non, bien sûr. Elle a une compréhension extrêmement limitée de ce qu'elle lit et écrit. Son comportement rappelle celui d'Eliza, le tout premier agent conversationnel réalisé en 1965 par Joseph Weizenbaum dont une version aurait déclaré : « Désolée, je ne comprends pas le sens du mot “désolé ”. » Eliza se contentait pour l'essentiel de renvoyer les déclarations des utilisateurs sous forme d'interrogations :
– Pourquoi vous sentez-vous fatigué ces jours-ci ?
Eliza était en outre capable de repérer quelques mots comme père, mère ou s œur et pouvait réagir en disant :
– Parlez-moi encore de votre famille.
Il suffit de quelques dizaines de minutes pour réécrire le programme Eliza dans un langage comme Prolog. La compréhension du langage par Eliza se limite au lien entre « s œur » et « famille », et d'autres connaissances du même type. Elle ne sait pas ce qu'est une famille, ni même qu'une s œur est le membre d'une famille. Les agents conversationnels actuels, même s'ils sont considérablement plus sophistiqués, restent dans leur grande majorité des extensions d'Eliza. Ils sont sophistiqués pour tout ce qui concerne la production linguistique, la compréhension et l'expression des émotions sous forme verbale, voire visuelle lorsqu'ils habitent des personnages animés. Un pays a même jugé possible d'octroyer la citoyenneté à l'un d'eux, chose normalement réservée aux seuls êtres humains. Ces agents sont très attachants, mais sont-ils sensés ? L'exemple de Tay semble montrer que non, malgré le savoir-faire et les efforts de l'équipe qui l'a développée.
Des agents conversationnels plus sensés que Tay existent. Nous avons déjà mentionné les capacités du système Watson. Ils ne sont cependant pas capables de parler de tout. Pour réagir à propos de n'importe quel sujet, un agent conversationnel généraliste n'a pas d'autre solution que de fouiller les interactions passées dans l'espoir d'y trouver quelque chose de pertinent à dire. Lorsque Tay qualifie Hitler d'« inventeur de l'athéisme », sa description ne sort pas de nulle part. Elle l'a extraite sans la comprendre d'un autre tweet, peut-être après un traitement linguistique permettant de passer du verbe « inventer » au mot « inventeur ». Ce type d'agent conversationnel, comme Eliza en son temps, prend des risques considérables pour donner l'illusion de la pertinence. Certains des utilisateurs qui se trouvaient sur le réseau le 23 mars 2016 l'ont compris et en ont profité pour démasquer Tay.
Avant même de se demander si Tay nous rapproche ou nous éloigne de la véritable intelligence artificielle, on peut s'inquiéter du pouvoir de ces agents conversationnels sur les réseaux sociaux. En se faisant passer pour des utilisateurs normaux (ce qui n'était pas le cas de Tay), ces agents peuvent contribuer à propager des tweets. Comme ils sont rapides, infatigables et qu'ils peuvent se multiplier, ils peuvent influencer l'opinion. Le problème est devenu manifeste avec les soupçons de manipulation lors de l'élection présidentielle de 2016 aux États-Unis. Certains réseaux sociaux s'en émeuvent et promettent de protéger le public contre la désinformation par les robots conversationnels, qui sont cependant difficiles à détecter. D'une certaine manière, ils passent sans problème, tout au moins dans sa version Twitter, le test du jeu de l'imitation imaginé par Turing. Même lorsqu'ils sont repérés et bloqués, le mal est souvent déjà fait, étant donné la rapidité avec laquelle les messages sont propagés par les utilisateurs.

x[modifier]

L'enfermement dans le stéréotype[modifier]

On peut reprocher aux agents conversationnels comme Tay de ne rien produire d'original, de simplement faire du neuf avec du vieux. Le même reproche peut être adressé bien plus largement à de nombreux autres systèmes d'intelligence artificielle. De par leur essence même, les systèmes numériques d'apprentissage artificiel, dont bien sûr les réseaux de neurones, sont des moyens élaborés d'extrapoler à partir de données connues. Quoi de plus normal que de fonder nos connaissances et nos décisions sur une évaluation de l'existant ? L'utilisation de l'intelligence artificielle permet de pousser cette logique à l'extrême. Et cet extrême peut conduire à des décisions aussi irrationnelles que celles qui ne tiendraient aucun compte des données et des faits.
En février 2013, dans le comté de Barron, dans le Wisconsin, Paul Zilly est jugé pour avoir volé une tondeuse à gazon et quelques outils de jardin. Le procureur demande un an d'incarcération suivi d'une mise à l'épreuve. L'avocat de Zilly accepte un accord sur cette base. Le juge consulte alors en séance un logiciel intelligent couramment utilisé comme aide à la décision judiciaire. Le logiciel indique notamment le risque que l'accusé commette des crimes violents dans le futur. Le juge déclare : « Lorsque je regarde l'évaluation du risque, c'est quasiment ce qu'il peut y avoir de plus mauvais », puis décide de passer outre l'accord passé par le procureur en condamnant Paul Zilly à deux ans de prison ferme .
Ce faisant, le juge révèle de manière explicite que sa décision est influencée par un programme informatique. Est-ce une mauvaise chose ? Après tout, les médecins utilisent couramment les données statistiques pour prendre des décisions thérapeutiques graves. L'utilisation de logiciels d'aide à la décision juridique est présentée comme un moyen d'informer la décision du juge et d'homogénéiser la justice sur le territoire. Alors pourquoi ressent-on une gêne dans le cas Zilly ?
L'enquête de Julia Angwin et de ses collègues montre que le logiciel qu'ils ont analysé surestime de 77 % le risque futur de commettre un crime avec violence chez les personnes à la peau noire aux États-Unis. Le logiciel commet des erreurs de prédiction, et c'est normal puisqu'il évalue un risque. Ce qui est moins normal, c'est que ces erreurs présentent un biais pour des facteurs non pertinents comme la couleur de la peau. L'erreur consistant à prédire une récidive qui ne se produit pas est de 24 % pour les individus à la peau « blanche » et de 45 % s'ils sont « africains-américains ». Inversement, 48 % des individus « blancs » classés comme ayant un risque faible ont récidivé, contre 28 % pour ceux qui ne sont pas « blancs ». Pourtant, parmi les 137 questions posées aux accusés sur lesquelles le logiciel fonde ses estimations de récidive, aucune ne porte sur la notion de « race » (bien qu'il s'agisse d'une notion officielle aux États-Unis). Bien évidemment, certaines questions sont corrélées à la couleur de la peau, comme la localisation du domicile ou le fait d'avoir un emploi, d'avoir un parent qui a été condamné, d'avoir un ami qui a consommé des drogues illégales. Il est vrai que si vous habitez dans un quartier pauvre, que vous êtes au chômage, que votre père a fait de la prison et que vous avez des amis drogués, vous êtes un récidiviste tout désigné ; mais c'est moins vrai si vous avez la peau noire aux États-Unis, car tous ces facteurs se retrouvent corrélés entre eux, et ils ne constituent plus des déterminants indépendants. Certains logiciels largement utilisés comme aide à la décision juridique semblent incapables de démêler les corrélations entre elles.
Les systèmes d'apprentissage automatique n'inventent pas le biais qu'on observe dans leur fonctionnement. Ce biais est déjà présent dans les données qu'ils analysent. Par exemple, un système de plongement lexical auquel on demande de compléter le schéma « informaticien » – « homme » + « femme » produit « femme au foyer ». Ce type de biais reflète des corrélations qui sont présentes dans les textes. Est-ce que l'entièreté de la faute est à imputer aux données ? Autrement dit, les ingénieurs feraient leur travail, et si les résultats sont biaisés, racistes, sexistes, la faute en incomberait à la société, à nous tous qui fabriquons au quotidien des données biaisées, racistes, sexistes ! C'est un peu facile. Quel que soit l'éventail des paramètres que l'on choisit pour décrire une réalité, il y aura toujours des corrélations parasites. Il serait plutôt naïf de croire qu'on va « réparer » les données en demandant aux Nord-Américains à la peau noire d'habiter ailleurs que dans les quartiers économiquement défavorisés. Les humains, lorsqu'ils réfléchissent un peu, sont capables, au moins dans une certaine mesure, de démêler les corrélations, de comprendre que des déterminants comme la couleur de peau, le quartier d'habitation et le statut économique ne sont pas toujours indépendants. Ou de comprendre un principe simple comme la symétrie femme-homme. Les systèmes d'IA numérique, que ce soient les systèmes de prévision en matière judiciaire ou les systèmes de plongement lexical, sont incapables, par construction, de faire cela. Ce sont bien leurs limitations qui les rendent racistes ou sexistes. Il ne sert à rien de renvoyer la faute sur les données. Il existe des moyens numériques pour corriger en partie les biais de ces systèmes de décision après coup. On peut ainsi biaiser les décisions du système à l'envers pour imposer des symétries selon la couleur de peau, selon le genre, selon l'âge, selon le métier, mais on peut démontrer que ces corrections a posteriori entraînent une augmentation générale des erreurs dans les prédictions ou les décisions . Autrement dit, réparer un préjudice pour les uns revient inévitablement à introduire un nouveau préjudice pour les autres. Ce n'est pas une malédiction. Il s'agit simplement d'un problème inhérent à l'apprentissage numérique, qui est incapable de voir chaque cas comme un cas particulier.
Les systèmes numériques d'apprentissage automatique sont conçus pour construire des stéréotypes en exploitant des milliers, parfois des millions, de données. C'est ce qui fait leur force  : ils extraient les caractéristiques qui se répètent tout en laissant de côté les caractéristiques rares, variables, contingentes. C'est ainsi qu'ils peuvent catégoriser efficacement. Non seulement ces systèmes reposent sur la constitution de stéréotypes, mais de plus leurs décisions sont calculées pour maximiser la conformité à ces stéréotypes. Autrement dit, de tels systèmes sont conçus pour être maximalement conservateurs. Ils sont par construction incapables de repérer la différence et la nouveauté. Si, par chance, votre cas est standard, il est probable que la décision du système vous concernant sera juste. Si vous présentez une combinaison de caractéristiques rare, le système n'aura pas de base statistique suffisante et risque de prendre une mauvaise décision. De toute façon, le système ne vous voit qu'à travers le prisme des données vous concernant. Il est aveugle à ce qui fait de votre situation un cas unique qui n'entre dans aucun stéréotype.
Peut-on imaginer que ces systèmes automatisés puissent être améliorés et qu'un jour les décisions en matière judiciaire puissent être entièrement confiées à un programme d'apprentissage automatique ? Répondre à une telle question suppose de distinguer la phase d'estimation du risque, comme le risque de récidive ou de crime violent futur, et la phase de décision. L'estimation du risque revient à transformer une corrélation en probabilité, puis une probabilité en causalité. Le profil de ce garçon entre dans une classe d'individus que le logiciel a construite ; appartenir à cette classe est corrélé au fait de commettre un crime ; ce garçon a donc une probabilité plus grande de commettre un crime ; donc ce garçon va probablement commettre un crime dans le futur. La méthode offre toutes les garanties de l'efficacité : on observe bien après coup une corrélation entre les prévisions d'un tel système et
les crimes observés. On aurait donc tort de se priver des prévisions d'un tel système ? Dans son principe, la justice est censée s'intéresser à l'accusé en tant qu'individu, pas en tant que représentant d'une catégorie d'individus. Un juge peut déceler des caractéristiques rares ou uniques chez un individu, comme le fait d'avoir appartenu à tel gang bien particulier ou d'avoir reçu un prix dans une école d'art, et en tenir compte dans son estimation du risque. Les systèmes d'apprentissage automatique sont conçus pour au contraire ignorer les caractéristiques rares ou uniques, soit parce qu'elles ne font pas partie des variables d'entrée, soit parce que leurs occurrences sont trop rares pour être repérées statistiquement. Que vous soyez justiciable, patient, emprunteur, demandeur d'emploi, internaute ou client, les systèmes d'apprentissage automatique de type numérique ne vous voient pas tel que vous êtes, malgré toutes les données dont ils disposent sur vous. Ils ne voient en vous que le représentant d'un stéréotype. Les informations qui rendent votre profil unique existent le plus souvent dans les données recueillies, mais ces systèmes ne savent pas les voir.

x[modifier]

Enfermés dans des bulles[modifier]

Au cours d'un récent voyage en France, j'ai rencontré trois personnes, dans trois endroits différents, qui pensent que l'être humain n'a jamais posé le pied sur la Lune. Je savais que de telles personnes existaient, mais je pensais qu'elles étaient si rares que je n'avais aucune chance de les croiser. Cette petite aventure m'a ouvert les yeux sur les autres, et aussi sur moi-même. J'ai compris que ces gens vivaient dans des bulles informationnelles. J'ai compris que c'était aussi mon cas. Les personnes que je côtoie sont souvent des collègues, ou alors des personnes qui ont fait le même type d'études que moi, qui lisent les mêmes journaux que moi ou qui échangent des messages avec des gens comme moi. Chacun peut prendre conscience de ce fait. L'erreur que l'on fait couramment, et que j'ai faite, est de croire que les gens qui côtoient les gens que je côtoie et ceux qui côtoient ceux-là finissent par représenter tout le monde. Le raisonnement fonctionne si je considère les gens à qui j'ai serré la main une fois dans ma vie, qui ont serré la main à d'autres, et ainsi de suite. Ou les gens que je tutoie, les gens qui sont tutoyés par les gens que je tutoie, et ainsi de suite. Mais le raisonnement ne fonctionne pas pour ce qui concerne le partage des connaissances.
On pourrait penser que l'avènement des moteurs de recherche, de Wikipédia, du partage de l'information sur les réseaux sociaux et surtout des systèmes de recommandation intelligents conduira inévitablement au décloisonnement des communautés de pensée. En étant confrontés à d'autres opinions, nous serions amenés à questionner les nôtres et à les faire converger. Or c'est tout le contraire qui risque de se produire. Les systèmes de recommandation ne sont pas optimisés pour nous faire découvrir ce que nous ne savons pas. Ils sont optimisés pour garder l'attention des utilisateurs sur leurs pages en orientant leurs clics, de manière à pouvoir leur proposer des publicités. Aussitôt un article affiché, une vidéo visionnée ou une recherche effectuée, quantité de suggestions bienveillantes tentent d'attirer notre prochain clic. Tout système qui affiche du contenu sur la Toile est engagé dans une lutte, la lutte pour le clic. Une fois que l'utilisateur a atterri sur l'une des pages d'un service, il s'agit de ne plus le laisser repartir. Telles de petites araignées, ces systèmes de recommandation tentent de nous agripper en tissant des liens qui nous ramènent sur leur petite région de la Toile. Les systèmes qui n'entrent pas suffisamment dans cette compétition pour le clic sont vite remplacés par ceux qui y excellent. Les plus efficaces sont visibles et économiquement viables ; quant aux moins efficaces, personne ne les connaît.
Dans la lutte pour le clic, la meilleure stratégie est de plaire à l'utilisateur. Pour cela, il faut bien le connaître afin d'anticiper ses intérêts. Les systèmes développés pour la Toile sont maîtres en la matière. Grâce aux fameux « témoins » ( cookies ), ces informations d'identification que les sites Web ont le droit de stocker dans nos navigateurs, grâce aussi aux abonnements et parfois à des logiciels espions installés illégalement dans nos machines, les sites obtiennent des informations précises sur ce qui nous intéresse, essentiellement à travers nos clics passés. Ils savent qui nous sommes et à qui nous ressemblons. L'apprentissage artificiel leur permet de classer nos habitudes de navigation dans un grand espace géométrique, un peu comme on classe les mots de la langue. Deux individus qui sont représentés par des points proches dans cet espace auront des comportements similaires. Ce qui a plu à l'un plaira probablement à l'autre. C'est sur ce principe que repose pour l'essentiel la recommandation. En tant que navigateurs sur la Toile, nous avons tous des sosies comportementaux. Le fonctionnement des systèmes de recommandation consiste à donner la même nourriture aux sosies pour être certain qu'ils l'apprécieront.
Les internautes sont-ils à ce point des moutons ? Bien sûr, chacun d'entre nous est capable de dire, dans un contexte donné, ce qui va l'intéresser. Nous arrivons donc sur un site avec nos goûts, notre curiosité du moment, et surtout les contraintes cognitives qui nous caractérisent en tant qu'êtres humains. Parmi ces contraintes, il en est deux qui semblent contradictoires  : la continuité thématique et la surprise. D'un côté nous avons des réticences à sauter du coq à l'âne, et de l'autre nous nous ennuyons si nous ne sommes pas surpris. Les systèmes de recommandation l'ont bien compris. Leurs suggestions tiennent compte du contexte. Par chance (de leur point de vue), ils sont capables de représenter également les contenus dans un espace géométrique. Si j'ai cliqué sur un contenu, il est habile de me proposer des contenus qui sont thématiquement proches dans cet espace. Et comme le système peut représenter les internautes qu'il connaît et les contenus que ceux-ci consultent dans le même espace géométrique, le système peut jongler entre les ressemblances. Ses suggestions iront directement de contenu à contenu, ou de personne à contenu, ou indirectement de contenu à contenu en passant par une personne qui nous ressemble, « internautiquement » parlant.
Un tel système engendre inévitablement des bulles informationnelles. Chacun se retrouve enfermé avec les personnes qui lui ressemblent dans un ghetto où il n'a accès qu'aux informations que le système veut bien lui présenter. Ceux qui pensent que la Lune n'a jamais été visitée, qu'il s'agit d'une mise en scène de la NASA, verront des contenus illustrant d'autres mystifications du même type, ce qui les confortera dans leurs croyances. Il s'agit d'un double piège, qui ne peut que se refermer. Les individus qui se ressemblent un peu au départ voient les mêmes informations, si bien qu'ils se mettent à se ressembler encore davantage. Le système perçoit ces ressemblances accrues et propose des contenus de plus en plus adaptés à ce groupe. La Toile finit par ressembler à un océan où des groupes vivent sur des îlots séparés, persuadés d'être au centre d'un grand continent informationnel. Chacun a l'illusion que ce qui apparaît sur son écran est représentatif de ce que la Toile a à offrir, sans pouvoir imaginer que ce qu'il voit est son propre reflet, en termes d'information. En disant cela, je ne prétends pas être immunisé contre cette illusion. Comme tout le monde, je suis enfermé dans une bulle informationnelle qui m'a fait penser jusqu'à récemment que la quasi-totalité des personnes, comme moi, ne mettaient pas en doute le fait que l'humanité a visité la Lune.
Il reste le facteur surprise. On peut rétorquer que les systèmes de recommandation cherchent à susciter notre intérêt et que le meilleur moyen pour cela est de nous proposer des contenus nouveaux, différents, qui vont nous surprendre. Ces contenus surprenants seraient comme autant de ponts reliant les bulles informationnelles entre elles. Cela ne se passe pas ainsi. Qu'il s'agisse de nos croyances, de nos connaissances ou de nos opinions, nous fonctionnons comme pour nos goûts musicaux  : nous ne sommes surpris que par ce que nous connaissons déjà presque totalement . Je me souviens de m'être figé dans une rue de Prague en entendant ce qui se révéla être le « Kyrie » de la Litanie des saints de Jan Dismas Zelenka, émis par des haut-parleurs qu'un disquaire avait habilement placés à l'extérieur de sa boutique. C'était beau comme du Bach, mais ce n'était pas du Bach. Ma surprise fut grande. C'est ce jour-là que j'ai découvert la musique de Zelenka. Bien que mes goûts en matière de musique, tout comme mes centres d'intérêt, soient multiples, ce ne sont que des isolats dans un océan de possibles. Nous ne sommes réceptifs qu'à certaines surprises qui nous permettent seulement de faire du cabotage autour de notre petite île. Les systèmes de recommandation tentent de suivre cette injonction attribuée à Jean Vilar, à propos du théâtre populaire  : « Il faut avoir l'audace et l'opiniâtreté de présenter au spectateur ce qu'il ne sait pas qu'il désire », mais le vent nouveau des recommandations ne permet aux plus aventureux d'entre nous que de découvrir un petit archipel autour des préférences que nous nous sommes forgées, sans nous permettre de naviguer vraiment au large.
Il ne s'agit pas de dire que nous sommes manipulés. Nous sommes les victimes consentantes d'un tel système. Les mécanismes de recommandation ne font que s'adapter de manière quasiment parfaite à nos penchants naturels pour la conformité. Nous obtenons ce que nous méritons. Qu'il s'agisse de nos goûts musicaux, de nos croyances, de nos opinions ou du genre d'amis que nous avons, nous restons prisonniers d'horizons qui se referment sur nous à mesure qu'ils deviennent plus cohérents. Cette cohérence vient d'ailleurs avec son lot de biais. Si vous indiquez dans votre profil que vous êtes une femme, ou si vous laissez votre moteur de recherche le deviner, vous recevrez parmi les publicités des offres pour des emplois moins bien payés que si vous indiquez que vous êtes un homme. Ainsi, hommes et femmes qui vivent sous un même toit finissent par vivre dans des univers virtuels disjoints.
L'interaction sur les réseaux sociaux amplifie considérablement le phénomène de bulle informationnelle. Dans la « vraie » vie, surtout dans les petites villes, nous interagissons avec des gens différents de nous qui se trouvent être nos voisins. Nous sommes donc exposés à la différence. La contrainte géographique étant quasiment absente sur les réseaux sociaux, nous finissons par choisir des amis qui se trouvent être exactement comme nous. Le phénomène n'est certainement pas nouveau. On sait que les individus se groupent spontanément par âge, par niveau catégorie professionnelle, par sexe, par statut marital et par niveau d'études . Qui se ressemble s'assemble. Nous n'avons pas attendu Internet pour former des bulles sociales, mais le phénomène s'exacerbe avec les amitiés virtuelles. Nos rencontres y sont calculées par les logiciels intelligents de recommandation et elles ne sont en rien fortuites.
L'émergence de la Toile nous a permis de rêver d'un monde décloisonné, dans lequel tout le monde pouvait avoir accès à tout. Il fut un temps où le savoir était réservé à une infime minorité, ceux qui savaient lire, qui avaient la chance d'étudier, qui avaient accès aux bibliothèques. Le Web a fait exploser ces barrières. Chacun a accès à tout sans sortir de chez soi. C'est une révolution que l'on compare volontiers à celle de l'imprimerie pour son importance. Malheureusement, tout cela n'est qu'illusion, et l'illusion va aller croissant avec le développement des systèmes de recommandation intelligents. Toute personne qui possède une page mentionnant son nom sur la Toile, et la trouve en utilisant un moteur de recherche, a facilement l'illusion que le monde entier la voit. Or le monde entier a bien d'autres choses à regarder. Un moteur de recherche indexe des centaines, voire des milliers de milliards de pages. Certaines de ces pages capteront l'attention de millions de gens, mais l'immense majorité ne seront vues que par quelques rares internautes. Même chose pour les vidéos. Cette séparation entre popularité et anonymat est amplifiée par les moteurs de recherche et les logiciels de recommandation : plus le contenu est populaire, plus ils le recommandent, au détriment bien sûr des autres contenus qui s'enfoncent encore plus dans l'invisibilité. La métaphore du surf est fidèle sur ce point : en surfant sur Internet, nous n'effleurons qu'un peu de l'écume au sommet de quelques vagues sur un océan opaque. Plus l'océan est vaste, plus les systèmes de recommandation ont tendance à nous ramener sur le rivage de notre petite île informationnelle loin de laquelle nous sommes objectivement perdus.

x[modifier]

Contrefaçons[modifier]

Comment puis-je être certain que l'humanité a posé le pied sur la Lune ? Je ne le peux pas. Rien ne peut être prouvé, en aucune matière et en aucune manière. Il se pourrait que vous ayez été créé il y a dix minutes avec vos souvenirs et, même cela, vous ne pouvez démontrer que c'est faux. La seule chose qui peut être faite, c'est de hiérarchiser les croyances. Vous pensez que vous étiez déjà là il y a onze minutes, car cette hypothèse est bien plus simple que toutes les hypothèses que vous devriez introduire pour rendre crédible le fait d'avoir été créé il y a dix minutes (l'entité qui vous aurait créé, le moyen pour ce faire, son but, la raison qui fait que personne ne le remarque, etc.). En ce qui concerne le fait d'être allé sur la Lune, j'ai vécu l'événement, quoique je n'en aie qu'un souvenir vague. Pour croire que l'événement ne s'est pas produit, il me faut imaginer quantité d'hypothèses qui sont plus difficiles à croire que le fait lui-même. Il faudrait imaginer une conspiration impliquant des milliers de personnes sans qu'aucune ait trahi le secret ; il faudrait imaginer que ceux qui avaient ou ont le plus intérêt à dénoncer la fraude – le gouvernement soviétique à l'époque de la guerre froide ou le gouvernement chinois de nos jours après sa cartographie détaillée de la Lune en octobre 2010 – auraient omis de le faire ; et ainsi de suite. Et nous avons quantité de documents de l'époque, avec notamment ces images magnifiques de la gigantesque fusée Saturne V en train de décoller (110 mètres de haut, 3 000 tonnes, deux fois plus lourde et treize fois plus chère qu'un lanceur comme la Falcon Heavy.)
Et si toutes les images, toutes les vidéos, tous les documents relatifs au voyage sur la Lune étaient des faux ? Je l'exclus, bien sûr, comme une éventualité qui m'apparaît irréaliste. Mais le temps viendra où des programmes intelligents pourront créer pour un coût très faible de tels documents  : des vidéos, des pages sur la Toile et des interviews de personnes célèbres, le tout formant un ensemble cohérent. Dans le petit récit futuriste qui décrivait une journée typique de sa vie d'étudiante, Lisa demande à son assistant de créer une réalité alternative d'après ce qu'elle a vécu dans la journée. Des systèmes créés en ce moment laissent entrevoir qu'il sera parfaitement possible de calculer une telle fiction et de la présenter sous forme de film. On peut déjà utiliser des réseaux profonds, non seulement pour reconnaître des images, mais aussi pour synthétiser des images réalistes. Pour entraîner de tels réseaux dits « génératifs », il faut leur fournir un signal pour leur dire s'ils se rapprochent ou non d'une image acceptable. Comme il est hors de question de le faire par une intervention humaine, les chercheurs ont eu l'idée d'utiliser un deuxième réseau qui, lui, est entraîné à reconnaître un jeu d'images naturelles. Non seulement ce deuxième réseau permet au réseau génératif d'apprendre, mais cela marche également dans l'autre sens. Le réseau entraîné sur les images réelles apprend à discriminer les images originales des images synthétisées ; pendant ce temps, le réseau génératif apprend à tromper le réseau discriminant. Cette technique de type ping-pong utilisant des réseaux antagonistes fait merveille. Les deux réseaux coapprennent par émulation, jusqu'à ce que le réseau discriminant n'y voie que du feu. Grâce à cette méthode, on parvient à synthétiser des images dont le réalisme est saisissant.
Les réseaux génératifs apprennent à représenter les images dans un espace géométrique dont les points sont présentés en entrée du réseau. Chaque point de cet espace produit en sortie du réseau une image différente ; deux points proches conduiront à des images qui se ressemblent. Comme dans le cas du plongement lexical, on peut effectuer des additions et des soustractions de type géométrique, comme s'il s'agissait d'un espace de significations. Alex Radford et ses collègues ont montré que si l'on regroupe des points qui produisent des images d'hommes, des points qui produisent des images d'hommes portant des lunettes de soleil et des points produisant des images de femmes, que l'on prend le centre de chaque ensemble et qu'enfin on réalise l'opération géométrique homme-typique-avec-lunettes-de-soleil – homme-typique + femmetypique, on obtient un point qui, à travers le réseau génératif, engendre une image réaliste de femme portant des lunettes de soleil.
La synthèse d'images réalistes inédites permise par les réseaux génératifs peut facilement être détournée pour créer des faux. D'autres méthodes utilisent l'alignement par déformation des visages pour créer de fausses vidéos. Vous pouvez ainsi prononcer un discours face caméra et produire en temps réel une vidéo réaliste du président de la République qui prononce votre discours à la tribune avec sa voix tout en reproduisant, en plus de vos paroles, vos expressions faciales et vos mouvements de tête. Ces techniques annoncent-elles la fin définitive de toute vérité ? Si créer de faux documents, de fausses images, de fausses vidéos devient un jeu d'enfant, que peut-on croire ?
On pourrait penser que dans leur quête d'informations fiables, les individus finiront par s'abreuver aux mêmes sources, par exemple auprès des journaux à bonne réputation au sein desquels des journalistes, dont c'est le métier, vérifient les informations avant de les publier. Non seulement cette recherche de la fiabilité serait censée décourager les fausses nouvelles et les fausses croyances, mais elle contribuerait de manière évidente à casser les frontières entre bulles informationnelles. Hélas, on observe déjà tout le contraire ! Comme si lesdites bulles avaient l'instinct d' œuvrer pour leur propre survie. Il se trouve que les individus font davantage confiance à leurs amis, qu'ils ne connaissent le plus souvent que sur un réseau, pour savoir quoi croire. Comment cela se fait-il ? Parce que, précisément, ils sélectionnent leurs amis en grande partie parce qu'ils pensent comme eux. Le partage des informations et de leur source est l'un des principaux moteurs de la constitution des bulles informationnelles. Les likes et les informations sont échangés entre amis qui partagent déjà des opinions et des croyances. Il y a là un phénomène de renforcement dont l'enjeu est social : avoir des convictions qui diffèrent de celles des personnes avec qui nous passons du temps finit par mettre nos amitiés en péril. Nous nous détournons d'amis qui ne pensent pas comme nous, et ils se détournent de nous. Pour des raisons liées au passé de notre espèce, nous accordons beaucoup d'importance à la cohérence des valeurs dans nos amitiés. Tout cela va dans le sens du renforcement des bulles informationnelles. Dans beaucoup de ces groupes informationnellement clos, les individus font peu de cas des critères objectifs de fiabilité de l'information, tels qu'ils ont cours dans le journalisme professionnel, dans la pratique scientifique ou sur Wikipédia, par exemple le fait de citer ses sources pour permettre la vérification. Une étude suggère que les utilisateurs qui suivent les pages Facebook d'informations complotistes sont trois fois plus nombreux que ceux qui suivent des sources d'information scientifiques . Les systèmes de recommandation intelligents ont beau être « intelligents », ils ne savent pas distinguer les informations fiables de celles qui ne le sont pas, sauf à introduire une réputation des sources (journaux, internautes) qui se fonderait sur leur « fiabilité » et non sur leur popularité. Ce n'est pas simple, et les opérateurs de réseaux sociaux hésitent à jouer ainsi le rôle de censeurs.
Si l'on extrapole ce phénomène et que l'on se projette dans un futur probablement assez lointain, il ne sera peut-être même plus possible de savoir en quelle année nous sommes, tant les historiens amateurs se seront adonnés à la création de passés alternatifs. Et même si certains éléments matériels permettent aux plus critiques de nos descendants de s'y retrouver, il est probable qu'ils ne seront pas crus par leurs contemporains, pas plus que je ne l'ai été lorsque j'ai vainement tenté de défendre la réalité de l'atterrissage sur la Lune face aux personnes qui pensaient le contraire.

x[modifier]

Des décisions dont les raisons nous échappent[modifier]

Nous avons vu comment le juge du cas Zilly doubla la peine précédemment négociée après avoir appris que le prévenu était catégorisé par un système automatisé comme récidiviste probable. Même en mettant de côté le problème du biais (racial dans ce cas) lié à l'existence de dépendances dans les corrélations, cet exemple reste choquant. Il illustre le fait que prendre une décision ne peut se résumer à catégoriser la situation. Comment définir ce qu'est une bonne décision ? Est-ce celle qui donne les meilleurs résultats en moyenne ? Les médecins sont confrontés à ce problème dans l'évaluation des thérapeutiques. Ils vont par exemple estimer les probabilités d'amélioration et d'aggravation selon que le médicament est administré ou non. Ils vont aussi prendre en compte le coût du médicament. Savoir ce qu'est une bonne décision suppose d'agréger des probabilités, des années de vie, des qualités de vie (en bonne santé ou non) et des euros. En matière de décision juridique, il y a également des questions de coût, par exemple le coût du maintien en prison, il y a des questions de préjudice envers les victimes ou envers les personnes condamnées à tort, et il y a les probabilités. Agréger ces facteurs ne va pas de soi et repose sur des pondérations qui sont souvent opaques .
Le malaise qui ressort de la prise de décision automatisée vient précisément du fait que la complexité des systèmes intelligents les rend opaques. On s'attend à ce que toute prise de décision affectant la vie d'autrui soit effectuée par quelqu'un qui soit en mesure de répondre de sa décision. Le règlement européen UE-2016/679 relatif à la protection des personnes physiques à l'égard du traitement des données à caractère personnel (RGPD) prévoit que toute personne faisant l'objet de décisions sur la base d'une évaluation automatisée de son cas devrait avoir le droit « d'obtenir une explication quant à la décision prise à l'issue de ce type d'évaluation et de contester la décision ». La communauté des chercheurs en intelligence artificielle s'est émue de cette nouvelle règle. Comment un réseau de neurones peut-il expliquer la manière dont il a catégorisé une situation ? C'est impossible. Sa décision est noyée dans des millions de paramètres, les poids des connexions entre neurones. La situation est délicate, mais pas désespérée. Les tentatives actuelles pour expliquer les décisions d'un réseau de neurones et ses millions de paramètres consistent à contourner le problème. On utilise par exemple un deuxième réseau dont l'objectif est d'observer le premier, et de tenter de décrire son fonctionnement tel qu'il a émergé de l'apprentissage. Le deuxième système crée des situations tests simplifiées dans lesquelles seules quelques caractéristiques ont une valeur qui sort de la moyenne, de manière à voir s'il peut rendre la catégorisation du premier système intelligible. La même technique peut être utilisée pour « auditer » le système de décision. On crée des situations fictives, éventuellement caricaturales, pour vérifier que le système ne prend pas de décision aberrante. Encore faut-il que le système dont on veut expliquer le fonctionnement accepte des cas fictifs en entrée. C'est rarement le cas pour les systèmes commerciaux d'aide à la décision.
Expliquer n'est pas tout. Si l'on demande à un enfant pourquoi il a cassé le carreau, on ne veut pas l'entendre répondre  : « J'ai pris une pierre qui se trouvait là, près du pot, avec la main droite, puis je l'ai lancée avec un angle de 39° en direction du toit. » L'explication, lorsqu'elle émane d'un être humain, prend en compte ses motivations. Une explication du type « j'ai pas fait exprès, je voulais déloger ma balle coincée sur le toit » est plus recevable. De même, en cas de problème avec un véhicule autonome, il ne serait pas pertinent qu'il nous livre en guise d'explication trente pages de nombres décrivant la causalité de son fonctionnement intime. Des explications pertinentes, quoique pas pour autant acceptables, seraient plutôt  : « J'ai foncé dans la vitrine pour éviter la vieille dame », ou l'inverse  : « J'ai écrasé la vieille dame pour éviter de foncer dans la vitrine. » On le voit, l'opacité du fonctionnement interne de la machine n'est pas le seul problème. L'explication dans ce cas met en jeu une hiérarchie de valeurs. On attend d'une machine prenant des décisions qu'elle soit responsable, c'est-à-dire qu'elle soit capable de répondre de ses actions. Expliquer ses actions suppose de prendre en compte non seulement la causalité, mais également les valeurs qui ont guidé son comportement.
Si je monte dans un véhicule autonome, celui-ci va probablement mettre en balance certains risques concernant ma vie et celle des autres usagers de la route. Vais-je accepter que le véhicule cherche à sauver le plus de vies possible, en me sacrifiant au passage ? C'est ce qu'exige une logique qui cherche à minimiser globalement les dommages. On peut imaginer qu'une société adopte ce type de logique. Mes valeurs doivent-elles épouser exactement celles de la société dans laquelle je vis ? La plupart des gens ne raisonnent pas comme cela. Par exemple, les individus économiquement favorisés acceptent l'impôt, mais rares sont ceux qui sont prêts à donner toute leur épargne à l'État, ne conservant que de quoi s'assurer un niveau de vie correspondant à la moyenne. Nous sommes dans la même situation face aux systèmes intelligents qui prennent des décisions nous concernant, que ce soit face à la justice, à l'hôpital, à la banque ou dans un véhicule autonome. Nous voulons des décisions qui respectent les intérêts de l'individu unique que nous sommes, et non ceux d'un individu moyen, représentant d'une catégorie ou d'un groupe dans lequel le système nous aura placé. Peut-on imaginer des systèmes intelligents capables de prendre en compte nos intérêts particuliers ? Des systèmes capables de faire des calculs à partir de notre situation, sans nous rattacher à des stéréotypes ? C'est ce qui fera la différence entre mon véhicule autonome et un taxi sans chauffeur, ou entre mon médecin artificiel et le système médical automatisé de la future sécurité sociale. Si un système de décision épouse mes valeurs, je conserve une part de responsabilité. Sinon, la responsabilité incombe à l'entité qui a hiérarchisé les valeurs du système.
Le 18 juillet 2018, des milliers de chercheurs et ingénieurs travaillant dans le domaine de l'IA ont publié une lettre ouverte dans laquelle ils s'interdisent de « jamais participer ou soutenir le développement, la fabrication, le commerce ou l'usage d'armes létales autonomes ». On pense à des drones policiers ou à des robots soldats, des bombes autonomes, mais cela pourrait aller jusqu'à des machines à café intelligentes capables de dispenser un poison dans la tasse de leur cible. Les signataires de la lettre y affirment que « la décision de prendre une vie humaine ne devrait jamais être déléguée à une machine ». Les armes autonomes présentent selon eux un problème moral : celui de masquer la responsabilité des véritables donneurs d'ordre, ou même de supprimer toute responsabilité. Les signataires anticipent également un problème pratique, celui de créer une insécurité permanente pour les individus et les États. On peut imaginer une contre-argumentation : la décision automatique serait moins faillible que la décision humaine, et les actions létales seraient mieux ciblées ; de telles armes auraient des temps de réaction bien plus rapides, évitant de mettre en danger la vie de policiers ou de soldats sur le théâtre des opérations ; si un ennemi dispose d'armes autonomes, il est dangereux de se priver de leur usage ; etc. On pourrait ajouter que de nombreuses morts sont déjà causées par des machines, les mines par exemple. Il reste que l'idée même d'une arme autonome est choquante. Nous confions sans problème notre vie à des machines, que ce soit à notre voiture ou à un téléphérique. Nous ne voulons pas, en revanche, que notre vie soit décidée par la machine. Au nom de l'efficacité, certaines autorités pourraient être tentées de confier à une machine la décision de tirer sur nous dès que notre comportement ressemble à celui d'un terroriste. Nous refusons d'être ainsi pris à tort pour cible, même si le risque est infime. Nous refusons d'être tué par un programme dont la décision est la conséquence automatique de calculs. Nos attitudes face à des machines dont les compétences vont se trouver considérablement élargies sont révélatrices d'un conflit entre éthique et efficacité collective. L'enjeu de ces questions concerne la manière dont l'IA s'intégrera dans nos sociétés. Pour certains, comme les signataires de la lettre de juillet 2018, ce futur de l'IA se décide maintenant.

x[modifier]

Un monde sans travail[modifier]

Certaines prévisions alarmistes annoncent l'automatisation imminente de nombreux emplois, notamment les emplois liés à la production, au transport, aux tâches administratives, à la vente, etc. Cette automatisation des emplois, due aux progrès de l'intelligence artificielle et notamment de l'apprentissage artificiel, devrait entraîner leur disparition pure et simple. Ainsi, une étude célèbre publiée en 2013 par Carl Benedikt Frey et Michael Osborne prévoyait l'automatisation probable, sous quatre ans, de près de la moitié des emplois aux États-Unis ; elle a été cruellement démentie par les faits quatre ans plus tard .
Il est évident que de telles prévisions se sont trompées sur le calendrier, mais ne vont-elles pas finir par se réaliser ? Chose impensable avant les années 2010, chacun est maintenant en situation de se demander ce qui, dans son métier, résisterait à l'automatisation. Avant cette époque, l'automatisation semblait réservée au remplacement des gestes répétitifs, ceux que l'on voit réaliser dans les unités de production à la chaîne. Dès que l'action repose sur une prise d'information complexe, on se dit qu'on ne risque rien, que jamais une machine n'arrivera au niveau de maîtrise qu'on a mis des années à atteindre. Voire !
Lorsque j'étais encore étudiant, certains de mes camarades ont été happés par le monde de la banque pour devenir ce que l'on appelait les « golden boys », même s'il y avait des filles parmi eux. Les institutions financières avaient besoin de recruter des esprits jeunes et rapides pour valoriser leurs milliards de francs ou de dollars au quotidien. Ces jeunes excellaient pour sentir le contexte boursier de la période, de la journée, ou parfois de la minute.
Ils disaient avoir acquis un instinct leur permettant de prendre en une seconde la décision d'engager des sommes dont le montant donne le vertige. Leur instinct, de fait, valait souvent de l'or. Les banques ne s'y trompaient pas. Elles rémunéraient ces talents au niveau des footballeurs vedettes. Jusqu'au jour où les machines ont été capables de l'acquérir elles aussi, ce fameux instinct, et pfft … fini, les golden boys, remplacés d'une part par des programmes bien plus rapides qu'eux, et d'autre part par des opérateurs de marché moins jeunes, moins instinctifs, plus instruits et plus comptables de leurs actes (mais toujours très bien payés ). L'idée s'est alors installée que des décisions complexes et présentant un enjeu important pouvaient être confiées à une machine. Les deux objections traditionnelles à l'encontre de la décision automatique : « cela demande une expertise trop fine » et « l'erreur aurait des conséquences trop graves », venaient de sauter avec l'exemple des ordres d'achat-vente en Bourse. Depuis, le domaine dans lequel la décision humaine peut être supplantée ne fait que s'étendre.
Ce n'est pas parce qu'une expertise est sophistiquée qu'elle est à l'abri de la mécanisation. Au contraire. Depuis les débuts de l'intelligence artificielle, les machines se sentent plutôt à l'aise dans les domaines auxquels, à l'inverse, les humains doivent consacrer des années d'études et de pratique pour devenir efficaces. Il faut acquérir de nombreuses connaissances et beaucoup pratiquer pour devenir médecin spécialiste. Les systèmes d'apprentissage artificiel contemporains n'ont pas de connaissances, mais ils ont une pratique démesurée. Ainsi, après avoir été entraîné sur des milliers d'images déjà diagnostiquées, un programme utilisant les réseaux convolutifs dont nous avons parlé peut apprendre à diagnostiquer des mélanomes sans qu'on lui fournisse au préalable la moindre connaissance médicale générale. Confronté à de nouveaux cas, son diagnostic sera aussi sûr, voire plus sûr, que celui de dermatologues experts .
Les exemples de l'IA trader et de l'IA dermatologue font réfléchir. Si la complexité de la décision réside pour l'essentiel dans le fait de reconnaître les situations dans lesquelles telle conclusion doit être tirée ou telle action effectuée, alors la mécanisation est probable car les techniques d'apprentissage deviennent excellentes dans ces tâches de reconnaissance. Même dans des situations où la logique semble devoir dominer, comme la décision juridique, des systèmes intelligents sont couramment utilisés pour assister le juge lors de la sentence ou aider l'avocat à fouiller la jurisprudence. Il est donc permis de se demander, non seulement dans quelle mesure son propre métier risque d'être prochainement mécanisé, mais aussi quels sont les métiers qui ne risquent pas de l'être. Dans leur étude, Frey et Osborne mentionnent trois types d'obstacles : la perception et la manipulation au sein d'environnements non structurés ou à structure complexe (l'atelier d'un garagiste), les tâches demandant de la créativité (le travail d'un architecte), les tâches reposant sur l'intelligence sociale (les métiers impliquant des négociations ou de la persuasion). Ils rangent ainsi 700 métiers qui vont, selon eux, du plus probablement mécanisable (marketing par téléprospection) au moins probablement mécanisable (thérapie par le loisir).
Raisonner au niveau des métiers eux-mêmes peut être trompeur. Un métier se caractérise rarement par un ensemble homogène de tâches fixes. Dans la plupart des cas, les tâches confiées aux personnes affectées à un type de poste changent dans le temps. On peut ainsi s'attendre à ce que les métiers évoluent plutôt que de disparaître. Un opérateur de Bourse ou un diagnosticien assisté d'un programme d'aide prend de meilleures décisions que le programme seul. Les économistes prévoient des adaptations du marché de l'emploi, à l'image de ce qui s'est toujours produit avec l'irruption des technologies, de l'électrification au traitement de texte. Leur interrogation principale est de savoir dans quelle mesure la soudaineté de la transition risque de provoquer un chômage de masse. Nous aurons plus loin l'occasion de nous interroger, à un niveau de détail plus fin, sur la nature de la décision humaine. Nous nous demanderons notamment si les systèmes intelligents actuels n'ont pas quelques lacunes, des lacunes graves qui rendent l'intervention humaine indispensable pour toute une classe de tâches.

x[modifier]

Un monde de cristal[modifier]

La Chine installe des centaines de millions de caméras de surveillance. Le projet consiste à rendre ces caméras capables d'effectuer une identification automatique des personnes, ce qui est impressionnant à l'échelle d'un pays qui comporte plus d'un milliard de citoyens. Les performances actuelles d'un tel système à l'échelle globale, avec un taux d'erreur situé entre 10 et 40 %, sont encore modestes, mais nul doute qu'elles vont s'améliorer. À une échelle locale, la reconnaissance faciale est beaucoup plus efficace. Elle est librement expérimentée en Chine pour reconnaître les criminels ou les candidats à un examen ; pour repérer les clients d'un magasin, comprendre leurs mouvements d'un rayon à l'autre et faciliter leur paiement ; pour accorder des réductions aux clients d'un restaurant jugés par le système comme étant agréables à regarder ; et même pour signaler publiquement les piétons qui contreviennent au Code de la route.
Des systèmes d'intelligence artificielle possèdent déjà quantité d'informations concernant la vie privée des personnes ayant un téléphone intelligent ou un ordinateur connecté : adresse, déplacements, amis, achats, préférences cinématographiques, hobbies, intérêts du moment. Ils peuvent en déduire notre orientation sexuelle et politique, l'avancement de notre grossesse, notre pouvoir d'achat. Rien n'empêche techniquement que ces systèmes sachent à chaque instant qui rencontre qui, qui est où. S'ils sont couplés à des caméras à reconnaissance faciale, la surveillance peut être totale. Le nombre croissant de personnes confiant leur ADN à des sociétés de généalogie permet d'envisager que des quantités de données concernant notre filiation et nos risques médicaux soient visibles de tous (si mon ADN est publié, celui de mon enfant, de ma s œur ou de mon père est à moitié dévoilé). Que restera-t-il, dans ces conditions, de la vie privée ?
L'intelligence artificielle nous prépare un « monde de cristal », un monde dans lequel chacun sait tout sur les autres. Est-ce un problème ? Eric Schmidt, alors président-directeur de la firme Google, déclara  :
Si vous faites quelque chose et que vous voulez que personne ne le sache, commencez par ne pas le faire.
Le corollaire de la pensée de Schmidt est que seuls les êtres malfaisants ont à se soucier de la transparence totale. Dans son monde, les gens bien ne devraient pas s'inquiéter du regard que d'autres, personnes ou institutions, porteraient sur leurs faits et gestes. Autre corollaire : si vous vous inquiétez de cette surveillance généralisée, c'est que vous êtes suspect. Edward Snowden, qui a dû fuir les États-Unis après avoir dénoncé un système caché de surveillance de masse, nous prévenait lors des v œux qu'il a adressés à la planète à l'occasion de Noël 2013 :
Les enfants qui naissent aujourd'hui grandiront sans aucune conception de la vie privée. Ils ne sauront jamais ce que cela signifie d'avoir un moment privé pour eux-mêmes – une pensée non enregistrée, non analysée. Et c'est un problème, parce qu'avoir une vie privée est important. La vie privée est ce qui nous permet de déterminer qui nous sommes et qui nous voulons être.
Pour beaucoup d'entre nous, la vie privée est le fondement de la liberté. Le regard d'une autorité ou le regard social nous prive de cette liberté. Certains peuvent s'en accommoder facilement, par exemple s'ils ont choisi d'afficher publiquement des convictions et qu'il est important pour eux de paraître cohérents aux yeux de la société. C'est leur choix. La perte imposée de toute vie privée est une autre affaire. Certains pays ont connu une surveillance de masse exercée par l'État. La police politique de l'ancienne Allemagne de l'Est, la Stasi, a employé des centaines de milliers d'informateurs pour espionner l'ensemble de la population . Le progrès de l'intelligence artificielle ouvre la possibilité, comment ne pas s'en apercevoir, d'un totalitarisme numérique. Plus que jamais dans l'histoire des peuples, un État peut espionner les citoyens, il peut savoir où ils sont, il peut connaître ce qu'ils pensent, il peut orienter leur façon de penser et leurs décisions. Ces moyens sont déjà à la disposition des régimes autoritaires et seront bientôt accessibles aux gouvernements des démocraties qui devront savoir résister à la tentation de s'en servir.
Le monde de cristal permis par les progrès de l'intelligence artificielle pourrait cependant être différent de l'image que nous avons de la Stasi. Il se pourrait que l'information concernant les individus devînt accessible à tous. Je pourrai ainsi savoir que ma collègue est en ce moment à la boulangerie et elle pourra savoir que je ne suis pas dans mon bureau. Dans le monde de cristal, la surveillance ne sera pas réservée aux États, mais sera le fait de chacun. Nous pourrons même savoir qui est en train de nous espionner. Ce scénario n'est pas certain, mais il est rendu possible par la technologie. Les visages des citoyens d'un pays entier et toutes les informations les concernant peuvent être stockés sur un disque qui tient dans la main. La communication entre les systèmes et bientôt entre les objets passe par des ondes radio que quiconque peut capter. Le cryptage des informations ainsi stockées ou échangées n'est jamais plus fort que la protection des clés (mots de passe ou autres) qui permettent d'y accéder. Et les systèmes intelligents sauront à tout moment extraire des masses de données décryptées ou laissées sans protection, de quoi alimenter la curiosité de chacun concernant ses voisins et ses relations. Saurons-nous y résister ?
Ce monde de cristal n'est pas nouveau. Après tout, la vie privée est une invention récente, réservée aux habitants des grandes villes. Dans les villages où les gens se connaissent et dans les familles qui vivent sous le même toit, chacun sait à chaque instant ce que font les autres et qui est avec qui. Ce retour à la fin de la vie privée va-t-il nous être imposé ? Pas sûr. Une partie de notre personnalité se flatte de ne pas être anonyme. Être reconnu dans la rue, fût-ce par une machine, pourquoi pas si cela me procure un sentiment d'existence sociale ? Nombreux sont les individus qui fournissent volontiers quantité d'informations concernant leur vie personnelle à des systèmes qu'ils chargent de gérer leur réseau social. Ou qui les écrivent dans des journaux intimes … publiés sur la Toile. Si le monde de cristal advient, nous en serons probablement les victimes consentantes. Nous entretiendrons peut-être avec lui le même rapport que celui que les célébrités entretiennent avec les paparazzis : c'est grâce à lui que nous aurons une existence sociale, mais nous essaierons en même temps de nous cacher de lui. Ou peut-être ne nous rendrons-nous pas compte de ce que nous aurons perdu, de même que les anciens habitants de l'île de Pâques ne se rendaient pas compte que les arbres qu'ils coupaient, génération après génération, étaient de plus en plus jeunes et de plus en plus frêles, au point de perdre le concept d'arbre. Ce monde de cristal n'est pas certain, il est simplement probable. Il faudra davantage d'intelligence et davantage d'innovations si nous souhaitons le contrecarrer, car les innovations déjà disponibles nous y mènent tout droit.

x[modifier]

Vers une intelligence hybride ?[modifier]

Peut-on imaginer que naissent des hybrides entre intelligence artificielle et intelligence biologique ? Il semble plus facile d'imaginer des croisements entre espèces biologiques plutôt que des êtres mi-vivants, mi-machines. Pourtant, les premières étapes sur la voie d'une humanité augmentée par l'IA sont en passe d'être réalisées. Il s'agit d'aller bien au-delà des annexes de notre esprit que sont les ordinateurs et les téléphones intelligents qui déjà amplifient nos capacités de mémorisation et de traitement de l'information. La société Neuralink, par exemple, annonce en 2017 qu'elle se donne pour objectif à moyen terme d'aller au-delà des implants cérébraux qui permettent déjà à des patients paralysés d'actionner des bras robotisés par la pensée. L'objectif de cette firme fondée par Elon Musk est de proposer des interfaces permettant à des sujets sains d'accéder à une mémoire informatique locale ou distante ( cloud ), à des capteurs d'une sensibilité accrue et surtout à des moyens d'émettre de l'information à un débit bien supérieur à ce que permettent par exemple nos doigts sur un clavier. Elon Musk n'est pas isolé. D'autres projets industriels partageant le même objectif voient le jour, comme celui d'un autre industriel versé dans l'IA du futur, Bryan Johnson et de sa firme Kernel. L'un de ses objectifs, à terme, est de développer un implant cérébral sous la forme d'un grillage souple capable de se connecter aux neurones. Ce concept (en anglais neural lace, « dentelle neuronale »), tout droit issu de la science-fiction, a déjà une réalité expérimentale .
Selon la vision d'Elon Musk concernant le futur technologique, les humains normaux, c'est-à-dire non augmentés, se sentiront inutiles face aux machines intelligentes qui effectueront presque toutes les tâches mieux qu'eux. Il est donc essentiel qu'ils deviennent complémentaires, au lieu d'être concurrents, des futures intelligences artificielles. C'est aussi l'avis de Jürgen Schmidhuber, l'un des pionniers de la récente révolution de l'intelligence artificielle . Bryan Johnson, quant à lui, n'hésite pas à parler de symbiose et de coévolution entre l'humain et l'IA . Ces projets vont dans le sens de courants de pensée que l'on regroupe généralement sous le nom de transhumanisme. L'entreprise globale va bien au-delà de la prothèse cognitive. Cet individualisme poussé à l'extrême culmine avec l'idée d'un individu immortel qui conserverait, voire augmenterait sans cesse, ses facultés physiques et intellectuelles.
Cette conception particulière du progrès se prolonge parfois dans une vision évolutionniste qui concerne non plus les individus, mais l'espèce. Selon cette vision, la sélection naturelle a conduit à un point culminant du point de vue de l'intelligence  : nous ! Le contrôle que nous avons sur notre condition nous permet de prendre le relais, de poursuivre le grand œuvre de l'évolution en proposant une version améliorée de nous-même. Même s'il ne s'agit pas ici de bricoler le génome, l'idée d'améliorer l'espèce rappelle immanquablement les projets eugénistes qui ont entaché le xx siècle. Si le soupçon peut se révéler infondé dans le cas d'industriels comme
Musk ou Johnson, le raisonnement repose sur une même conception erronée de l'évolution. Selon une idée naïve, l'évolution par sélection naturelle procéderait vers un but, un progrès, à l'image de la culture industrielle. Nous serions ainsi le résultat d'une belle histoire, une success story conduisant vers des êtres de plus en plus intelligents. Il nous échoirait d'écrire l'épisode suivant de cette saga. En réalité, l'avenir biologique de notre espèce n'est pas plus écrit que son passé . De même qu' Homo erectus ou Homo ergaster n'étaient pas des brouillons d' Homo sapiens, notre espèce peut servir de précurseur à une infinité d'autres, sans qu'il soit possible de déterminer à l'avance laquelle est probable ou souhaitable. Il n'y a pas de direction privilégiée que l'on pourrait nommer « progrès ». La vision transhumaniste de notre avenir doit être comprise comme simplement révélatrice d'une doctrine visant à optimiser le bien-être individuel et en aucun cas comme un futur nécessaire. La science-fiction s'est d'ailleurs employée à imaginer des futurs alternatifs dans lesquels l'intelligence artificielle et les interfaces neuronales ont toute leur place et qu'on aurait peine à qualifier de progrès. Les humains y apparaissent souvent comme déconnectés du reste du vivant et du reste de la société, affectés d'une addiction pathologique pour les univers virtuels, et incapables d'avoir une vie qui, pour un regard actuel, paraîtrait intéressante.

x[modifier]

Une intelligence émergente[modifier]

L'un des aspects les plus fascinants de l'IA du futur, c'est qu'elle pourrait être « émergente ». Pour comprendre ce qu'émergence veut dire ici, observons que la stupidité peut, elle aussi, être émergente. Toutes les personnes qui au moins une fois dans leur vie se sont trouvées piégées sur une autoroute en étant soumises à une circulation dite « en accordéon » peuvent en témoigner. Vous freinez parce qu'il y a un bouchon, les voitures devant vous ralentissent considérablement et vous faites de même, bien obligé(e). Un kilomètre plus loin, ça repart. Vous accélérez, content(e) que vous êtes d'en avoir fini. Hélas, encore un kilomètre et un nouveau bouchon. Vous commencez à comprendre. L'autoroute étant surchargée, la moindre perturbation, par exemple quelqu'un qui se trouve trop près de la voiture précédente, effleure sa pédale de frein et allume ainsi ses feux stop, provoque par effet boule de neige la formation d'un bouchon. Il suffirait que chacun cale sa vitesse sur celle du véhicule précédent en maintenant une distance de 100 mètres pour absorber les variations. C'est ce que vous vous promettez de faire  : laisser 100 mètres avec la voiture de devant dès que ça repartira. Hélas, d'autres véhicules, profitant de l'aubaine, viennent s'intercaler pour espérer gagner quelques places. Vous comprenez vite la leçon. Votre stratégie ne sert à rien, il y a toujours des voitures qui viennent se placer à 20 mètres devant la vôtre, si bien que vous finissez par coller au véhicule devant vous, le pied prêt à freiner au moindre ralentissement. Vous vous sentez piégé(e), comme tous les autres automobilistes présents ce jour-là. Vous imaginez ce que cela donne vu de l'hélicoptère de la gendarmerie. Les gendarmes voient l'accordéon et doivent se dire que ces automobilistes sont bien stupides. L'un d'eux raconte qu'il a vu des carambolages sur autoroute par temps de brouillard. Alors que la visibilité était de moins de 50 mètres, les automobilistes roulaient à la vitesse maximale pour ne pas perdre de vue le véhicule précédent. Il a suffi que l'un d'entre eux laisse échapper son guide et se mette à freiner, ne sachant plus anticiper la direction du prochain virage, pour que le véhicule suivant le percute. On connaît la suite  : les véhicules viennent à un rythme régulier s'encastrer dans ce qui devient un amoncellement de tôles et de vies brisées. Continuez à imaginer la conversation des gendarmes de l'hélicoptère. Ils assistent à des phénomènes étranges. Ils ont vu des bouchons survivre une heure après que la cause, un accident par exemple, a disparu. Parfois, alors que tous les véhicules se meuvent vers l'avant, ils voient que le bouchon, lui, recule !
Peut-on imaginer l'inverse, c'est-à-dire des entités stupides ou tout au moins cognitivement simples qui, ensemble, font quelque chose d'intelligent ? Oui, bien sûr. Je demande chaque année à mes étudiants de faire de petites expériences sur leurs ordinateurs avec des fourmis virtuelles. Celles-ci explorent l'environnement à la recherche de quoi manger. Dès qu'elles découvrent une source de nourriture, à l'image des vraies fourmis, elles rentrent à la fourmilière en déposant une substance odoriférante sur le sol, une phéromone. Cette phéromone est attractive, si bien que les fourmis qui la trouvent par hasard et la suivent ont beaucoup plus de chances de tomber sur la source de nourriture. Ce système permet à la fourmilière d'exploiter efficacement la nourriture, en commençant par les ressources les plus proches. Si des obstacles doivent être contournés, les fourmis virtuelles découvrent ensemble le plus court chemin, tout simplement parce que l'aller-retour prenant moins de temps, le trajet plus court accumule de la phéromone plus rapidement. Les fourmis individuelles n'ont qu'une vision locale. La fourmilière, elle, « voit » simultanément l'ensemble des sources de nourriture déjà trouvées, elle alloue plus de ressources (les fourmis exploratrices) à l'exploitation des sources plus proches et plus riches et elle découvre les chemins les plus courts. En tant qu'entité collective, la fourmilière peut ainsi réaliser des tâches intelligentes qui sont tout à fait hors de portée des fourmis individuelles.
Nous vivons avec l'idée que l'intelligence est surtout le fait d'entités individuelles : nous. Nous avons conçu l'intelligence artificielle à notre image  : toute décision prise par une IA est prise de manière centralisée, par une machine et à un endroit précis de la machine, là où s'effectue le test qu'une valeur est vraie ou qu'elle dépasse un certain seuil. Les réseaux de neurones artificiels n'échappent pas à cette règle. Or l'intelligence dans la nature est le plus souvent l'apanage d'entités collectives : une population animale capable de s'adapter, un groupe d'oies sauvages qui sait exactement quand émigrer et comment voler en formation pour minimiser la résistance de l'air, la fourmilière qui exploite un territoire, et nousmêmes qui sommes formés de cellules. Nos neurones forment une entité collective, une « neuronilière » en quelque sorte. Aucune décision de notre cerveau n'est portée par un seul neurone. Nos cellules cérébrales constituent à chaque instant des populations actives, et ce sont ces populations qui calculent et décident. Notre intelligence est émergente, elle se situe au niveau des collectivités de neurones, jamais au niveau inférieur, celui de la cellule. Comment est-ce possible ?
La question de savoir comment le cerveau calcule a longtemps été un complet mystère. Certes, on sait depuis plus d'un siècle que les régions et les circuits de notre cortex réalisent des fonctions cognitives différentes, mais cette constatation ne fait qu'épaissir le mystère. Si je porte mon attention sur une voiture rouge passant devant moi, la couleur, la forme, le mouvement et le caractère familier de l'objet sont traités dans des zones différentes. La couleur, par exemple, est traitée dans l'aire baptisée V4, tandis que le mouvement est traité dans l'aire V5, toutes deux à l'arrière du cerveau. Comment le cerveau sait-il que les activités de certains neurones dans ces zones sont relatives au même objet, la voiture rouge en l'occurrence ? Or il le « sait », puisque ma sensation est bien celle de voir passer un objet qui a les différentes propriétés d'être rouge, d'aller vers la gauche et d'être une voiture. Cette question a été nommée « problème du liage » ( binding en anglais.) Un ordinateur n'a pas ce genre de problème. Les différentes propriétés, si elles sont explicites, porteront sur la même variable qui agit comme un pointeur vers un endroit de la mémoire. Ainsi, l'objet qui est rouge et l'objet qui bouge vers la gauche sont un seul et même objet car ils sont stockés au même endroit. Rien de tel dans un cerveau, puisque la mémoire est éclatée en autant de sites que d'endroits où l'information est traitée. Votre mémoire de la couleur rouge des tomates est ainsi portée par des neurones de l'aire V4 et celle du mouvement dans l'aire V5.
En 1985, un peintre de 64 ans prénommé Jonathan perdit la vision des couleurs, suite à une commotion cérébrale causée par un accident de voiture. Son cas est décrit par Oliver Sacks qui explique que Jonathan voyait maintenant le monde en gris . Sa peau lui apparaissait « couleur de rat ». Il prit l'habitude de se nourrir de mets noirs ou blancs : olives, riz, yogourt pour ne pas être dégoûté. Jonathan savait toujours que les tomates étaient rouges, mais il ne savait plus ce que cela voulait dire. En tant que peintre professionnel, il pouvait commenter de mémoire un tableau, y compris ses couleurs, mais son souvenir était seulement conceptuel, car, même en imagination, il était incapable de se les figurer. Sa soudaine « achromatopsie » démontre à quel point notre perception visuelle est morcelée en différentes facettes – couleurs, mouvement ou formes –, traitées en différents endroits du cerveau. Quel est le mécanisme qui permet à ces facettes d'être réunies en un tout cohérent correspondant à la représentation de l'objet vu ?
Le premier chercheur à avoir trouvé une solution plausible au problème du liage, à ma connaissance, est le physicien et informaticien allemand Christoph von der Malsburg . Entre 1981 et 1986, il propose que les assemblées neuronales imaginées par Donald Hebb comme représentant des idées dans le cerveau émergent du fait que leurs neurones émettent des potentiels d'action de manière synchrone. Autrement dit, les neurones actifs à un moment donné « savent » qu'ils se rapportent au même objet parce que leurs impulsions sont synchrones. Comme les neurones sont essentiellement des détecteurs de simultanéité (ils entrent en activité quand les impulsions qu'ils reçoivent arrivent au bon moment pour s'additionner), on comprend pourquoi les neurones synchrones forment des assemblées cohérentes qui peuvent rester stables un certain temps. Ces assemblées transitoires pouvant compter des millions de neurones à un moment donné, leur synchronisation fait apparaître des potentiels assez forts pour qu'ils puissent être détectés sous la forme d'un électroencéphalogramme.
La synchronisation neuronale explique pourquoi la couleur rouge de la voiture, sa forme et son mouvement sont bien attribués à la voiture, et non au mur bleu immobile qui se trouve au même endroit du champ visuel. La représentation de la voiture émerge de cette synchronisation. Le cerveau ne dispose pas à l'avance de système de détection spécialisé pour repérer les voitures rouges qui bougent vers la gauche à cet endroit du champ de vision. Ce détecteur se constitue de lui-même, il émerge du fait que les neurones qui traitent cet objet dans les différents endroits du cortex oscillent de manière synchrone. Ce n'est pas la seule hypothèse qui existe pour expliquer le liage, mais c'est selon moi la plus élégante et la plus prometteuse.
Si notre intelligence émerge ainsi de la connexion dynamique de traitements spécifiques, n'a-t-on pas là un moyen facile de créer une intelligence artificielle de plus en plus efficace en reliant des IA spécialisées ? Et si l'on pousse le raisonnement, ne doit-on pas s'attendre à ce que, à force de connecter entre elles des intelligences artificielles déjà sophistiquées, on parvienne à une entité tellement intelligente qu'elle deviendrait un singleton, c'est-à-dire un pouvoir absolu qui serait seul à prendre les décisions sur terre ? La possibilité même de l'émergence de l'intelligence à partir d'entités simples, dont notre cerveau offre une parfaite illustration, semble conférer une probabilité non nulle à une telle éventualité. L'exemple des bouchons et des carambolages doit cependant nous ramener à la raison  : mettre en relation des entités intelligentes a toutes les chances de produire des comportements moins élaborés que ceux de ces entités. Si la fourmilière est plus intelligente que les fourmis, et si le cerveau est plus intelligent que ses neurones, c'est parce que l'évolution par sélection naturelle a pu amplifier un phénomène fortuit, attirance de la fourmi pour une odeur dans un cas, synchronisation spontanée de deux neurones dans l'autre, et le détourner pour réaliser une nouvelle fonction. Pour qu'une intelligence artificielle supérieure émerge ainsi de composants locaux, il faudrait postuler un mécanisme permettant une coévolution dirigée des composants et de leurs liens, ce qui est loin d'aller de soi.

x[modifier]

Des intelligences artificielles conscientes ?[modifier]

L'un des personnages principaux de la série télévisée Star Trek Next Generation est une machine. La série est moins connue en France où elle a été peu diffusée, mais maints décideurs du domaine de l'intelligence artificielle et de très nombreux chercheurs à travers le monde avouent avoir été influencés, enfants, par la saga des Star Trek, au point de lui devoir leur vocation. Tous connaissent Data, ce robot humanoïde unique en son genre, devenu commandant dans la hiérarchie militaire de Starfleet. Dans un épisode particulièrement intéressant, Data est réquisitionné pour être démonté, avec l'espoir pour Starfleet de comprendre son fonctionnement et de le répliquer. L'équipage de l' Enterprise s'offusque. Data est leur ami, il est choquant de le voir ainsi disséquer, avec peu d'espoir qu'il y survive. S'ensuit une passionnante argumentation juridique. Data refuse d'obtempérer ; on lui rétorque qu'il doit obéir à l'ordre de réquisition ; Data décide alors de démissionner pour ne plus être tenu par cet ordre ; on lui rétorque qu'en tant que machine, il n'a pas la capacité de démissionner ; il est assimilé à un objet dont Starfleet est propriétaire et dont elle peut user à sa guise. S'ensuit un procès au cours duquel l'enjeu est de savoir si Data est une machine ou une personne.
Cette histoire est exemplaire car elle expose les différents arguments qui sont échangés à propos de la conscience des IA. L'un des arguments pourrait s'appeler l'effet « tamagotchi », du nom de ce jouet qui a envahi l'Europe à la fin des années 1990. Dans leur version de base, les tamagotchis étaient des petits objets requérant d'être allumés et utilisés périodiquement pour être « nourris » et « divertis ». Les enfants développaient rapidement un attachement envers ces objets qu'ils ressentaient comme dépendants d'eux. Ils étaient prompts à penser, même en sachant très bien qu'il ne s'agissait que d'objets virtuels, que leur tamagotchi avait faim et avait besoin d'eux. L'argument pour débrancher Data était du même ordre  : les humains avaient développé un attachement pour la machine, projetant sur elle des capacités de ressentir qu'elle n'avait pas sur la seule base de la manifestation des sentiments. Le fait que la machine dise « j'ai faim » n'est pas suffisant pour lui attribuer la sensation de faim.
L'argument a ses limites, comme n'ont pas manqué de le rétorquer les amis de Data. Il est impossible de démontrer que quelqu'un qui n'est pas soi a des sensations. Comment réfuter le fait que nous sommes entourés d'humains-zombies qui ne font que simuler mais ne ressentent rien ? Tout au plus pouvons-nous croire, par analogie, que les autres fonctionnent comme nous et sont donc doués de la capacité de ressentir. Mais, au fait, pourquoi sommes-nous dotés de cette capacité ? Pour éviter qu'un robot ne mette son intégrité en péril, ses concepteurs vont fortement pénaliser toutes les situations dangereuses, si bien que le robot cherchera à les éviter, suivant les principes de la planification et de l'apprentissage par renforcement. Il n'y a aucune place dans ce schéma pour la douleur ou la récompense, si ce n'est pour donner corps à une vague métaphore dans l'esprit des concepteurs. Alors pourquoi devons-nous souffrir et avoir des plaisirs ? J'ai un souvenir pénible de la pelle qui m'a sectionné un ongle d'orteil en tombant quand j'avais 12 ans. Pour quelle raison fallait-il me faire si mal pour inscrire ce souvenir dans ma mémoire ? Les machines n'ont pas besoin de ça. Pourquoi l'évolution par sélection naturelle a-t-elle eu besoin, pour permettre à nos gènes de contrôler notre comportement, de ce stratagème consistant à nous faire ressentir consciemment ?
Nous n'avons que des réponses très partielles. Une hypothèse est que la conscience « phénoménale », c'est-à-dire le fait de ressentir, est un effet de la synchronisation neuronale. Nous avons déjà parlé de la synchronisation des neurones et de son rôle supposé pour assurer un liage dynamique entre des zones du cortex participant à la même représentation à un moment donné.
L'hypothèse selon laquelle la synchronisation neuronale serait responsable de la conscience a été émise en 1990 par Christof Koch et Francis Crick (ce dernier étant surtout connu comme le codécouvreur de l'ADN). Une chose est de comprendre pourquoi nos neurones se synchronisent, une autre est de comprendre pourquoi ces synchronisations s'accompagnent de sensations. On peut imaginer que le progrès scientifique nous permettra un jour de comprendre que tel type de synchronisation est systématiquement corrélé à tel type de sensation. Cet horizon est actuellement hors d'atteinte. Nous ne savons pas pourquoi l'activité de certains neurones parvient à nous donner une sensation de plaisir intense alors que l'activité d'autres neurones s'accompagne de déplaisir ou de douleur. Ou pourquoi certaines activités nous font ressentir le goût de la banane alors que d'autres nous font ressentir le goût de la fraise. Est-ce dû à la nature de ces neurones, à leurs connexions ou à leur façon d'osciller de manière synchrone ? Personne ne le sait encore.
Même si nous avions résolu cette question, même si nous étions capables de prédire de manière détaillée nos sensations à partir d'un examen du cerveau en fonctionnement, nous serions encore confrontés à un mystère, celui de la nature immatérielle des sensations. Cette partie de la question a été nommée « fossé explicatif » par les philosophes contemporains, pour souligner le fait que nous ne disposons actuellement d'aucune description nous permettant de conceptualiser ce problème . Notre ignorance sur ce sujet est telle que nous ne comprenons même pas la nécessité des sensations. Autrement dit, les fonctionnements cognitifs que nous sommes capables d'imaginer, tant avec nos machines qu'en analysant le cerveau, ne savent que faire des sensations.
Le problème ne serait pas trop grave si nos sensations conscientes n'étaient que des épiphénomènes. Le cerveau travaille, et il se trouve que, du fait de son fonctionnement, pour une raison qui nous dépasse, nous faisons l'expérience de sensations. Hélas, nous ne pouvons pas nous en sortir à si bon compte. Comme nous allons le voir, il n'est pas possible de regarder les sensations conscientes comme des épiphénomènes. Nous sommes obligés de considérer qu'elles jouent un rôle causal. Autrement dit, ce qui semble être une simple manifestation immatérielle émanant des états neuronaux aurait un effet, tout à fait matériel lui, sur notre comportement. Peut-être n'avons-nous pas les bonnes manières de conceptualiser ce problème, peut-être ces questions sembleront-elles évidentes aux yeux des scientifiques du futur. Toujours est-il que le « fossé explicatif » intervient deux fois en miroir : une fois dans notre incapacité de concevoir comment des états neuronaux peuvent entraîner des sensations conscientes, et une deuxième fois dans notre incapacité à imaginer comment des sensations conscientes peuvent avoir un effet causal sur le comportement.
Commençons par une analogie. Quiconque entend le chant caractéristique du pinson comprend qu'il ne s'agit pas d'une musique aléatoire. Le chant remplit une fonction, qui est d'être reconnu et évalué par les femelles et les mâles du voisinage, tout en étant distingué des chants des autres espèces et, si possible, en rendant le chanteur difficile à localiser précisément par les prédateurs. La structure du chant a évolué dans cette espèce sous l'effet de la sélection naturelle pour remplir cette fonction. Bien entendu, la sélection naturelle a dû façonner les circuits cérébraux et la syrinx du pinson pour lui permettre d'émettre son chant si caractéristique. Mais ce qui est directement évalué par la sélection naturelle est bien le chant, doté de ses qualités acoustiques et distinctives. Les organes qui lui permettent d'exister ne sont évalués qu'indirectement, en fonction de la capacité du chant à attirer les femelles et à intimider les autres mâles.
Dans cette analogie, le chant du pinson représente nos sensations conscientes. Comme le chant, il se trouve que ces sensations ont été directement façonnées par la sélection naturelle. Pour s'en persuader, il suffit de regarder un arc-en-ciel. Chacun peut constater que les couleurs sont bien ordonnées et à peu près régulièrement espacées. Pour un ingénieur, cela fait sens. Si vous avez des détecteurs (ici les couleurs) à répartir dans un espace (ici le spectre des longueurs d'onde), vous avez intérêt à bien les espacer, afin de diminuer le risque de confusion. Si votre détecteur de rouge occupe 99 % du spectre des longueurs d'onde et que vous disposez vos autres détecteurs dans le 1 % restant, votre système ne sera pas efficace pour discriminer les objets de l'environnement. Vous avez aussi intérêt à ordonner les détecteurs, d'une part pour que la zone rouge n'apparaisse qu'une seule fois, et d'autre part pour que le rouge soit plus près de l'orange que du bleu.
Cela fait sens du point de vue de l'ingénierie  : avec des détecteurs bien ordonnés, les conséquences des erreurs seront moindres. Une petite erreur de longueur d'onde faisant passer un objet rouge pour un objet orange sera plus facile à corriger que si l'erreur vous fait paraître l'objet bleu. Cette histoire d'arcen-ciel nous montre que nos sensations colorées subjectives sont, sous l'angle de l'ingénierie, optimisées. Cela n'est possible que si le fait d'avoir une sensation de rouge ou une sensation de bleu a des conséquences comportementales, s'il y a un enjeu à ressentir l'un ou l'autre. De cette manière, la sélection naturelle peut se saisir de ces différences de sensation et les corriger jusqu'à ce qu'elles soient optimisées. De même qu'elle façonne le chant du pinson, bien qu'il soit immatériel, la sélection naturelle est parvenue à façonner nos sensations conscientes, parce qu'elles ont un effet sur notre comportement. Ce constat est incompatible avec toute idée selon laquelle nos sensations seraient de simples épiphénomènes. Si nos sensations n'étaient qu'un écho fortuit de nos états neuronaux, elles n'auraient aucune raison d'exhiber une structure simple et, qui plus est, une structure intelligible sur le plan de l'ingénierie. Nous sommes bien obligés d'accepter que la capacité de ressentir joue une fonction cognitive et qu'elle a été récupérée par la sélection naturelle qui, seule, a pu la faire évoluer pour remplir cette fonction. Bien entendu, des circuits cérébraux ont été sélectionnés pour produire nos sensations, mais à l'image de ceux qui produisent le chant du pinson, ils ont été sélectionnés de manière indirecte. La structure directement sélectionnée se trouve ailleurs, dans l'agencement de nos sensations conscientes. Il n'est certes pas facile d'accepter que des phénomènes immatériels, nos sensations, puissent avoir un effet matériel sur le comportement. Cette question est l'exact miroir du « fossé explicatif » classique. Pour autant que je sache, personne n'est en mesure de résoudre cette question dans l'état actuel de nos connaissances et de nos représentations scientifiques.
La conséquence de cette ignorance est que nous sommes loin, très loin, extrêmement loin de pouvoir imaginer la création de machines conscientes. Nous ne saurions même pas par où commencer. Pire, nous ne saurions pas quoi faire de ces manifestations conscientes, dans la mesure où notre conception des machines les rend totalement inutiles. Les sensations conscientes, qui nous font vivre de l'intérieur le plaisir, la douleur, l'étonnement, le rouge, le goût de la banane ou le sentiment amoureux, constituent l'un des plus grands mystères de la science. Parvenir à les reproduire en machine constituerait à n'en pas douter l'une des plus grandes et peut-être plus terrifiantes découvertes de l'histoire de l'humanité . Ceux qui prétendent que leur programme ou leur robot est doué de conscience se situent obligatoirement quelque part dans un quadrilatère reliant la métaphore, le marketing, la naïveté et l'escroquerie. L'exemple le plus banal de métaphore consiste à dire que les récompenses et punitions utilisées dans l'apprentissage par renforcement sont censées représenter un plaisir et une souffrance pour un système d'apprentissage. Quiconque a eu mal aux dents une fois dans sa vie comprend qu'il ne suffit pas de dire qu'un robot souffre pour qu'il souffre. L'existence de machines conscientes est certainement une possibilité, puisque nous existons et sommes dotés de la capacité à éprouver des sensations conscientes. Mais cette possibilité appartient pour un temps indéterminé à la science-fiction. On ne peut bien entendu exclure que l'intelligence artificielle parvienne un jour à développer d'autres formes de conscience qui nous sont inconnues. C'est l'un des arguments utilisés pour plaider le sort du personnage
Data dans Star Trek . Toutefois, ces formes de conscience sont encore plus mystérieuses que ne l'est la conscience animale et humaine. L'idée d'une IA consciente appartient à l'imagination des scénaristes et des romanciers, et rien ne permet actuellement de penser qu'elle puisse s'inviter dans la réalité.

x[modifier]

1. Le comportement de Tay est par exemple décrit dans l'article du journal Le Monde paru le lendemain des faits, le 24 mars 2016, et sur le site du Washington Post le surlendemain. La page de projet initialement créée par Microsoft (tay.ai) semble avoir disparu. Noter que « Tay » est l'acronyme de son propre pseudo @TayandYou.
2. Le robot Sophia, développé par David Hanson et ses collègues, a reçu la citoyenneté saoudienne le 25 octobre 2017 (voir l'article du Monde du 4 novembre 2017). La prouesse derrière le fonctionnement de Sophia ne réside pas dans ses capacités dialogiques, qui restent stéréotypées, mais sur le réalisme de ses expressions faciales. La technique sous-jacente est décrite dans un article publié par David Hanson et ses collègues à la conférence BioRob-2012.
3. La question de la désinformation et de la manipulation par les bots a conduit les responsables du réseau Twitter à promettre de lutter contre ce type d'influence : blog. twitter.com/official/en_us/topics/company/2017/Our-Approach-Bots-Misinformation. html.
4. L'enquête concernant l'utilisation de logiciels pour prédire la récidive et le risque de crime futur a été effectuée par Julia Angwin et ses collègues et publiée dans le journal indépendant ProPublica le 23 mars 2016  : www.propublica.org/ article/machine-bias-risk-assessments-in-criminal-sentencing. L'exemple de Paul Zilly est tiré de cette publication.
5. Voir note précédente.
6. Le biais des systèmes de plongement lexical est analysé dans un article de Tolga Bolukbasi et ses collègues publié dans les comptes rendus de la conférence NIPS en 2016. Ces auteurs proposent des méthodes pour contrecarrer en partie de tels biais, notamment en annulant la composante de genre dans la représentation géométrique des mots qui sont censés être asexués.
7. Michael Kearns et ses collègues ont montré que si l'on corrige des systèmes de classification pour qu'ils traitent différents sous-groupes de la population de manière équitable, alors la qualité de classification se dégrade immanquablement. Leur étude a été publiée en 2017 sur arXiv.org (1711.05144).
8. Ce phénomène qui révèle que le monde social est bien plus « petit » qu'on ne croit a été révélé dans la célèbre expérience de Stanley Milgram qu'il décrit en 1967 dans le numéro 1 de la revue Psychology Today .
9. De manière étonnante, la continuité thématique apparaît comme une conséquence de l'exigence de surprise. Je l'explique dans un article paru en 2017 dans les comptes rendus de la conférence CogSci, p. 1914. L'idée est qu'on ne peut être surpris qu'à propos de choses familières.
10. Voir note précédente.
11. La phrase concernant le désir du public est maintes fois mentionnée comme émanant de Jean Vilar sans que jamais soit mentionné le contexte dans lequel il l'aurait écrite ou prononcée.
12. Amit Datta et ses collègues ont créé automatiquement des profils d'internautes pour étudier la variation selon le sexe des publicités proposées. Cette variation peut être attribuée à de nombreux facteurs  : l'algorithme de profilage du moteur de recherche, la stratégie des annonceurs, le comportement des autres internautes dans les mêmes contextes, etc. sans qu'il soit possible de déterminer la source des biais. Leur étude a été publiée en 2015 dans le numéro 1 des Proceedings on Privacy Enhancing Technologies .
13. La corrélation des caractéristiques sociales entre amis a été démontrée par Lois Verbrugge dans une étude publiée en 1977 dans le volume 56 de la revue Social Forces .
14. L'idée des réseaux génératifs fut notamment présentée par Yoshua Bengio et ses collègues lors de la conférence NIPS en 2014. L'une des premières réalisations spectaculaires utilisant des réseaux à convolution (transposée) fut présentée à la conférence ICLR 2016 par Alex Radford et ses collègues.
15. Voir note précédente.
16. Le système Face2face permet de produire une vidéo en temps réel dans laquelle un personnage reproduit les paroles et les expressions faciales d'une autre personne. Il a été présenté par Justus Thies et ses collègues à la conférence IEEE Computer Vision and Pattern Recognition en 2016.
17. Sur le sujet de la structuration sociale des sympathisants conspirationnistes, voir l'article de Walter Quattrociocchi publié en 2018 dans le numéro 98 de Pour la science hors-série .
18. Nous préférons des amis qui partagent nos valeurs car, dans le passé de notre espèce, ce sont de tels amis qui présentaient le danger le plus faible pour nous-même. Ce type de structuration sociale serait la conséquence de l'utilisation d'armes létales dans notre histoire phylogénétique. Voir par exemple l'article que j'ai publié en 2016 dans le Handbook of Communication Science par De Gruyter Mouton  : www.dessalles.fr/papers/Dessalles_13011902.pdf.
19. Voir note 182 ci-dessus.
20. L'utilisation des systèmes d'aide intelligents pour la décision juridique est explorée par exemple dans un article de Jon Kleinberg et ses collègues publié en 2017 dans le volume 133 du Quarterly Journal of Economics . Ces auteurs déclarent notamment que « de bons outils de prévision n'améliorent pas nécessairement les décisions ».
21. La lettre ouverte contre les armes létales autonomes peut être consultée sur futureoflife.org/lethal-autonomous-weapons-pledge.
22. L'étude de 2013 prévoyant l'automatisation imminente d'une proportion importante d'emplois a été publiée par Carl Benedikt Frey et Michael Osborne dans le numéro 114 de Technological Forecasting and Social Change . La réfutation de ces prévisions est le fruit d'une enquête de Tom Morisse publiée sur le site Fabernovel  : www.fabernovel.com/insights/economie/ metiers-menaces-par-l-ia-4-ans-apres-l-etude-d-oxford-le-verdict.
23. Les prédictions du World Economic Forum concernant l'automatisation des métiers peuvent être consultées sur www3.weforum.org/docs/WEF_Future_of_ Jobs_2018.pdf.
24. L'histoire des golden boys est présentée de manière simplifiée. Les programmes informatiques qui les ont supplantés présentaient aussi l'énorme avantage d'être très rapides. Cette transition est très bien décrite dans Le Trading algorithmique publié en 2008 sur arXiv.org (0810.4000) par Victor Lebreton.
25. Le programme de diagnostic dermatologique est décrit en 2017 dans le numéro 7639 de la revue Nature par Andre Esteva et ses collègues. Leur réseau de neurones convolutifs a été entraîné sur près de 130 000 images associées à plus de 700 classes de maladies. Le réseau ne partait pas de zéro  : il avait été préentraîné sur plus d'un million d'images de la vie courante. Une étude ultérieure de Holger Hänßle et ses collègues, publiée en 2018 dans Annals of Oncology montre qu'un tel réseau peut produire un diagnostic avec un taux d'erreur moindre que celui des spécialistes.
26. Voir note 183 ci-dessus.
27. Le 5 octobre 2015, le Quotidien du Peuple en ligne (en.people.cn) reprend une nouvelle du China Daily annonçant que toutes les rues de la ville de Pékin sont surveillées. Les informations concernant la surveillance des citoyens en Chine sont commentées dans l'édition du 12 octobre 2017 du South China Morning Post . La société Isvision basée à Shanghai serait chargée de reconnaître les visages à partir d'une base stockant 1,3 milliard d'identités.
28. Les propos tenus par Eric Schmidt lors d'une interview à la chaîne CNBC le 3 décembre 2009 sont  : « If you have something that you don't want anyone to know, maybe you shouldn't be doing it in the first place. »
29. Les chiffres concernant la surveillance par la Stasi en Allemagne de l'Est varient considérablement en fonction de ce que l'on entend par « informateur ». Le chiffre de plusieurs centaines de milliers indiqué dans la page allemande de Wikipedia se situe dans le bas de la fourchette.
30. La notion de neural lace a été imaginée dans les romans de Iain Banks. Un article de Jia Liu, Charles Lieber et onze collaborateurs publié en 2015 dans le numéro 10 de la revue Nature Nanotechnology explique comment ces chercheurs sont parvenus à injecter à la seringue un circuit électronique souple en forme de grille de l'ordre du centimètre carré qui s'est déployé dans le cerveau de la souris et a établi des contacts avec les neurones de la zone concernée.
31. Elon Musk a exprimé maintes fois ses raisons pour augmenter l'être humain, notamment à l'aide d'interfaces cérébrales, par exemple en 2017 à l'occasion du World Government Summit.
32. Les opinions de Jürgen Schmidhuber sur l'opportunité pour les humains de s'unir physiquement à des systèmes artificiels intelligents sont exprimées dans une interview publiée le 15 mai 2018 dans Bloomberg Businessweek .
33. Bryan Johnson exprime ses idées sur la symbiose et la coévolution entre l'être humain et l'IA dans l'article du 20 octobre 2016 où il annonce le lancement de sa société Kernel (medium.com/@bryan_johnson).
34. À propos de l'absence de direction dans l'évolution, on peut lire le livre de Stephen Jay Gould, L'Éventail du vivant. Le mythe du progrès, publié en 1997 au Seuil, un an après sa version en anglais. En ce qui concerne la critique d'une évolution « vers » le langage, voir mon article de 2017, « Language, the missing selection pressure » (arxiv.org/abs/1712.05005).
35. La phéromone s'évapore progressivement pour permettre au système d'oublier. Lorsque mes fourmis sont en train d'explorer, je leur fais déposer une autre phéromone, une phéromone répulsive, pour éviter qu'elles ne reviennent trop facilement sur leurs pas. Ce stratagème accélère l'exploration. Je ne sais pas si cette idée de phéromone négative correspond à une réalité biologique.
36. Le cas de Jonathan I., ce peintre ayant perdu la vision et la conceptualisation des couleurs, est décrit dans un article d'Oliver Sacks et Robert Wasserman publié dans The New York Review of Books, le 19 novembre 1987.
37. L'article de von der Malsburg écrit en 1981 a pour titre « The correlation theory of brain function ». C'est un rapport technique (numéro 81-82) du département de neurobiologie de l'Université de Göttingen. Il écrira plusieurs articles conceptuellement plus précis avec des coauteurs en 1986.
38. L'hypothèse de synchronisation neuronale a de nombreuses vertus, comme celle d'expliquer que l'on distingue un objet des parties qui le composent. Je ne confonds pas la couleur argent du logo de la voiture avec la couleur rouge de la voiture elle-même. Certaines opérations mathématiques utilisant le produit tensoriel ou la convolution cyclique permettent de combiner des vecteurs d'activation de telle manière que le composé conserve l'information sur sa composition. Même si ces opérations mathématiques peuvent être réalisées avec des neurones artificiels, leur plausibilité dans le contexte des neurosciences n'a pas été établie.
39. Le terme de singleton a été imaginé par Nick Bostrom dans un article de la revue Linguistic and Philosophical Investigations dans lequel il envisage la survenue d'un singleton constitué d'une IA.
40. L'épisode mettant en scène le procès de Data est le neuvième de la deuxième saison de la série Star Trek the Next Generation . Il est intitulé The Measure of a Man .
41. L'article de Francis Crick et Christof Koch dans lequel ces auteurs postulent un lien entre la synchronisation neuronale et la conscience phénoménale a été publié en 1990 dans le numéro 2 de Seminars in the Neurosciences .
42. À propos du fossé explicatif ( explanatory gap ), voir l'article « Facing up the problem of consciousness », publié en 1995 par David Chalmers dans le numéro 2 du Journal of Consciousness Studies .
43. L'argument concernant l'optimalité d'espaces qualitatifs (espaces de sensations conscientes comme les couleurs) a fait l'objet d'un rapport technique en 2001 (disponible à l'adresse www.dessalles.fr/papers/Dessalles_01082301.pdf).
44. Quiconque saurait créer une machine consciente pourrait faire en sorte qu'elle souffre atrocement sans perspective d'arrêt ou qu'elle éprouve l'équivalent de nos orgasmes de manière répétitive. Ces thèmes sont explorés dans la série Black Mirror (voir note 177 du chapitre 1).

x[modifier]

CHAPITRE 4 L'IA zombie : savoir faire sans rien savoir[modifier]

Une planète qui tourne autour du Soleil se comporte de façon à décrire une ellipse parfaite. Il ne viendrait pourtant à l'idée de personne de penser que la planète est intelligente et qu'elle sait ce qu'est une ellipse. Un réseau de neurones entraîné pour la reconnaissance d'images sait-il qu'il a reconnu un chat ? Sait-il seulement ce qu'est un chat ? Peut-on être intelligent sans rien savoir, à la manière d'un zombie qui saurait effectuer les tâches intelligentes d'un être humain, mais seulement de manière réflexe ? L'intelligence artificielle qui suscite l'engouement actuel est à bien des égards une IA zombie. Et cela ne va pas sans poser quelques problèmes.

x[modifier]

Des décisions aveugles[modifier]

Nos sociétés sont en train de confier à des programmes intelligents le soin de conduire des voitures, de réaliser des diagnostics médicaux ou d'accorder des prêts bancaires. Nous avons vu que des programmes sont chargés d'évaluer la dangerosité des prévenus lors des procès (avec le risque d'avoir des décisions biaisées). Peut-on imaginer que l'intelligence artificielle puisse un jour décider de tout ? Il y a bien un type de décision que l'IA numérique pourrait facilement effectuer, et que pourtant nous ne sommes pas près de lui abandonner. En matière policière par exemple. En cas de suspicion d'homicide, une enquête est obligatoire. Les policiers peuvent s'aider d'outils statistiques pour cerner le degré probable d'implication des individus qui forment l'entourage de la victime. Tous les meurtres étant répertoriés, on dispose d'une base d'exemples rêvée pour actionner l'apprentissage automatique. Peut-on imaginer un monde dans lequel des programmes réaliseront de meilleures enquêtes policières que les êtres humains ? La réponse est assurément non, en tout cas pas avec les seuls outils de l'IA numérique. Pourquoi ? La première proposition d'un programme enquêteur confronté à l'empoisonnement d'une victime serait souvent assenée avec confiance  : « C'est le conjoint qui a fait le coup ! » Et les mesures statistiques donneraient raison après coup, à n'en pas douter, à de tels enquêteurs artificiels qui sont eux-mêmes fondés sur l'exploitation de statistiques. Mais cela revient à déclarer la culpabilité sur la base d'une simple probabilité. Or il s'agit d'un domaine où le coût d'une erreur, qui revient à envoyer un innocent en prison pour des années tout en laissant un coupable en liberté, est généralement considéré comme trop élevé pour qu'on s'en remette à une estimation probabiliste. Les défenseurs d'une décision automatisée répliqueront que les enquêteurs humains commettent eux aussi des erreurs. Certes, mais le problème de la décision statistique est que ses biais peuvent être facilement anticipés. Les meurtriers auraient tôt fait de s'assurer une totale impunité en vérifiant que d'autres personnes dans l'entourage de la victime correspondent mieux aux stéréotypes du programme.
Imaginons que la s œur de la victime ait également été empoisonnée quatre ans plus tôt. Un programme d'IA numérique peut-il dénicher cette information par lui-même, et en tenir compte dans sa décision ? La réponse aux deux questions est non. Le décès par empoisonnement de la s œur saute aux yeux des enquêteurs humains car il se présente sous la forme d'une coïncidence suspecte. Les systèmes d'IA numérique doivent leur expertise à l'exploitation statistique de données au cours de laquelle toute coïncidence est noyée dans la masse. L'enquêteur artificiel a donc peu de chances de voir les particularités du contexte entourant le meurtre. Peut-on néanmoins lui dire que la sœur a été empoisonnée ? Non plus, car le système comprend seulement les valeurs des paramètres prévus à l'avance pour décrire un cas d'homicide. Il est peu probable que l'on ait pensé à inclure le type de décès des frères et s œurs dans l'ensemble des paramètres d'entrée. Et, quand bien même, il ne s'agit là que d'un exemple parmi un nombre incalculable d'autres possibilités de coïncidences pertinentes.
La communication que l'on peut avoir avec un système d'IA numérique est extraordinairement limitée. On lui présente une situation, et le système tire une conclusion. C'est tout. Comment l'amener à reconsidérer sa conclusion en faisant observer que la s œur de la victime est décédée d'une manière similaire ? Comment lui dire, après qu'il a hâtivement conclu à la culpabilité du conjoint, que ledit conjoint était ailleurs, avec sa cousine, au même moment ? La situation présentée en entrée du système comporte un ensemble déterminé de paramètres qui ne peut inclure toutes les circonstances imaginables. Si l'on ne peut pas communiquer ces circonstances à l'IA, le mieux que l'on puisse faire est de lui demander de nous indiquer son deuxième choix, par exemple le fait que c'est le voisin qui est maintenant le coupable tout désigné. Nous sommes bien loin d'une procédure policière qui, assez naturellement, tournerait son attention vers la s œur de la victime et la cousine du conjoint.
Il est exagéré de dire que l'intelligence artificielle numérique prend des décisions aveugles, dans la mesure où elle voit la situation qu'on lui présente en entrée. Disons qu'elle a des œillères. Des œillères tellement strictes qu'il est impossible de lui faire détourner le regard hors des paramètres d'entrée prévus par ses concepteurs. Un monde gouverné par de tels systèmes ne serait pas sans rappeler un univers administratif de cauchemar dans lequel des employés zélés se contenteraient d'appliquer des procédures strictes. Non seulement ces systèmes numériques dits intelligents sont muets, incapables d'expliquer leurs décisions, mais ils sont incapables, par construction, de voir tout élément de connaissance imprévu que l'on souhaiterait porter à leur attention. De tels systèmes peuvent parfois prendre les bonnes décisions dans des circonstances trop complexes pour un humain, comme lorsqu'ils jouent au go, et cela leur vaut certainement le qualificatif d'« intelligents ». Mais ne pourrait-on leur ôter leurs œillères en les rendant capables d'intégrer des connaissances ?

x[modifier]

Le savoir implicite a ses limites[modifier]

Si un pays décide de modifier la vitesse maximale sur son réseau routier, un système de conduite autonome fonctionnant avec un réseau de neurones devra réapprendre à conduire. Une limite de vitesse qui passe à 80 km/h sera traduite comme une nouvelle pénalité dont le réseau doit très progressivement apprendre à tenir compte. Fort heureusement, les êtres humains ne fonctionnent pas ainsi. Ils sont capables d'assimiler des informations qui leur sont données de manière explicite, comme le changement de vitesse limite. Les systèmes d'IA numérique ne disposent que de connaissances implicites qu'aucune information explicite ne peut modifier. Toutefois, si la différence avec la cognition humaine est frappante, elle n'est pas absolue. Il nous arrive nous aussi de fonctionner avec des connaissances implicites.
Je me souviens d'une jeune fille au pair qui s'est occupée de mes enfants. Elle et ses deux s œurs avaient le même âge, elles étaient triplées univitellines, c'est-à-dire qu'elles avaient le même patrimoine génétique. Elles n'étaient pas exactement identiques d'apparence, mais leur ressemblance était frappante. Il leur arrivait fréquemment d'en jouer pour surprendre leur entourage. Lorsque j'ai eu l'occasion de les voir toutes les trois ensemble, j'étais incapable de décrire leurs différences avec des mots, ni d'ailleurs leur ressemblance pourtant si évidente. Notre capacité à reconnaître les visages est portée par des zones corticales particulières dont le fonctionnement semble peu « pénétrable ». Je sais reconnaître les visages qui me sont familiers et je sais reconnaître les objets de la vie quotidienne, comme les sept ou huit sortes de cuillers dépareillées qui sont dans mon tiroir. Mais si je suis capable de décrire ce qui distingue telle cuiller d'une autre, il m'est en revanche très difficile de traduire ma connaissance des visages familiers sous une forme explicite.
Notre connaissance implicite des visages rappelle le fonctionnement d'un réseau de neurones. Dans un réseau utilisé pour l'identification, la connaissance de chaque visage est distribuée sur les poids de millions de connexions. Jamais un tel système, utilisé dans une entreprise, ne se dira qu'il reconnaît l'assistant à son sourire ou l'informaticienne à sa frange. Cette incapacité est la principale limitation qui empêche les réseaux de neurones d'expliciter leurs décisions. Certaines techniques visent à corriger ce défaut en dotant le réseau de capacités attentionnelles. On masque telle ou telle partie d'une image pour extraire les éléments qui ont le plus influé sur l'identification . Dans les cas favorables, on s'aperçoit que la présence d'un seul élément, la frange de l'informaticienne par exemple, a suffi à produire l'identification. Dans la plupart des cas, toutefois, il est difficile de trouver, même après coup, des raisons séparées qui ont conduit à la décision. Ces systèmes prennent des décisions qu'on pourrait qualifier d'« instinctives ». Cette façon de fonctionner à l'instinct peut sembler par moments géniale, comme pour le fameux coup 37 d'AlphaGo, et par moments inepte, comme de conclure à la culpabilité de quelqu'un qui a un alibi. Notre propre utilisation de la connaissance implicite n'est parfois pas meilleure, comme lorsque je m'obstine à reconnaître un ancien étudiant parti depuis dix ans sous les traits d'un étudiant actuel. À la différence d'un réseau de neurones, toutefois, je réalise que mon identification ne peut être qu'erronée. Je suis capable de nier ce résultat.
La capacité de négation est l'une des capacités fondamentales qui font défaut aux intelligences artificielles numériques. Pour un système entraîné à distinguer des images d'animaux, tout est à la fois un peu chat, un peu chien et un peu autruche. Les réseaux de neurones utilisés pour la reconnaissance sont complétés par une toute dernière étape de décision qui détecte le neurone le plus actif de la couche de sortie. C'est ainsi qu'ils décident qu'il s'agit finalement d'un chat plutôt que d'un autre animal. Cela n'équivaut pas au fait de décider qu'il ne s'agit pas d'un chien. C'est la raison pour laquelle une IA numérique ne peut pas comprendre la notion d'alibi.
Les systèmes d'IA numérique étant incapables d'effectuer des négations, ils ne voient de problème nulle part. Pour eux, rien n'est impossible. Le fait qu'un chat ponde des œufs se verra tout au plus affubler d'une probabilité faible. Une impossibilité se présente par nature sous une forme de contradiction explicite : on peut être chat, on peut pondre des œufs, mais pas les deux ensemble. Un système fondé sur l'utilisation de connaissances purement implicites ne peut ni produire ni utiliser des constats d'impossibilité. Cette insensibilité aux incohérences est problématique, non seulement pour prendre en compte un alibi ou pour repérer des anomalies, mais aussi pour communiquer avec les êtres humains qui, eux, sont au contraire particulièrement sensibles aux contradictions.
Le problème de la négation cache une difficulté plus profonde encore à laquelle l'IA numérique est confrontée, celle d'apprendre les relations. Une négation porte toujours sur une relation : être un chat ou pas, pondre des œufs ou pas. Or les relations ne sont pas évidentes à détecter. Où se trouve la relation de ponte dans une scène qui montre un animal et des œufs ? En 2015, Yoshua Bengio et sept de ses collègues ont publié une étude impressionnante . Leur réseau de neurones était capable de décrire le contenu d'une image. Même si le système a été entraîné à partir d'images déjà décrites, il pouvait produire des descriptions inédites, indiquant par exemple à bon escient à propos d'une nouvelle image : « Une femme lance un frisbee dans un parc. » La prouesse vient de ce que leur système utilise un système attentionnel pour tirer avantage de caractéristiques saillantes présentes dans des zones différentes de la scène. C'est ainsi qu'il peut associer des mots comme « femme », « frisbee », ou « parc » à l'image qu'on lui a présentée. Qu'en est-il du verbe « lancer » ? Ce verbe suppose une relation entre le lanceur et l'objet lancé qui réside dans l'attitude du premier et la position du second. Il est donc plus subtil à repérer. Le réseau, dans cette étude, contient-il un détecteur pour des lancers d'objets ? C'est peu probable. Il est bien plus vraisemblable que les mots « lancer » et « frisbee » soient fortement associés dans les descriptions verbales qui ont été données au système. Autrement dit, en détectant le frisbee, le réseau a deviné qu'il s'agissait d'un lancer de frisbee, mais il ne l'a pas vraiment vu. Il aurait fourni la même description si le frisbee s'était trouvé derrière la personne au bras tendu.
D'autres travaux ont été menés spécifiquement pour apprendre à reconnaître des relations comme « est à droite de », « est le plus éloigné de », « a la même forme que » dans des scènes visuelles. Ces systèmes apprennent la relation « est à droite de » en observant des milliers d'associations entre des scènes et des expressions comme « le cube est à droite de la sphère » ou « la sphère est à droite du cylindre ». La variabilité du sujet et du complément leur permet finalement d'abstraire la relation. Cette manière assez fastidieuse d'apprendre les relations contraste avec l'apprentissage humain. Lorsqu'un enfant comprend ce que signifie « lancer la balle », il comprend du même coup ce que veut dire « lancer x » pour n'importe quel objet x . Autrement dit, il apprend une relation systématique. Mais pour une IA numérique, la question se pose bel et bien.
En 1988, le philosophe Jerry Fodor a mis le doigt, avec son ami Zenon Pylyshyn, sur cette question de la systématicité . Fodor, disparu en 2017, est l'un des philosophes contemporains les plus marquants dans le domaine de la philosophie de la connaissance. Son travail a eu une influence considérable sur la manière de penser de nombreux chercheurs, y compris la mienne. Quelle est la critique adressée par Fodor et Pylyshyn en 1988 à l'encontre des réseaux de neurones ? Ils font observer que certaines pensées sont systématiquement liées. Si votre cerveau vous permet de former la pensée « Marianne a tué Kevin », alors il pourra systématiquement comprendre « Cécile a tué Kevin ». Évidemment ! Sauf que cela n'a rien d'évident pour un réseau de neurones. Le réseau pourrait savoir traiter la première relation sans être capable de traiter la seconde. Ce problème de systématicité a donné lieu à de passionnantes polémiques . L'argument principal de Fodor est que la relation « Marianne a tué Kevin » est portée par certains neurones, tandis que la relation « Cécile a tué Kevin » est portée par d'autres neurones. Peut-être par très peu de neurones, voire un seul neurone dans chaque cas. Ces groupes de neurones ont été recrutés à la suite d'apprentissages répétés. Si ces neurones n'ont rien à voir entre eux, alors il se peut qu'aucun neurone n'ait jamais été recruté pour représenter « Jacques a tué Kevin », si bien que la relation n'est pas systématique. C'est exactement la même chose que pour un apprentissage par c œur : rien ne garantit qu'il n'y aura pas de trous de mémoire. Pour garantir la systématicité, il faut être certain que les neurones représentant « a tué Kevin » soient les mêmes dans tous les cas . Or rien ne permet de l'assurer. Si ces neurones ne sont pas les mêmes dans tous les exemples de la relation « X a tué Kevin », rien n'empêche qu'ils existent pour la pensée concernant Marianne et Cécile, mais qu'ils soient inactivés ou même qu'ils n'aient jamais existé dans le cas de Jacques, ce qui rendrait la pensée « Jacques a tué Kevin » impossible à représenter . Nous rencontrons couramment cette situation avec les expressions figées. Nous comprenons le sens de « prendre ses jambes à son cou » comme signifiant se mettre à courir vite, alors que « prendre ses bras à son cou » ne veut rien dire. Tout se passe comme si un réseau de neurones traitait toutes les relations comme autant d'expressions figées.
L'absence de systématicité éloigne encore davantage l'IA numérique de l'idée que nous nous faisons de l'intelligence. Cette forme d'intelligence artificielle est non seulement aveugle aux incohérences et sourde aux éléments de connaissance qu'on pourrait lui donner (un alibi par exemple), mais sa capacité de compréhension offre l'image de l'emmental, ce fromage parsemé de trous. L'intelligence réflexe qui fonctionne à partir d'une connaissance implicite rencontre donc de sévères limites. Est-ce une raison pour retourner aux systèmes symboliques ?

x[modifier]

Le savoir explicite a aussi ses limites[modifier]

Les programmes qui utilisent des symboles et des règles ont leurs propres défauts. J'ai utilisé ce type de programme pour tenter de reconstruire des conversations, notamment une conversation spontanée que des étudiants avaient enregistrée pour moi. Il y était question de projeter des diapositives sur la porte qui leur servait d'écran. Le projecteur, posé sur une étagère, affichait l'image à moitié sur le mur. Le début de leur discussion portait sur l'opportunité de déplacer le projecteur sur le bureau. Pour la reconstruction, le programme disposait d'une connaissance sous forme de règles. L'une d'elles disait que si l'on déplace un objet d'un endroit x à un endroit y, alors cet objet se trouve ensuite en y . J'ai lancé le programme qui a facilement détecté le problème initial, le fait que l'image n'était pas au bon endroit. À ma grande surprise, au lieu de proposer de changer la place du projecteur, il a suggéré de prendre l'image et de la déplacer sur la porte !
Il était bien sûr facile d'empêcher la règle de se déclencher : il suffisait d'ajouter dans ses prémisses que l'objet déplacé devait être un objet physique, et en précisant par ailleurs qu'un projecteur vérifie cet attribut d'être physique et qu'une image ne le vérifie pas. Cette solution sonnait faux. Si une IA avait à connaître un million d'entités, je devrais ajouter un million de fois l'information précisant si l'entité est physique ou non, et cela simplement parce qu'une règle venait de s'appliquer à tort.
J'ai compris peu à peu que la connaissance symbolique, celle qui se présente sous forme de règles, est une connaissance « hors sol ». Vouloir la connecter à la perception relève d'une illusion . Prenons des verbes comme frôler, raser, effleurer, caresser, toucher, palper, heurter, frotter, astiquer, brosser, frictionner, érafler, récurer, décaper, etc. Comment faire comprendre leurs sens respectifs à la machine sans utiliser d'images ? On pense à préciser que « toucher » implique un contact, ce qui n'est pas le cas pour « frôler ». Qu'en est-il pour « effleurer » ? Et comment définir « contact » ? Si chaque distinction de sens requiert l'introduction d'un nouveau concept qui doit à son tour être défini et distingué des autres concepts, la tâche semble être sans fin. Nous avons discuté des ontologies comme CYC dont le but est d'élaborer un dictionnaire mental en définissant des concepts à partir d'autres concepts. Une intelligence peut-elle fonctionner en tirant sa connaissance d'une ontologie déconnectée de la perception ?
L'une des personnes qui ont le plus critiqué l'idée d'un dictionnaire mental est, bizarrement, celui qui fut le champion d'un « langage de la pensée ». Pour Jerry Fodor, les concepts sont les éléments d'un lexique mental que l'on peut combiner pour former des pensées. Ainsi, comprendre le sens d'une phrase exprimée en français revient à une simple traduction, du français vers le langage de la pensée. Ce que Fodor refuse avec véhémence, en revanche, c'est l'idée que les concepts soient eux-mêmes des combinaisons . Pour lui, l'intelligence humaine n'utilise pas d'ontologie. Un lexique mental, oui, un dictionnaire mental, non. Fodor a de nombreux arguments pour cela. Tout d'abord, les philosophes sont incapables de dire quels seraient les concepts primitifs, ceux à partir desquels tous les autres seraient définis par combinaisons successives. Du côté technique, les dizaines d'ontologies qui existent ont dû faire des choix, et ces choix varient d'une ontologie à l'autre. Par exemple une ontologie non spécialisée comme Mikrokosmos divise son monde en objets, événements et propriétés, tandis qu'une autre comme Dolce divise le sien en entités abstraites, endurantes (qualité ou substance) et perdurantes (entités circonscrites dans le temps, comme les événements). Les objets de Mikrokosmos peuvent être physiques, mentaux ou sociaux. Tous ces choix, on le comprend, sont un peu arbitraires.
Ensuite, Fodor fait remarquer qu'il est très difficile de s'accorder sur la moindre définition. Un exemple classique dit que « tuer » peut être défini comme « causer la mort de ». Pourtant, on ne dira pas d'un juge nord-américain condamnant un prévenu à mort qu'il le tue. Si les concepts étaient stockés dans notre mémoire sous la forme de définitions, il nous serait facile de produire des définitions inattaquables à la demande. Or ce n'est presque jamais le cas. Je suis incapable de définir sans réfléchir ce que veut dire contourner, poursuivre ou conduire ; il me faut du temps dans chaque cas pour élaborer une définition acceptable.
Lorsque je rédigeais ma thèse de doctorat, j'adoptais un point de vue un peu différent, mais classique lui aussi, selon lequel le sens des concepts émergerait de toutes les règles dans lesquelles chacun est impliqué. Ainsi, je connaîtrais le concept de chat parce qu'une règle me dit qu'il miaule, une autre me dit qu'il griffe, une autre me dit que c'est un mammifère, et ainsi de suite. Nul doute que toutes ces règles existent dans une ontologie comme CYC. Cette façon de concevoir la nature des concepts s'est écroulée quand j'ai lu Fodor. J'ai compris grâce à lui que, dans un tel système de règles et de relations, tout finit par dépendre de tout . En renonçant aux définitions, on ne sait plus ordonner les concepts. Placer griffer avant chat, chat avant miauler, miauler avant crier serait très arbitraire, sans compter que l'on arrive rapidement à des circularités. Imaginer que le sens des concepts émerge d'un écheveau de règles, rend leur apprentissage par un enfant et la révision des connaissances inconcevables.
En fin de compte, on ne sait plus ce que sont les concepts. Si ce ne sont ni des perceptions abstraites, ni des définitions en termes d'autres concepts, ni des symboles impliqués dans des règles, sur quoi doit-on ancrer la connaissance dont une intelligence, qu'elle soit naturelle ou artificielle, a besoin pour fonctionner ?

x[modifier]

Une intelligence faite à la fois de nombres et de symboles ?[modifier]

Comment se sortir de ce qui ressemble à un piège inextricable ?
D'un côté, si les concepts sont abstraits d'images ou de textes, comme avec les réseaux de neurones, alors on ne sait pas interdire qu'un chat ponde des œufs ; on n'est même pas sûr de repérer la relation entre le chat et les œufs. D'un autre côté, l'approche symbolique rencontre aussi des problèmes insurmontables  : ses symboles sont hors sol, déconnectés de la perception ; si l'on tente de définir les concepts à l'aide d'autres concepts, on arrive à un système qui n'est jamais complet, avec des définitions bancales, une inflation sans bornes de nuances et des concepts primitifs non définis ; si l'on espère que le sens des concepts émerge de règles, ces concepts ne peuvent être appris. Le rêve de plus d'un chercheur serait de profiter des avantages des deux approches  : on confierait à un réseau de neurones le soin de se connecter à la perception, de reconnaître un chat lorsqu'un chat se présente, et à l'IA symbolique le soin d'appeler un chat un chat et d'en déduire qu'il ne pond pas d' œufs.
L'une des manières de réaliser un tel système mi-numérique, mi-symbolique serait d'établir la connexion en passant par les mots. Les réseaux de neurones savent déjà connecter des objets perçus et, parfois, des relations observées à des mots. Si l'on parvient à connecter ces mots à des entités et des relations connues du système symbolique, le tour est joué. Coupler ainsi un réseau de neurones avec un système de règles peut être une bonne manière de réaliser un système de conduite pour véhicule autonome qui soit efficace : le réseau perçoit que le véhicule se trouve sur une route à double sens ; il connecte cette information au symbole double_sens ; une règle symbolique en déduit alors que la limitation est exactement, non approximativement, de 80 km/h. Si la vitesse observée est de 85 km/h, le système est alors capable de détecter une anomalie explicite, ce qu'aucun des deux sous-systèmes séparément n'aurait été en mesure de faire.
Il s'agit là probablement d'une solution acceptable pour construire des systèmes spécialisés. Est-ce un moyen prometteur pour réaliser une intelligence artificielle générale comme celle dont Jürgen Schmidhuber annonce la survenue prochaine  :
Dans un futur pas très lointain, je pourrai parler à un petit robot et lui enseigner comment faire des choses compliquées, comme assembler un smartphone simplement en lui montrant et en lui disant ce que je fais [ …].
Schmidhuber fait partie des pionniers les plus inventifs du domaine des réseaux de neurones. Il a donc un avis autorisé sur la question. Ou bien a-t-il une confiance exagérée dans ce que peuvent réaliser les techniques actuelles et leurs extensions ? Imaginons que le petit robot qu'il mentionne soit doté de la capacité de jouer au go. Supposons maintenant que la personne qui joue avec lui triche en posant deux pierres, au lieu d'une seule comme il se doit. Le robot, s'il fonctionne comme AlphaGo, ne verra là aucune anomalie et continuera à jouer comme si de rien n'était ! Imaginons cette fois que la personne pose en toute facétie une pierre rouge. Dans l'univers du go, les pierres ne peuvent être que blanches ou noires. Un joueur humain trouverait la plaisanterie de très mauvais goût. Pas le robot. Il analysera l'image du goban transmise par sa caméra, et comme il s'attend à détecter une nouvelle tache blanche ou noire, son réseau neuronal convergera vers l'une ou l'autre, probablement la noire. Schmidhuber défendrait son robot en prétendant que son détecteur de nouveauté repérerait un signal dépassant un certain seuil. Quelque chose de rare s'est produit. Oui, mais quoi ? Un réseau de neurones ne le sait pas.
Si l'on a pris la peine de connecter le réseau neuronal du robot à un système de règles symboliques, on peut imaginer que le robot constate le viol d'une règle précisant que chaque joueur doit jouer une seule pierre à son tour avec la couleur qui lui est dévolue. Mais cela ne fonctionne pas avec la pierre rouge. Pour le robot, le concept même de pierre rouge n'existe pas dans le contexte du go, ni du côté du réseau neuronal ni du côté des règles. Au mieux, le réseau aura détecté quelque chose de rouge ; le système de règles ne fera rien de cette information, si bien qu'aucune anomalie ne sera détectée.
On ne peut qu'être déçu si, en couplant un réseau de neurones à un système de règles, on espère que chacun des deux composants puisse pallier les déficiences de l'autre. D'un côté, le réseau de neurones ne détectera que ce qu'il s'attend à détecter, il aura du mal à repérer les relations et le fera de manière non systématique. De l'autre côté, le système symbolique ne détectera que les anomalies prévues explicitement dans ses règles ; de plus, l'ensemble des symboles impliqués dans les règles, même s'il y en a beaucoup, restera bien trop pauvre pour représenter les nuances que l'on peut reconnaître avec le réseau (comme dans notre exemple de la gradation frôler, effleurer, caresser, toucher …). Le problème le plus limitant, cependant, est lié au fait qu'un tel système mixte, mi-numérique, mi-symbolique, est incapable d'apprendre par lui-même.
Un réseau de neurones qui reconnaît des images produit des étiquettes symboliques comme « chat » ou « porte-conteneurs » lorsqu'il reconnaît les entités correspondantes. Cet exploit est bien sûr rendu possible par l'algorithme d'apprentissage, mais pas seulement. Des humains ont dû au préalable associer un mot à chaque image, en indiquant par exemple l'étiquette « chat » pour les images montrant principalement un chat. Chaque étiquette parmi l'éventail des étiquettes possibles (il y en avait mille dans l'étude qui fit connaître l'apprentissage profond ) est ensuite assignée à un neurone de la couche de sortie. Ces étiquettes constituent l'information de supervision qui permet d'indiquer au réseau ce qu'il doit apprendre. L'extension de l'apprentissage par supervision pose des problèmes considérables dès que l'on quitte un monde d'objets que l'on peut distinguer de manière exclusive. Certains mots, comme « moutarde » et « condiment », ne sont pas exclusifs. Doit-on systématiquement apposer, à l'étiquette « moutarde », celle de « condiment » ? Mais alors, le réseau n'apprend pas cette relation de subordination, puisqu'on la lui donne. Et quel étiquetage des données va permettre à un réseau d'acquérir le mot « chose » ? Inversement, comment faire apprendre au réseau que ce qui constitue un vélo dans un contexte général peut cesser d'être un vélo lorsqu'on parle du Tour de France ? Dans un tel cas, c'est le contexte qui dicte l'étiquette pertinente à associer aux objets. Des étiquettes trop génériques, indépendantes du contexte, comme « vélo », ne permettent pas au réseau de se montrer intelligent en repérant par exemple l'incongruité d'un VTT au sein du peloton. Il faudrait aussi prévoir un étiquetage plutôt fastidieux pour permettre au réseau d'acquérir des mots comme support, face ou ensemble qui dénotent les relations : « servir de support à », « faire face à », « être ensemble ».
Évidemment, ces problèmes ne se poseraient pas si l'on était capable de fabriquer un robot qui apprendrait relations et règles rien qu'en observant le monde et en agissant sur lui. Quel chercheur en IA n'a pas rêvé de réaliser un tel système ? Le robot découvrirait par lui-même qu'il doit rester dans la maison, en extrayant la relation « dans », ainsi que l'obligation, de ses observations. Comme AlphaGo Zero, il extrairait de manière non supervisée les caractéristiques fréquentes de l'environnement, puis un système de supervision automatique de type renforcement lui dirait quelles situations sont bonnes ou mauvaises. Il apprendrait ainsi à éviter l'extérieur de la maison. Mais pourrait-il expliciter l'obligation « rester dans la maison » ? Non, car il lui manquera la relation « dans ». Un tel système vit dans un monde graduel fait de situations qui se ressemblent plus ou moins, parmi lesquelles certaines sont plus ou moins bonnes et d'autres plus ou moins mauvaises. Aucun mécanisme ne permet de produire une règle explicite. Ce type de système ne sait pas s'observer lui-même pour se donner une limite claire à ne pas franchir. Sachant que l'on sait extraire des caractéristiques fréquentes, pourquoi ne pas extraire des relations fréquentes ? La relation « dans » en ferait certainement partie. Malheureusement, la moindre scène offre un nombre illimité de relations potentiellement intéressantes : les entités perçues sont à l'intérieur les unes des autres, à droite les unes des autres, ou au-dessus, ou en contact, ou orientées vers un même troisième objet, ou pas, etc. Même un réseau gigantesque ne peut compter les occurrences de toutes ces relations pour établir les statistiques correspondantes.
Toutes ces difficultés laissent à penser que les systèmes d'intelligence artificielle actuels, même en profitant du couplage numérique-symbolique, sont loin de pouvoir produire une intelligence générale. Ils n'en sont même pas l'embryon. Le problème ne vient pas d'une question de puissance de calcul ou de taille de mémoire, il vient de la conception même de ces systèmes. Il leur manque certains mécanismes de représentation et de calcul dont les humains ont la chance d'être dotés. Certains de ces mécanismes sont pourtant connus, même si d'autres restent encore mystérieux.

x[modifier]

Une intelligence qui ne comprend rien[modifier]

On s'attend à ce que l'incapacité à comprendre les relations représente un handicap considérable pour l'intelligence artificielle numérique, notamment dans le domaine du langage. Or les techniques numériques remportent là aussi des succès spectaculaires, même pour résoudre le problème le plus difficile concernant le langage : la traduction automatique. Il est indéniable que les techniques à base de plongement lexical font bien mieux que les techniques symboliques en la matière, car elles peuvent produire des traductions convaincantes quel que soit le sujet sur lequel porte le texte à traduire. Peut-on traduire sans jamais représenter le sens sous forme explicite ?
L'un des chercheurs les plus connus du domaine de l'intelligence artificielle, Douglas Hofstadter, s'est ému de certaines prédictions concernant la traduction automatique. Les traducteurs humains deviendraient en quelques années, selon certaines annonces, de simples contrôleurs de qualité qui n'auraient plus à concevoir le texte traduit. Pour Hofstadter, ni les nouvelles techniques d'apprentissage automatique ni l'augmentation actuelle et future des capacités de stockage et de calcul ne permettront d'atteindre un niveau de qualité acceptable dans la traduction automatisée. D'une manière qui ne serait pas pour déplaire à cet auteur, confions au traducteur automatique qu'il prend pour exemple le soin de traduire en français un élément de sa critique (j'indique mes corrections entre parenthèses). [ …] il y a encore quelque chose qui manque profondément dans l'approche, qui se traduit par un seul mot : comprendre. La traduction automatique n'a jamais mis l'accent sur la compréhension du langage. Au lieu de cela, le domaine a toujours essayé de « décoder » – de sortir (= de s'en tirer) sans se soucier de ce que sont la compréhension et la signification. Serait-il (= Se pourrait-il) en fait que la compréhension n'est (= ne soit) pas nécessaire pour bien traduire ? Une entité, humaine ou machine, pourrait-elle effectuer une traduction de haute qualité sans faire attention à la langue (= au véritable but du langage) ?
Hofstadter répond par la négative à sa propre question. Il utilise plusieurs exemples tirés de ses lectures du jour pour démontrer que la traduction automatique ne comprend rien au texte à traduire. Le sens de son premier exemple est limpide, tout au moins pour un humain  : « Chez eux, ils ont tout en double. Il y a sa voiture à elle et sa voiture à lui, ses serviettes à elle et ses serviettes à lui, sa bibliothèque à elle et sa bibliothèque à lui. » Il s'agit là de la version française traduite à la main à partir de l'anglais, langue où le genre du possesseur est apparent : « There's his car and her car, his towels and her towels, and his library and hers . » Le traducteur automatique n'y a vu que du feu : « Il y a sa voiture et sa voiture, ses serviettes et ses serviettes, sa bibliothèque et les siennes. » Que se passe-t-il si on donne la traduction correcte au système et qu'on lui demande de la transposer en anglais ? On se dit que le genre du possesseur étant indiqué sans ambiguïté (« sa voiture à elle »), il n'aura cette fois aucun mal à traduire correctement. J'obtiens une version légèrement pire que celle que donne Hofstadter : « There is her car and her car him, her towels and her towels, her library to her and his library to him . » Même quelqu'un qui n'a pas grandi dans la langue de Turing se rend compte que cette phrase ne veut rien dire. Elle n'est même pas grammaticalement correcte. Hofstadter conclut :
[Le traducteur automatique] ne lit rien – pas dans le sens humain habituel du verbe « lire ». Il traite du texte. Les symboles qu'il traite sont déconnectés de l'expérience du monde. Il n'a pas de souvenirs auxquels se référer, aucune imagerie, aucune compréhension, aucune signification à mettre derrière les mots qu'il jette si rapidement sur l'écran.
Nous sommes au c œur du problème. Les systèmes de traduction automatique font correspondre des mots avec des mots, du texte avec du texte. Les techniques de plongement lexical utilisent l'analyse d'un grand nombre de textes pour représenter le sens des mots dans un espace géométrique dans lequel des mots voisins ont des sens voisins. Cela permet de traduire mot à mot, ou mieux, groupe de mots à groupe de mots. La technique suffit souvent pour se faire une idée du sens, comme dans la première citation de Hofstadter ci-dessus. Mais comme il le souligne avec force dans son article en utilisant des exemples tirés de langues différentes, les techniques texte à texte sont incapables de se représenter le contexte et surtout de comprendre le point central de ce qui est dit, ce qui donne sa pertinence au passage traité, si bien que ce point central est souvent perdu dans la traduction. Nous allons aborder de front ces questions de contexte et de pertinence dans les prochains chapitres.

x[modifier]

1. Les statistiques concernant les meurtres au sein du couple sont établies par le ministère de l'Intérieur. Voir par exemple le site https://www.egalitefemmes-hommes.gouv.fr/publications/droits-des-femmes/lutte-contre-les-violences/ morts-violente-au-sein-du-couple/.
2. Un exemple de technique attentionnelle est décrit dans un article de Kelvin Xu, Yoshua Bengio et six collaborateurs qui a pour titre « Show, attend and tell  : Neural image caption generation with visual attention ». Il est paru en 2015 dans les comptes rendus de la conférence ICML.
3. L'étude sur la description verbale du contenu des images est celle qui est citée dans la note précédente.
4. Sur l'apprentissage des relations dans une scène visuelle, voir par exemple l'article d'Adam Santoro et ses collègues publié dans les comptes rendus de la conférence NIPS 2017. Leur réseau apprend des associations entre images et des couples question-réponse du type  : « Qu'est-ce qui est à droite de la sphère rouge ? – Le cylindre vert. »
5. Je pense notamment à la série d'articles écrits tour à tour par Jerry Fodor et Paul Smolensky. L'article de Jerry Fodor et Zenon Pylyshyn de 1988 a pour titre « Connectionism and cognitive architecture : A critical analysis » et est paru dans le numéro 28 de la revue Cognition . La première réponse de Smolensky est parue la même année dans le numéro 11 de la revue BBS . S'est ensuivie une série d'articles publiés jusqu'à la fin des années 1990.
6. Nous avons évoqué, p. 40, le fait que la quasi-totalité des réseaux de neurones ne font que simuler l'existence des neurones. Quand on parle des mêmes neurones, on désigne donc les emplacements de la mémoire où sont stockées leurs activations.
7. La défense de Smolensky a essentiellement porté sur le fait que certaines architectures de réseaux de neurones permettent de garantir que la représentation de « Cécile » peut être systématiquement récupérée à partir de la représentation « Cécile a tué Kevin », mais cela ne répond que partiellement à l'objection du manque de systématicité.
8. À propos de la difficulté d'ancrer les symboles dans la perception, voir l'article classique de Stevan Harnad, « The symbol grounding problem », publié dans le numéro 42 de la revue Physica D en 1990.
9. Le livre de Jerry Fodor a été publié en 1975 par Harvard University Press avec le titre The Language of Thought . Sa critique des définitions s'exprime à travers quelques articles comme « Against definitions », publié avec trois coauteurs en 1980 dans le numéro 8 de Cognition, et dans de nombreux autres livres.
10. Fodor dénonce l'idée que chaque concept dépend de tous les autres sous le nom de « holisme ». C'est d'ailleurs le titre d'un livre qu'il a publié en 1992 avec Ernest Lepore chez Blackwell.
11. Les systèmes de définitions sont affligés de nombreux autres problèmes. L'un de ces problèmes, signalé dans la thèse de Laleh Ghadakpour, vient de ce que la compréhension du discours devient impossible. Les structures correspondant aux définitions des différents mots, en se combinant, produisent des structures de plus en plus volumineuses, sans possibilité de simplification. La thèse de Laleh, publiée en 2003 par l'École polytechnique, est disponible à l'adresse www.dessalles.fr/theses/laleh.
12. Les propos de Schmidhuber sur l'IA générale sont à lire dans l'article qui lui est consacré dans l'édition du 15 mai 2018 de Bloomberg Businessweek .
13. Voir note 178 du chapitre 2.
14. Douglas Hofstadter est l'auteur d'un livre fameux, Gödel, Escher, Bach, publié en 1979 et publié en français en 1985 par InterÉditions. Ce livre a suscité de nombreuses vocations, dont la mienne. L'article dans lequel Hofstadter critique la traduction automatique a pour titre « The shallowness of Google Translate ». Il a été publié le 30 janvier 2018 dans la revue The Atlantic .

x[modifier]

CHAPITRE 5 Du réflexe à la réflexion[modifier]

Les techniques de l'intelligence artificielle numérique reposent sur un petit nombre de mécanismes qui ressemblent assez peu à ce que nous savons de l'intelligence humaine. Après avoir appris, ils se comportent de manière réflexe, sans être capables de la moindre réflexion. On pourrait croire qu'en imitant quelques-uns des mécanismes de l'intelligence humaine une IA pourrait acquérir, au moins en principe, un pouvoir bien supérieur. Ce n'est pas le chemin sur lequel le domaine de l'intelligence artificielle s'est engagé récemment. La mode penche résolument pour une approche plus technologique que cognitive. À l'image des avions qui volent sans battre des ailes, l'IA numérique promet de produire des systèmes intelligents efficaces, même s'ils ne fonctionnent pas comme leur contrepartie biologique. On attend pourtant d'une machine intelligente qu'elle produise des pensées intelligibles pour nous, humains. L'intelligence artificielle ne doit-elle pas imiter nos processus cognitifs pour interagir avec nous ? Et ne sera-t-elle pas encore plus intelligente le jour où elle réfléchira comme nous ?

x[modifier]

Une intelligence réflexe[modifier]

Une personne qui adopte un point de vue de mathématicien perçoit un réseau de neurones avant tout comme une fonction : il s'agit, pour chaque situation (un profil d'emprunteur, une image, un tronçon de texte) présentée en entrée du réseau, de calculer un état donné de la couche de sortie (l'emprunt est accepté, l'image représente un porte-conteneurs, la phrase correspond à tel point de l'espace des significations). Une fois que le réseau a appris la fonction souhaitée, il fonctionne de manière réflexe  : à telle situation en entrée correspond tel état en sortie. Bon, le réseau fait un peu mieux que cela. Si on lui présente une situation inédite, il va être capable de lui associer un état de sortie raisonnable, celui qui correspond à la situation connue la plus proche de celle qui est présentée. Cette aptitude à généraliser permet à un réseau utilisé pour l'identification de vous reconnaître même sans vos lunettes et à un système bancaire de vous accorder ou de vous refuser un prêt même si votre profil d'emprunteur ne correspond à aucun cas connu du système. C'est la capacité de généralisation qui fait la grande force des réseaux de neurones, et plus généralement de tous les systèmes d'intelligence artificielle numérique. D'où vient-elle ?
Notre personne mathématicienne sera peu encline à voir une quelconque intelligence dans cette capacité de généralisation. Par construction, les IA numériques réalisent des fonctions « continues ». Cela signifie que deux entrées proches vont conduire à deux sorties proches ou identiques . C'est le cas notamment pour les réseaux de neurones, puisque l'activité des neurones varie continûment en fonction des activations qu'ils reçoivent. C'est bien la propriété de continuité qui permet aux réseaux de neurones de plonger les données d'entrée dans des espaces géométriques, ou de classer des images, ou encore de prendre des décisions bancaires cohérentes qui ne varient pas de manière chaotique d'un profil de client à l'autre. Le réseau généralise de manière tout à fait naturelle, en interpolant de façon continue entre les cas connus, un peu comme un enfant qui réalise un dessin en reliant des points donnés à l'avance. Le réseau de neurones s'y prend un peu différemment, toutefois. Pendant son apprentissage, il déforme la fonction qu'il est chargé de calculer, et qui reste continue tout au long de l'apprentissage, jusqu'à ce qu'elle finisse par passer par les points imposés ; autrement dit jusqu'à ce que le réseau prenne les bonnes décisions dans les cas connus. Cette description mathématique détruit un peu la magie  : le système supposé intelligent se contente tout bêtement d'apprendre une fonction. Un tel système ne réfléchit pas. Une fois la fonction apprise, il sait quoi faire dans chaque cas. Pas de réflexion, rien que du réflexe. Cela ne correspond pas trop à l'idée que nous, humains, nous faisons de l'intelligence.
Quelle est la différence entre un bus scolaire et une autruche ? La question semble saugrenue. Elle ne l'est pas forcément pour un réseau de neurones, car dans certains cas le réseau n'en verra aucune, de différence ! Christian Szegedy et ses collègues ont montré qu'ils pouvaient tromper n'importe quel réseau ayant appris à reconnaître des images : ils prennent une image de bus scolaire que le réseau reconnaît comme telle, puis l'altèrent de manière imperceptible (pour l' œil humain) afin que le réseau déclare voir une autruche ! Autrement dit, le réseau est mis en défaut dans ce qu'il fait de mieux, la classification. Les réseaux testés reconnaissent avec confiance des autruches sur des images figurant un bus scolaire, un temple khmer, un phasme ou un chien. Les auteurs ne disent pas s'ils ont essayé avec des vessies et des lanternes. Pour être honnête, il faut préciser que la modification imperceptible a été calculée avec soin pour chaque image de manière à tromper le réseau. Les auteurs observent tout de même que les images ainsi perturbées sont difficiles à reconnaître pas seulement pour le réseau que l'on cherche à tromper, mais plus largement pour d'autres réseaux du même type. On imagine les conséquences que ces failles pourraient avoir. Des individus mal intentionnés pourraient maquiller les panneaux routiers sans que l'on s'en aperçoive de manière à tromper les véhicules autonomes. La fonction que le réseau de neurones calcule et qui lui permet de paraître si intelligent dans la plupart des cas, non seulement peut produire de mauvais résultats, mais surtout produit des résultats qui nous semblent totalement absurdes. De là naît le soupçon que l'intelligence numérique n'est pas si intelligente après tout.
Comment un réseau de neurones peut-il sauter du bus scolaire à l'autruche après une petite modification de l'image à reconnaître ? Voilà qui semble contredire l'idée que le réseau calcule une fonction continue. Deux images proches devraient toujours conduire le système à reconnaître le même objet, ou tout au moins deux objets proches. On comprendrait que le réseau conclue qu'il voit un camping-car lorsqu'on lui présente un bus scolaire, mais comment diable peut-il y voir une autruche ? La réponse vient de l'extraordinaire réduction du nombre de dimensions entre l'espace d'entrée, celui des images, et l'espace correspondant aux étiquettes à reconnaître. Bien que cela soit peu intuitif, on peut toujours trouver des dimensions dans l'espace des images selon lesquelles une image donnée, celle d'un bus scolaire, est proche d'une zone qui se projette sur une étiquette inappropriée, l'étiquette « autruche ». En raison du grand nombre de dimensions, la probabilité qu'une image naturelle tombe près de cette frontière est quasi nulle. L'art de tromper un système de reconnaissance consiste à découvrir ces dimensions sensibles et à se déplacer juste ce qu'il faut dans leur direction.
L'avocat de l'intelligence artificielle numérique peut rétorquer que l'on a cherché à piéger sa cliente et que l'on pourrait tout aussi bien, à l'inverse, piéger des humains avec des images qui seront ambiguës pour eux et pas pour une machine. Tout au plus cela signifie-t-il que les machines ne voient pas selon les mêmes processus que nous. Ce qui est pertinent pour elles dans des images, telle texture ou tel rapport de longueur, peut être de moindre signification pour nous qui prêtons plutôt attention à d'autres caractéristiques comme la régularité des contours ou l'uniformité des zones. Certes, mais peut-être attendons-nous d'une machine intelligente qu'elle ne commette pas les erreurs que même un enfant ne ferait pas, car sinon nous aurons tôt fait de perdre confiance en son jugement.

x[modifier]

C'est drôle …[modifier]

L'une des capacités distinctives de notre espèce consiste à pouvoir s'étonner, à se dire « c'est drôle … » face à une situation bizarre. L'étonnement est l'un des fondements de l'intelligence humaine : il permet de détecter l'inattendu, d'éveiller l'intérêt, de s'émerveiller, mais aussi de repérer des dangers nouveaux ou encore de corriger ses erreurs. Or, s'il est bien une chose qui fait défaut à l'intelligence artificielle numérique, c'est la capacité à s'étonner, à comprendre que la situation observée est drôle, bizarre, qu'elle n'est pas conforme à ce qui était prévu. Si l'on présente la photographie d'un chat auquel il manque une oreille à un réseau de neurones entraîné pour reconnaître des images, il conclura qu'il a vu un chat, sans la moindre hésitation, c'est-à-dire sans activer d'autres neurones de sa couche de sortie. Comme si ce chat était parfaitement normal. En voyant la même image, un enfant ne verra qu'une seule chose : l'oreille manquante. On passe là d'un extrême à l'autre  : l'enfant focalise son attention sur ce que le réseau décide d'ignorer. Plus étonnant encore, l'enfant porte son attention sur quelque chose qui n'existe pas !
Que faire d'une intelligence artificielle incapable de repérer un mouton à cinq pattes ou un trèfle à quatre feuilles ? Ou qui ne voit qu'un humain normal dans l'image d'un saint Denis représenté en train de porter sa propre tête sous son bras ? Un réseau de neurones pourrait bien sûr apprendre à reconnaître qu'un chat n'a qu'une oreille, à condition qu'on lui présente quelques dizaines d'exemplaires de tels chats au préalable ! Et cela ne l'amènerait en rien à y voir la moindre anomalie. Certains systèmes sont capables de repérer des anomalies, mais seulement de manière statistique, et s'ils savent à l'avance quels phénomènes surveiller. Sinon, un système statistique ne repérera une situation anormale que si elle est anormale par de nombreux aspects, comme un chat qui aurait à la fois trop de pattes, qui serait bleu et aurait des contours anguleux ; dans un tel cas, la méthodologie statistique consiste à ignorer l'exemple en le considérant comme un point aberrant. Les êtres humains, eux, savent repérer une anomalie à partir d'un seul cas, même si elle est anormale par un seul aspect, par exemple une oreille manquante. Comment s'y prennent-ils ?
Il y a quelques années, j'ai étudié un problème un peu différent avec une jeune collègue, Laleh Ghadakpour. Il s'agissait de comprendre comment le sens d'un mot comme « grand » pouvait être représenté. Pour les adeptes du « langage de la pensée » comme Jerry Fodor, les mots délimitent des catégories. Il y aurait les objets grands, et ceux qui ne le sont pas. Or un tel système s'écroule face à des exemples comme « grande bactérie » et « grande galaxie ». Une grande bactérie reste une bactérie, il serait absurde de la mettre dans une catégorie préétablie qui regrouperait tous les objets grands. Laleh s'est ingéniée, en prolongement du travail de Fodor, à déconstruire l'idée d'un lexique mental, formé de concepts symboliques à la manière des ontologies. Mais là où Fodor imagine que les concepts sont des idées innées, Laleh et moi en sommes venus au contraire à nier l'existence même des concepts en tant que représentations permanentes . Fini, l'idée d'un lexique mental, donc. Mais alors, comment sont interprétés des mots comme « chat » et « grand » ? Si l'interprétation ne consiste plus en une traduction de la langue naturelle vers un supposé lexique mental, par quoi la remplacer ? Nous sommes parvenus à la conclusion que l'interprétation était construite, et que cette construction reposait sur un petit nombre de mécanismes bien définis. L'un de ces mécanismes, le contraste, offrait sans que nous nous en doutions la solution à de nombreux problèmes, à commencer par l'élucidation du sens de mots comme « grand ». Il offrait en prime, comme nous allons le voir, un moyen d'expliquer notre extraordinaire capacité à détecter les anomalies.
Si vous voyez un chat dont les dimensions vous semblent excéder par trop la taille typique, vous saurez le qualifier de « grand ». Autrement dit, la propriété « grand » est ici appliquée à la suite d'une opération de contraste : vous faites la différence entre l'objet nouveau et l'objet typique qui lui ressemble le plus, puis vous caractérisez de cette différence . Quantité d'autres propriétés auraient pu être construites et appliquées dans les mêmes circonstances  : petit, roux, féroce, peureux, angora, en carton, etc. Il est tentant de traduire ces caractérisations à la manière des ontologies en écrivant grand (chat) ou en_carton (chat), mais l'idée que grand ou en_carton sont des éléments préexistants d'un lexique mental n'est qu'une illusion. Ces propriétés ont été construites à la volée par l'opération de contraste .
Que manque-t-il à un réseau de neurones pour qu'il puisse dire à bon escient  : « C'est drôle … » ? Réponse  : l'opération de contraste. Par exemple, un enfant voyant l'image d'un lynx pourrait dire : « C'est drôle, ce gros chat. » Lors du contraste entre l'animal observé (le lynx) et un chat typique, la plupart des caractéristiques, pelage, forme, yeux, moustaches, s'annulent dans la différence ; seules restent quelques caractéristiques comme la taille étonnamment grande. Le contraste produit non seulement un étonnement, mais il peut aussi conduire à une négation  : « Ceci n'est pas un chat » et il permet de justifier cette négation : « C'est trop gros pour être un chat. » Grâce au contraste, la négation cesse d'être une simple opération logique, pour devenir un authentique mécanisme cognitif, une opération mentale.
On devine maintenant pourquoi le contraste est l'opération idéale pour repérer les anomalies. C'est l'opération de contraste qui permet à un enfant de voir l'oreille manquante dans une image de chat. À l'inverse, le contraste permet à l'enfant d'accepter le fait qu'un chat puisse voler, le temps d'une histoire. L'enfant sait bien que les chats ne volent pas et l'histoire qu'on lui raconte ne va en rien modifier cette conviction. Mais, grâce au contraste, il sait séparer le chat de l'histoire des autres chats, et peut sans difficulté profiter de la suite de la narration. Bien entendu, rien de tout cela n'est possible avec des intelligences numériques dont le fonctionnement se fonde sur l'exploitation statistique des données et pour lesquelles rien n'est bizarre, au sens logique du terme. La liste des cadeaux que nous offre l'opération de contraste est loin d'être close. Nous allons en découvrir d'autres exemples dans ce qui suit.

x[modifier]

Apprendre en une seule fois, pour la vie[modifier]

Je me souviens de la première fois que j'ai vu un chat siamois. Ce chat-là était suffisamment différent des autres chats du quartier pour retenir toute mon attention d'enfant. J'ai instantanément perçu ce qui en faisait la singularité  : sa couleur beige et ses extrémités noires, comme s'il avait été imaginé par un dessinateur de BD. Il était si facile de le différencier, de voir le contraste par rapport aux chats « normaux », qu'il était évident pour moi que je ne l'oublierais pas. Je venais de créer un nouveau concept. Je ne sais plus si les mots « chat siamois » ont été prononcés ce jour-là, mais quand je les ai entendus, j'étais prêt pour un apprentissage instantané. J'ai alors appris le concept « siamois », et si on m'avait demandé de le définir, j'aurais su dire l'équivalent d'« un chat beige, noir aux extrémités ». Le contraste permet ainsi de produire des définitions ; sans ce mécanisme, l'origine des définitions serait bien mystérieuse, à partir du moment où l'on cesse de croire qu'elles existent toutes faites dans notre mémoire.
Les humains, et particulièrement leurs enfants, sont excellents pour apprendre de manière instantanée, à partir d'un ou deux exemples. Un enfant apprend cinq ou six mots par jour, avec leur signification . Cela inclut de nombreuses expressions, par exemple « entre deux âges », « entre deux chaises », « entre deux eaux », « entre deux feux », « entre deux portes ». La plupart des mots sont d'un emploi relativement rare. Il est probable que les enfants comprennent le sens d'« abdiquer » dès leur première rencontre avec ce mot, et ils ne seront de toute façon pas exposés à suffisamment d'occurrences pour effectuer des statistiques sur son emploi.
La différence est frappante lorsqu'on compare notre apprentissage avec celui des réseaux de neurones. Le premier réseau qui a surclassé les méthodes classiques (non neuronales) d'apprentissage automatique a appris 1 000 concepts à partir d'une base de plus de 1 million d'images, et il a vu l'ensemble de ces images 90 fois. Autrement dit, pour apprendre à reconnaître des chats siamois, il a été confronté aux 1 739 images de chats siamois présentes dans la base d'images et, à la fin de l'apprentissage, il aura vu chacune de ces 1 739 images 90 fois. Nous sommes loin, très loin, d'un apprentissage instantané. Rien que de très normal après tout, puisque l'apprentissage automatique à base de réseaux de neurones est une technique numérique qui fonctionne en extrayant des propriétés statistiques.
Cela veut-il dire que l'IA numérique est incapable d'apprendre de manière instantanée ? Pas forcément. Des chercheurs ont imaginé une situation permettant à un réseau d'apprendre en un coup. Leur étude portait sur la reconnaissance de caractères manuscrits provenant de 50 alphabets différents – bengalais, cyrillique, sanskrit, tagalog et autres, en incluant des alphabets imaginés pour la science-fiction. Les chercheurs ont demandé à des personnes ne connaissant pas ces caractères de les dessiner à l'écran à l'aide de la souris. Il se trouve que la plupart des gens dessinent spontanément les caractères de la même façon, traçant par exemple un E majuscule en commençant la barre verticale de haut en bas, puis les trois traits horizontaux. À partir de ces données, leur système a appris à faire le lien entre l'image du caractère et les traits successifs qui ont permis de le produire. Ainsi entraîné, leur système est capable de traiter des caractères qu'il ne connaît pas. Si on lui présente un caractère exotique sous forme d'image, il l'analyse comme une succession de traits et s'en fait un modèle. C'est là que l'apprentissage instantané opère : si on lui montre d'autres images du même caractère exotique dessinées par d'autres personnes, le système parvient à les reconnaître instantanément comme correspondant au premier modèle qu'il a analysé. Il a bien appris à reconnaître le nouveau caractère après l'avoir vu une seule fois. Pour réaliser cette prouesse, le système a appris à analyser les images qui lui sont présentées comme des combinaisons de traits. Tout se passe comme s'il avait d'abord appris en quelque sorte à écrire, pour être ensuite capable de distinguer n'importe quel nouveau caractère après l'avoir vu une seule fois.
Cette étude est doublement intéressante. D'une part, elle illustre le fait que l'apprentissage est beaucoup plus efficace si l'objet à apprendre, ici le caractère alphabétique, est décomposé en unités connues, les traits qui permettent de le dessiner. L'objet est « compris » avant d'être appris. D'autre part, le mécanisme mis en jeu dans cette étude passe par l'acquisition préalable d'une expertise particulière. Les humains procèdent parfois de cette manière. Un mélomane peut parfois reconnaître toute la musique d'un compositeur qu'il ne connaît pas après avoir entendu un seul de ses morceaux, parce qu'il est capable de décomposer ce qu'il entend d'une manière bien plus riche que ne le ferait tout un chacun. Cependant, l'exemple du chat siamois montre que nous pouvons apprendre de manière instantanée dans des domaines où nous n'avons aucune expertise, grâce au mécanisme de contraste.
Les vertus du contraste sont multiples  : nous venons de voir qu'il permet de produire des propriétés, des définitions, de nier, de détecter des anomalies et d'apprendre instantanément. Nous verrons aussi qu'il permet de faire des analogies et de découvrir des explications. L'intelligence artificielle numérique est-elle par nature incapable d'effectuer des contrastes ? Non, et elle n'en est pas si éloignée. Les opérations de différence géométrique après plongement lexical, qui permettent par exemple de comparer « roi » et « homme » d'un côté, « reine » et « femme » de l'autre, ressemblent à des contrastes. Il reste à les systématiser. C'est à mon avis le progrès qualitatif le plus évident que peut réaliser l'intelligence artificielle actuelle, à condition de mener les recherches appropriées. Il faut pour cela s'éloigner de l'idée d'une intelligence réflexe qui se contente d'apprendre une fonction. Le contraste est une opération mentale, un calcul. Un esprit qui contraste ce qu'il perçoit avec ce qu'il connaît ne se comporte pas de manière réflexe. Son fonctionnement se rapproche d'une réflexion.

x[modifier]

Qu'est-ce que le sens ?[modifier]

Je lisais récemment à mon petit-fils un passage où le roi Arthur adoube Lancelot. Pris d'un doute, je demande à mon jeune auditeur s'il connaît le sens du verbe « adouber ». En réponse, il fait le geste de sortir une grosse épée et il mime l'acte d'adoubement. La signification d'« adouber » comporte un aspect concret, celui que l'on peut mimer, et un aspect plus abstrait, celui de promouvoir un individu au rang de chevalier. L'enfant a choisi de me répondre sur le volet concret.
L'idée que le sens des mots et des phrases puisse comporter une composante imagée est insupportable pour les défenseurs d'un langage de la pensée, qui ne reconnaissent que relations symboliques et règles. Si le sens de l'adoubement se limitait à une image, rien dans cette image ne permettrait de tirer la conclusion que Lancelot a maintenant le statut de chevalier. Et si l'on dispose d'une règle symbolique disant que l'adoubement fait de vous un chevalier, pourquoi s'encombrer de la composante imagée ? Celle-ci serait au mieux un accompagnement facultatif qui n'a pas sa place dans la représentation du sens du mot.
À l'opposé, les réseaux de neurones s'accommodent bien de l'idée que le sens puisse se résumer à des entités qui, comme les images, entretiennent des relations de ressemblance graduelle. Une représentation imagée permet de juger qu'il y a bien eu adoubement et qu'il a été plus ou moins bien effectué.
Les partisans du langage de la pensée peuvent rétorquer que le sens du mot « nièce » n'a rien à voir avec une image. Une nièce, c'est la fille de la s œur ou du frère de soi ou de son conjoint. Pas d'images, rien qu'une définition symbolique, un point c'est tout. En fait non, ce n'est pas tout. Si l'on demande à un fan de la série Les Simpson combien Patty a de nièces, il est probable que ce fan doive visualiser mentalement l'arbre généalogique pour pouvoir répondre trois (d'après mes sources, il s'agirait de Lisa, Maggie et Ling). Le calcul du sens de « nièce » comporte ainsi un aspect perceptif et est bien plus riche qu'une simple définition logique.
Les deux approches du sens, l'approche imagée et l'approche logique, semblent complémentaires. En voyant le geste du roi Arthur, l'une peut dire qu'il y a eu adoubement ; l'autre peut alors en conclure que Lancelot est maintenant chevalier. Mais les deux techniques, ensemble ou séparément, échouent à représenter des raisonnements qui, pour nous, sont élémentaires. Nous savons qu'une personne qui marche à reculons sur le sable mouillé et observe des traces de pas devant elle a toutes les chances de voir ses propres traces. Cette information, le fait que ces traces sont les siennes, n'est pas dans l'image elle-même, et il n'existe aucune règle dont elle résulterait logiquement. Nous, humains, sommes capables d'effectuer une simulation mentale et d'en déduire à qui appartiennent les traces. De même, un enfant à qui l'on raconte l'histoire d'un personnage fantasque qui fait tout à l'envers fera observer que son horloge à balancier, fixée à l'envers sur le mur, ne pourra certainement pas fonctionner. Il ne s'agit même plus d'apprendre à partir d'un seul exemple ; l'enfant n'a besoin d'aucun exemple, car sa conclusion est le fruit d'un calcul. Ni les réseaux de neurones ni systèmes de règles ne sont capables d'effectuer de tels raisonnements.
Peut-être est-ce trop demander à ce stade. Jean Piaget a montré que les enfants éprouvent des difficultés à dessiner une scène simple, constituée de trois montagnes colorées, comme s'ils la voyaient sous un angle différent, et qu'ils n'y parviennent pas avant l'âge de 9 ou 10 ans. Or des chercheurs ont réussi à montrer qu'un réseau de neurones auquel on a présenté de très nombreuses scènes simples constituées de cubes, de cônes et de sphères, vues de différents angles, finit par résoudre le problème de Piaget  : il réussit par généralisation à fabriquer l'image d'une scène qu'il voit pour la première fois, comme s'il la voyait sous d'autres angles. Ce travail est impressionnant. Est-ce une première étape vers une capacité générale de raisonnement perceptif ?
La prouesse réalisée par ces chercheurs est de permettre à leur réseau d'apprendre une fois pour toutes une fonction qui effectue la rotation spatiale : pour chaque image (en deux dimensions), la fonction apprise est capable de synthétiser des vues en 3D de la même scène sous différents angles. La question qui se pose est donc de savoir si tous nos raisonnements perceptifs peuvent, comme c'est le cas ici, être simulés par des fonctions précalculées. Une fonction précalculée pourrait-elle dire que je vois mes propres traces lorsque je marche à reculons et qu'une horloge à balancier ne peut pas fonctionner à l'envers ? La variété des problèmes que l'on peut ainsi poser étant infinie, la réponse ne peut être que non. Notre cerveau résout ces problèmes en effectuant chaque fois des calculs originaux, bien plus proches d'une réflexion que d'un réflexe. Précalculer des fonctions qui permettent ensuite de résoudre les problèmes sans réfléchir est possible dans des cas simples et standard, comme pour le changement de point de vue, mais pas pour des situations quelconques.
Les limitations du précalcul de fonctions, tel qu'il est proposé par l'apprentissage numérique, apparaissent de manière évidente lorsque le langage intervient. Quand il s'agit de déterminer le sens concret de ce qui est dit, autrement dit d'associer des perceptions à des mots et des phrases, l'importance du contexte est trop grande pour qu'une simple fonction puisse prévoir toutes les configurations. Lorsqu'on dit en français « derrière le rocher », on désigne une localisation qui se trouve au-delà dudit rocher sur une ligne partant de l'observateur vers le rocher. Mais si l'on dit « derrière la voiture », il se peut que l'endroit désigné se trouve entre l'observateur et la voiture, si celle-ci est orientée de manière à présenter son arrière à l'observateur. Comprendre l'expression « derrière … » nécessite de décider si l'on se place de son propre point de vue ou du point de vue du repère. Il semble bien plus simple de calculer cette décision au moment où elle est prise, comme le font les humains, plutôt que de précalculer une fonction qui prendra la décision dans toutes les circonstances imaginables (derrière la voiture, derrière la maison, derrière l'arbre, etc.) comme le ferait un réseau de neurones.
Les partisans de l'apprentissage numérique ont beau jeu de dire que leurs techniques ont, elles, le mérite de fonctionner. Il est vrai que le calcul du sens tel qu'il est effectué par les humains reste en grande partie mystérieux. Quiconque a eu un accident de voiture en France connaît la procédure du constat à l'amiable. Sur la première page, on coche des choses simples, comme le fait d'avoir changé de file ou d'avoir effectué une marche arrière. La deuxième page nous demande deux choses  : réaliser un croquis simplifié et standardisé de l'accident, puis rédiger un petit texte sur les circonstances du choc. Les compagnies d'assurances disposent d'un nombre considérable de constats dûment remplis. Les machines utilisées pour les analyser se contentent pour l'essentiel d'exploiter la première page, sans rien comprendre à la seconde. Un lecteur humain peut facilement se faire un minifilm de l'accident à la lecture du texte, pour ensuite décider de la responsabilité de chacun. Pourtant, bien que l'univers des accidents ne soit pas bien compliqué, écrire un programme capable de faire le lien entre le texte et le schéma se révèle d'une complexité redoutable .
Cela signifie-t-il qu'une IA réflexive, capable de donner un sens à un texte, restera pour longtemps une utopie ? En 1970, Terry Winograd a conçu dans le cadre de sa thèse un programme qu'il a baptisé Shrdlu. Il s'agit d'un des programmes les plus impressionnants qui aient jamais été écrits dans l'histoire de l'intelligence artificielle. Shrdlu est capable de soutenir une conversation dans un monde simplifié constitué de cubes et de pyramides, de comprendre des phrases du type « mets-la dessus » dans un contexte où « la » se réfère à la pyramide qu'il est en train de tenir (Shrdlu est censé être un robot) et « dessus » renvoie au dernier cube dont on a parlé. Pour réaliser l'action, Shrdlu est capable d'ôter l'objet qui se trouve actuellement sur le cube, et si on lui demande pourquoi il a ôté l'objet, il est capable de se justifier. L'existence de Shrdlu semble me donner tort. Elle démontre qu'il est tout à fait possible qu'un programme raisonne à la fois spatialement et logiquement de manière à réellement comprendre le sens des mots et des phrases. Malheureusement, et Winograd est le premier à s'en être aperçu, la méthode employée semble impossible à étendre au-delà d'un monde simplifié comme celui des cubes et des pyramides.
Je suis cependant convaincu que le défi de Winograd doit être renouvelé à la lumière des progrès théoriques qui sont intervenus depuis. Il s'agit de concevoir une IA qui alloue un sens aux mots et aux phrases en tenant compte du contexte. Ce sera possible si cette IA effectue d'authentiques calculs qui incluent une dimension perceptive. Ce sera impossible si l'on se limite, comme avec les réseaux de neurones, à apprendre de simples fonctions réflexes.

x[modifier]

Pas d'intelligence sans structures[modifier]

Dans un club d'échecs, vous localisez deux personnes en pleine partie, vous vous approchez, puis faites semblant de trébucher de manière à faire tomber l'échiquier. Ces deux personnes vont-elles vous insulter, vous reprocher d'avoir ruiné les efforts et les enjeux d'une partie passionnante ? Pas le moins du monde. Elles vont accepter vos excuses embarrassées et calmement ramasser les pièces pour les remettre chacune à sa place. Ce n'est pas si étonnant après tout, compte tenu du temps de concentration que ces personnes ont consacré à l'observation de l'échiquier. En 2000, peu avant de disparaître, Herbert Simon, l'un des fondateurs de l'IA dont nous avons parlé, a publié une étude surprenante . Des maîtres d'échecs auxquels vous montrez une partie interrompue, une partie qui n'est pas la leur, peuvent repositionner toutes les pièces après que l'échiquier a été effacé de l'écran. Le plus spectaculaire est le temps d'observation nécessaire  : pas plus de cinq secondes. Cinq secondes d'observation leur suffisent pour mémoriser la position de 32 pièces ! Cela fait six pièces repérées par seconde. Faites l'expérience. Si vous êtes joueur amateur d'un bon niveau, il vous faudra observer l'échiquier une minute, soit dix fois plus longtemps, pour le mémoriser. Question d'habitude, ou de mémoire photographique ? Pas vraiment. Si vous refaites l'expérience, mais en présentant cette fois des échiquiers sur lesquels les positions des pièces sont aléatoires, les maîtres feront 25 % d'erreurs de placement, même après une minute de temps d'observation.
Comment interpréter cette expérience ? Tout se passe comme si les bons joueurs à qui on montre une partie en cours ne voyaient pas les pièces, mais repéraient plutôt les relations entre les pièces. Tel cavalier menace tel fou, telle tour risque d'être exposée par le déplacement de tel pion. Le bon joueur perçoit aussi des relations entre les relations. Si sa tour se retrouve exposée, mon fou ne craint plus, pour un temps, le cavalier de mon adversaire. Les maîtres d'échecs voient ces relations, et ces relations entre relations, aussi clairement que les amateurs voient les pièces elles-mêmes. Ils ont donc bien moins d'éléments à mémoriser. Évidemment, cela ne vaut que dans le cas d'une vraie partie, là où l'histoire de l'interaction a construit des relations pertinentes entre les pièces. L'expertise que ces joueurs ont acquise leur permet de simplifier considérablement la tâche de description et de mémorisation de l'échiquier.
Alors qu'il nous faut des années d'entraînement intensif pour détecter les structures élaborées du jeu d'échecs, d'autres types de structures nous apparaissent de manière évidente, sans que nous ayons besoin de les apprendre . Quiconque connaît l'alphabet latin reconnaît instantanément la structure de la suite aabbccddeeff, au point de pouvoir la compléter avec gghh . On peut compliquer le test en présentant la suite aabccdeef ; si vous lisez cette suite à haute voix, vous saurez la poursuivre avec gghiij, ce qui prouve que vous avez détecté sa structure. De tels exercices, si évidents pour nous, se situent très au-delà de ce que l'intelligence artificielle numérique peut faire. Un réseau de neurones est parfait pour repérer des régularités statistiques. Mais quelles statistiques peut-on faire sur un seul exemple, sur une seule suite qui ne comporte que quelques lettres ? Les réseaux de neurones précalculent des fonctions, de manière à pouvoir prendre des décisions réflexes. Or répondre à des tests même aussi simples que ces petites suites alphabétiques demande davantage que du réflexe : il faut un peu de réflexion.
Certains programmes comme Watson contournent le problème. Ne sachant pas comment résoudre ce genre de test, ils en cherchent la solution sur la Toile. Leur principale intelligence ne consiste pas à comprendre la structure du problème, mais à deviner parmi toutes les réponses glanées celle qui a le plus de chances d'être la bonne. Cela ressemble à la stratégie d'un mauvais élève qui tente de deviner la bonne réponse en lorgnant sur les copies de ses voisins sans jamais entrer dans la logique de l'exercice. De même que le cancre peut développer une expertise pour tromper ses professeurs, les systèmes intelligents actuels donnent l'illusion de comprendre ce qu'ils font. Qu'importe, dira-t-on, s'ils parviennent le plus souvent à produire un résultat satisfaisant ? Le problème vient sans doute du divorce grandissant entre leur intelligence et la nôtre. Nous, humains, avons besoin de comprendre les problèmes avant de les résoudre. Ces machines qui classent les situations ou fouillent la Toile à la recherche d'une solution ne comprennent rien, et ne cherchent même pas à comprendre.
Que veut dire « comprendre » dans le cas de nos petites suites alphabétiques ? Pourquoi des suites comme aabbccddeeff ou abbcccdddd sont-elles évidentes à compléter pour un humain, alors qu'elles mettent en échec les programmes d'IA numérique ? Pourquoi avons-nous plus de mal pour compléter la suite aababc, mais sommes capables de reconnaître instantanément la « bonne » réponse lorsqu'elle nous est donnée ? Prenons un test comme ceux que Douglas Hofstadter affectionne. Si abc donne abd, que donne ppqqrr ? La plupart des personnes répondent ppqqss . Des réponses comme ppqqrs, ppqqrd, ppdqrr sont jugées bien moins convaincantes, voire grotesques. Pourtant, la règle dans ce type de jeu n'est jamais explicitée. Comment savons-nous ce qui constitue une bonne réponse ou une mauvaise réponse ?
Les structures que notre esprit détecte facilement sont celles qui lui permettent de simplifier la situation perçue. Notre cerveau, par bien des aspects, est une machine à simplifier. L'informatique théorique donne un sens précis à l'idée de simplicité : une situation est complexe si on ne peut pas réduire la quantité d'information utilisée pour la décrire. Une suite aléatoire comme dyesijfvyp ne peut être simplifiée. En revanche, il est facile de simplifier une suite répétitive comme aaaaaaaaaa  : il suffit de la remplacer par un programme qui imprime a de manière répétée, ce qu'un informaticien écrira comme ‘a' *10 . Il est également facile de simplifier la suite abbcccdddd en disant que la énième lettre est répétée n fois. Si vous avez hésité pour continuer la suite aababc, vous n'hésiterez plus en la lisant comme a ab abc . Comme on le voit sur cet exemple et sur les autres, structure et simplification vont de pair. Les humains sont experts en repérage de structures parce qu'ils sont experts en simplification. D'un point de vue informatique, cette recherche de simplicité correspond à une compression d'information. Comme a dit Gregory Chaitin, co-inventeur de la notion de complexitésimplicité : « Comprehension is compression », comprendre revient à comprimer (l'information) .
Chaitin aurait pu dire également : « Learning is compression », l'apprentissage est une affaire de compression. Les techniques d'apprentissage numérique réalisent bien une compression, mais il s'agit d'une compression statistique. La représentation qu'un réseau de neurones peut avoir du concept de chat est une représentation simplifiée dans laquelle tous les éléments contingents, c'est-à-dire non statistiquement pertinents, ont été écartés. Ces systèmes ne savent faire que ça. Le jour où j'ai appris le concept de chat siamois, ce n'est pas parce que j'ai repéré une régularité (je n'ai pas attendu de voir cent chats siamois), mais parce que le chat beige et noir que je voyais ce jour-là était simple à décrire. Pour distinguer un chat de gouttière tigré des autres chats de gouttière tigrés du quartier, il m'aurait fallu bien plus d'information. Ce chat-là était simple à décrire. Cette simplicité m'a servi de signal pour y voir une exception et former un nouveau concept. Si je forme un contraste et que le résultat de ce contraste est simple, alors ce que je vois est une exception, une anomalie peut-être, digne d'être explorée et mémorisée.
La compression statistique effectuée par l'apprentissage numérique est une compression « avec perte », puisque l'information détaillée est ignorée. Nous, humains, savons simplifier sans perte d'information, notamment en repérant des structures. Lorsque nous résolvons une analogie comme « abc est à abd ce que ppqqrr est à … ? », la réponse que nous trouvons et préférons est celle qui simplifie au maximum l'ensemble des quatre suites, autrement dit celle qui permet d'offrir la description la plus concise de l'analogie sans perdre aucune information . Ce mécanisme de simplification est à l' œuvre dans l'apprentissage, dans les analogies, et dans bien d'autres processus intelligents que nous évoquerons dans le prochain chapitre. Il caractérise l'une des principales divergences entre notre intelligence et l'intelligence artificielle numérique. Simplifier en repérant des structures suppose un calcul, une réflexion, qui va au-delà d'une simple classification réflexe.

x[modifier]

Les lois cachées du langage[modifier]

Si l'on raconte à un enfant une histoire mettant en scène une chienne et une chèvre et que l'on prononce la phrase  : « Elle a aboyé au moment où la chienne était dans la niche », l'enfant se verra obligé d'imaginer que le protagoniste qui aboie est … la chèvre. Le pronom « elle », dans une telle phrase, ne peut renvoyer à « la chienne ». Ce blocage de la coréférence n'est pas dû au fait que le pronom est situé avant le nom. Dans une phrase comme : « Le fait qu'elle ait aboyé a révélé que la chienne était dans la niche », la coréférence, sans être obligatoire, est cette fois possible  : c'est bien la chienne qui aboie. D'où connaissons-nous cette contrainte ? La théorie linguistique nous dit que la référence d'un pronom en position sujet doit se trouver en dehors du syntagme dont il est le sujet . Dans le premier exemple, le syntagme dont « elle » est le sujet couvre toute la phrase, ce qui bloque la coréférence avec « la chienne ». Dans le second exemple, le syntagme dont « elle » est le sujet se limite à « elle ait aboyé » et la coréférence n'est plus bloquée.
D'où les locuteurs du français tiennent-ils une telle règle ? Le mystère s'épaissit si l'on réalise que le phénomène ne dépend pas des verbes ou des noms employés et qu'il ne dépend pas non plus de la profondeur où se trouve le nom dans la structure. Pire, le phénomène est présent dans toutes les langues, et les enfants de 3 ou 4 ans semblent déjà connaître la règle . Certains linguistes, notamment Noam Chomsky, considèrent que cette règle n'est pas apprise et fait partie de notre capacité biologique à manier le langage.
La capacité de parler, d'agencer les mots pour produire du sens, résulte d'une mécanique très simple puisque les enfants de 3 ou 4 ans en ont déjà acquis la maîtrise. Très simple, oui, sauf que les générations de linguistes qui se sont succédé commencent juste à découvrir en quoi cette mécanique peut consister. Leurs modèles nous permettent de mesurer la richesse des langues et celle de l'esprit humain capable de les manipuler. En revanche, ils sont parfois trop compliqués pour expliquer comment un enfant peut acquérir sa langue maternelle. L'intelligence artificielle peutelle faire l'impasse sur le savoir des linguistes ? Les errements et limites de la traduction automatisée nous suggèrent d'en douter. Les intelligences artificielles numériques qui traitent le langage n'ont aucun moyen d'intégrer des règles comme celle qui régit le blocage de la coréférence. Elles n'ont aucun moyen non plus de les découvrir par elles-mêmes, puisqu'elles ne représentent pas la structure syntaxique des phrases. Elles sont donc exposées à de terribles contresens, liés par exemple à l'incapacité de comprendre les antécédents des pronoms, sans aucun espoir de pouvoir surmonter ces limitations.
Prenons un autre exemple qui démontre à quel point il ne faut pas sous-estimer les calculs que nous, humains, effectuons lorsque nous parlons. Une phrase comme « Il a dormi pendant dix minutes » ne pose pas de problème d'interprétation. L'individu a fait un petit somme qui a duré dix minutes. Avec « Il a dormi pendant un an », cette interprétation ne fonctionne plus. Un somme ne peut durer un an. On doit imaginer quelque chose d'autre, comme le fait que l'individu était dans le coma et qu'il est resté dans cet état tout ce temps. La phrase « Il a dormi pendant l'exposé » peut suggérer deux choses  : l'individu a dormi pendant toute la durée de l'exposé, ou il s'est assoupi à un moment pendant l'exposé. La seconde interprétation est facilitée dans un contexte où s'endormir dans ces conditions était contraire aux attentes (cela ne se fait pas). Ainsi, dans ces différentes phrases, « dormir » s'étend sur toute une durée, ou alors se répète, ou encore se localise à un moment de la période mentionnée. De telles interprétations dépendent du contexte ; elles doivent donc être calculées au moment de l'écoute.
Il s'agit d'un calcul subtil. « Il a dormi en dix minutes » ne signifie pas la même chose que « Il a fait sa sieste en dix minutes ». Alors que la seconde phrase suggère que le somme a couvert la durée indiquée, la première phrase signifie tout autre chose : qu'il s'est endormi au bout de dix minutes. Voilà bien une nouvelle complication. Qu'en est-il de : « Il a dormi en 2010 » ? Cette phrase sonne bizarre. Un hôtelier aurait pu la dire, pour signifier « Il a dormi ici en 2010 ». Sinon, il nous faut trouver autre chose. On peut imaginer un personnage de fiction qui est censé ne jamais dormir et dont on signale que, si, il lui est arrivé de dormir et c'était en 2010. Cette version requiert que le fait de dormir soit contraire aux attentes. Les interprétations de « dormir » dans les différents exemples ne doivent rien au hasard. Elles sont le fruit de calculs qui restent pour l'essentiel inconscients, mais que notre cerveau réalise afin de décider si la situation (ici, le fait de dormir) dure, commence, se répète ou juste se produit. Les paramètres qui guident notre interprétation sont les mots comme « pendant » et « en », le caractère atomique de la situation (une partie de ma sieste n'est pas ma sieste, tandis qu'une partie d'une période de sommeil est aussi une période de sommeil), les durées typiques (un coma peut durer un an, pas un somme), le caractère daté (2010, l'exposé, ces fameuses dix minutes) ou non daté (dix minutes) ou encore la présence d'une attitude comme le fait que la situation est contraire aux attentes. Ces paramètres se décident au moment de l'audition de la phrase, si bien que l'interprétation ne peut résulter d'une décision réflexe et nécessite un authentique calcul. Ajoutons qu'il ne s'agit pas d'un calcul « mou », de type continu. Décider que l'épisode est unique ou répété dans une phrase comme « Il a dormi ici pendant deux jours » est un basculement de type tout ou rien qui correspond mal aux décisions que peut prendre un réseau de neurones .
Il ressort de ce chapitre que notre fonctionnement mental ne ressemble pas aux décisions réflexes d'une IA numérique. Il nous arrive à nous aussi d'acquérir des expertises qui nous permettent de réagir instinctivement. Mais nous faisons bien davantage. Nous effectuons différents calculs qui nous éloignent du réflexe et nous rapprochent de la réflexion. Ces mécanismes mentaux nous donnent accès à des capacités qui sont hors de portée de l'intelligence artificielle numérique. Notre capacité à contraster les situations nous permet de repérer des anomalies, de produire des descriptions et des définitions, ou d'apprendre de manière instantanée. Notre capacité à simplifier les situations nous conduit à repérer des structures. C'est ainsi que nous pouvons par exemple effectuer des analogies. Notre capacité langagière repose elle aussi sur plusieurs types de calculs ; nous venons d'en examiner quelques-uns. Tous ces mécanismes devront être reproduits par les intelligences artificielles du futur. Les intelligences artificielles du présent ne semblent pas être engagées sur ce chemin.

x[modifier]

1. Le titre de ce chapitre est emprunté à mon collègue Alain Grumbach, qui a écrit Cognition artificielle. Du réflexe à la réflexion, publié en 1994 chez AddisonWesley France.
2. D'un point de vue mathématique, il n'y a pas lieu de distinguer ici continuité et continuité uniforme.
3. Les neurones effectuent une opération non linéaire sur la somme pondérée des activations qu'ils ont reçues (voir chapitre 2.) Cette opération est généralement continue. Dans les réseaux classiques, les neurones effectuaient une détection de seuil, qui est une opération non continue. Même dans ce cas, pour un nombre de neurones pas trop restreint, chaque couche approxime une opération continue car deux entrées proches déclenchent l'activation d'à peu près les mêmes neurones en sortie de la couche.
4. Dans leur article, Szegedy et ses collègues montrent que des altérations subtiles sur des images peuvent conduire à des classifications absurdes. Il a pour titre « Intriguing properties of neural networks ». Il a été présenté en 2014 à la conférence ICLR. Dans une autre étude, Anh Nguyen et ses collègues ont montré que des images dans lesquelles le regard humain ne perçoit que du bruit sont classées avec certitude comme des animaux familiers par un réseau entraîné sur des images normales. Leur article est paru en 2015 dans les actes de la conférence CVPR'15.
5. Gamaleldin Elsayed et ses collègues ont calculé des images qui peuvent tromper des humains lors d'un jugement rapide. Ainsi, la même image qui nous fait voir un chat peut, après modification mineure, nous faire opter pour un chien. Leur article a été publié en 2018 sur arXiv.org (1802.08195.)
6. Des chercheurs comme Zoubin Ghahramani travaillent à la détection automatique d'anomalies statistiques. Voir par exemple son article écrit avec des collègues en 2010 pour la conférence MLSP-2010.
7. Voir note 186 du chapitre 4.
8. L'opération de contraste débute par une caractérisation de l'objet nouveau, qui est rapporté à l'objet typique le plus proche. Elle continue par une différence, au sens géométrique, entre l'objet nouveau et l'objet typique. Cette différence est exprimée dans chacune de ses dimensions en nombre d'écarts-types ; elle est ensuite « nettoyée », ce qui signifie que les composantes non significatives sont mises à zéro. L'opération se termine par une caractérisation de la différence ainsi obtenue. Comme pour l'objet de départ, la caractérisation de la différence consiste à la rapporter au type connu le plus proche.
9. Le contraste a en outre la bonne propriété de produire des résultats systématiques  : le contraste entre « grande bactérie » et « bactérie » est le même qu'entre « grande galaxie » et « galaxie » ; on est donc assuré que « grande galaxie » aura systématiquement un sens pour un enfant dès lors que l'enfant sait ce qu'est une galaxie.
10. Le rythme d'apprentissage du lexique par les enfants est controversé. Robin Goulden et ses collègues donnent une estimation raisonnable dans un article de 1990 publié dans le numéro 11 de la revue Applied Linguistics . Leur estimation est de trois mots par jour. Je double ce chiffre, car ces auteurs ne regardent que les mots de base ; ils ne distinguent pas les variations de sens, représentées par des alinéas dans les définitions du dictionnaire (beau comme « beau bateau » ou comme « avoir beau »), des mots d'argot, des mots étrangers ainsi que des milliers d'expressions figées.
11. Voir note 178 du chapitre 2.
12. L'étude sur l'apprentissage instantané a été publiée par Brenden Lake, Josh Tenenbaum et leur collègues dans les comptes rendus de la conférence CogSci en 2011, p. 2568.
13. Le programme qui apprend à visualiser une scène simple sous différents angles a été présenté par l'équipe de Demis Hassabis dans un article signé par S. M. Ali Eslami et vingt et un autres chercheurs, publié en 2018 dans le numéro 360 de la revue Science . Jean Piaget a étudié le développement de cette compétence chez l'enfant au chapitre 7 de son livre La Représentation de l'espace chez l'enfant, publié en 1947, puis en 1972 aux PUF.
14. Sur l'exploitation des constats d'accident, voir par exemple l'article de Patrice Enjalbert et Bernard Victorri publié en 1994 dans le numéro 35 de la revue Traitement automatique des langues .
15. L'étude que Herbert Simon a publiée avec Fernand Gobet sur la mémoire immédiate des joueurs d'échecs est parue en 2000 dans le numéro 24 de la revue Cognitive Science . L'article distingue les maîtres d'échecs, les joueurs experts et les amateurs de classe A. Ces appellations correspondent à des classements bien définis dans les communautés de joueurs d'échecs.
16. Les structures que les êtres humains repèrent le plus facilement (en dehors de domaines spécialisés comme le langage ou la reconnaissance des visages) correspondent à ce qu'on appelle un groupe en mathématique. Ce constat a été fait par de nombreux auteurs, notamment les psychologues adeptes de la théorie de la Gestalt, ainsi que Jean Piaget. Michael Leyton systématise cette idée que l'on perçoit des structures de groupe dans sa Generative Theory of Shape publiée en 2001 chez Springer.
17. L'aphorisme de Gregory Chaitin, « Comprehension is compression », apparaît au début de son chapitre du livre Grenzen und Grenzüberschreitungen (frontières et franchissements de frontières) paru en 2004 chez Akademie Verlag à Berlin.
18. Le repérage des structures, notamment pour les analogies, a été étudié par Pierre-Alexandre Murena dans sa thèse (www.dessalles.fr/theses/PAM) ; voir aussi son article publié dans les comptes rendus de l'ICCBR-WS en 2017 (ceur-ws.org/ Vol-2028/paper5.pdf).
19. La description habituelle du phénomène de blocage de la coréférence est un peu différente et un peu plus compliquée ; elle fait appel à la notion de c-commande. Dans la description adoptée ici, il faut comprendre « sujet » au sens large, comme dans « Sa haine de la s œur de Marianne aveugle Cécile » où « Sa » est sujet (au sens large) du nom « haine » et donc ne peut se référer ni à « Marianne » ni à « la s œur de Marianne », qui appartiennent au même syntagme ; en revanche, « Sa » peut se référer à « Cécile », qui se trouve dans un autre syntagme.
20. Le blocage de la coréférence chez l'enfant a été étudié par Stephen Crain dans un article publié en 1991 dans le numéro 14 de la revue BBS . Crain a testé des enfants de 3 à 6 ans en leur présentant des phrases comme  : « Il a mangé le hamburger pendant que le schtroumpf était dans la caisse », obligeant les enfants à décider, contre les apparences, que ce n'est pas le schtroumpf mais Gargamelle, pourtant présenté comme détestant les hamburgers, qui est l'antécédent de « Il ».
21. Damien Munch a modélisé le calcul permettant d'interpréter l'aspect dans un article publié en 2014 dans les comptes rendus de la conférence CogSci, p. 2121.
22. Guillaume Jacquet, Fabienne Venant et Bernard Victorri ont montré, dans un chapitre du livre Sémantique et traitement automatique du langage naturel édité en 2005 par Patrice Enjalbert, qu'un système statistique pouvait basculer entre deux états, et donc passer abruptement d'une interprétation à l'autre. Toutefois, le caractère abrupt de la décision est dû à la présence d'un seuil, indépendant du contexte d'exécution, qui masque l'hésitation inhérente à ces systèmes.

x[modifier]

CHAPITRE 6 Ce que l'intelligence veut dire[modifier]

Les intelligences artificielles qui sont actuellement développées ont un aspect autiste. Elles accomplissent des prouesses dans des domaines spécialisés, mais sont totalement incapables d'interagir avec quiconque, même dans leur domaine d'excellence. Qu'attendonsnous vraiment de l'intelligence artificielle ? Qu'elle réalise des tâches intelligentes, ou qu'elle se montre intelligente ? Nous avons là deux conceptions de l'IA, selon l'objectif qui lui est assigné. La première conception est celle des technologies numériques de l'intelligence artificielle qui connaissent actuellement un essor considérable et un succès mérité. La seconde conception est celle d'Alan Turing. La marque de l'intelligence, selon Turing, réside dans le fait de se montrer pertinent dans le dialogue. Mais on ne peut parler intelligemment de ce que l'on ne comprend pas. Ne pourrait-on avoir les deux ? Une IA qui serait efficace dans l'action et qui, en même temps, saurait discuter avec son utilisateur, l'intéresser, se justifier ? Dans le futur, bien sûr. Mais à quelle échéance ? Car la direction prise actuellement par les technologies de l'intelligence tourne le dos à ce second objectif. Ce chapitre montre comment certaines notions théoriques, au premier rang desquelles la notion de simplicité que nous avons rencontrée dans le chapitre précédent, pourront permettre à une IA de calculer plusieurs des dimensions qui se retrouvent au centre des préoccupations humaines : l'intérêt, l'émotion, la responsabilité, la créativité et la pertinence. Ce type d'analyse nous donne une idée de ce qu'une intelligence artificielle voudrait dire si on lui en donnait les moyens.

x[modifier]

Qu'est-ce qui est intéressant ?[modifier]

Le 10 septembre 2009, la télévision bulgare diffuse en direct le tirage de la loterie nationale. Les boules tombent et le résultat est  : 4, 15, 23, 24, 35, 42. Ce tirage n'avait qu'une chance sur quatorze millions de se produire. Malgré cette très faible probabilité, les personnes qui n'ont pas joué ce jour-là n'avaient aucune raison de s'intéresser à l'événement. Et pourtant, les médias internationaux en ont parlé. Pour quelle raison ? Parce qu'il se trouve que les mêmes nombres, exactement, étaient sortis lors du tirage précédent. La machine du Loto étant conçue pour n'avoir aucune mémoire, le tirage du 10 septembre est tout aussi probable que n'importe quel autre. Une personne mathématicienne qui entend cette nouvelle refusera de la considérer comme spécialement improbable, et pourtant elle ne pourra certainement pas s'empêcher de la communiquer aux collègues présents à ce moment-là dans les bureaux voisins.
Cette anecdote est révélatrice d'un trait fondamental de l'intelligence humaine. Le tirage aurait-il été plus ou moins extraordinaire s'il avait reproduit, non pas la combinaison du 6 septembre précédent, mais celle qui était sortie deux mois plus tôt ? Un peu moins extraordinaire, assurément. Notre intuition nous dicte également qu'un intervalle de onze mois et une semaine aurait été encore moins digne d'être rapporté dans les médias. Qu'en est-il d'un intervalle de douze mois ? Ah, là c'est différent. Deux tirages identiques à un an jour pour jour d'intervalle, revoilà une nouvelle intéressante ! L'esprit humain est bizarre. L'intérêt de la coïncidence semble décroître avec la taille de l'intervalle entre les deux tirages, et puis finalement non, il remonte brusquement le jour de la date anniversaire. Est-ce tout simplement parce que nous avons par ailleurs l'habitude de fêter les anniversaires ?
Comprendre ce qui suscite notre intérêt est une question qui a fort peu retenu l'attention des scientifiques, comme s'il s'agissait d'un problème anecdotique qui serait plutôt du ressort des journalistes et des romanciers. C'est une erreur. Une part importante de nos vies est animée par le souci constant de repérer tout ce qui est intéressant dans ce qui nous entoure et de saisir la moindre occasion pour le signaler aux autres. C'est ainsi que nous lisons des livres, voyons des films et visitons des endroits éloignés en fonction de l'intérêt que nous espérons y trouver. Au cours de chaque moment social de notre vie, pendant chaque heure que nous passons à interagir avec autrui, à chacune de nos prises de parole, notre intelligence est orientée, sans que nous en soyons particulièrement conscients, vers un seul objectif  : nous montrer intéressants aux yeux des autres. Car les humains sont prompts à se détourner des individus dont la conversation leur semble ennuyeuse. L'existence même des relations sociales est organisée autour de l'intérêt. À tel point que l'intelligence humaine semble avoir été façonnée dans un seul but : percevoir et susciter l'intérêt.
Cette manière de concevoir l'intelligence remet en cause les habitudes de pensée. Une entité est qualifiée d'intelligente si elle se montre capable de résoudre des problèmes. Or si l'intelligence humaine avait pour principal but la résolution de problèmes, l'invention du Velcro, de la bicyclette et du smartphone n'aurait pas attendu 300 000 ans. Il se trouve que les humains, partout et de tout temps, ont eu bien autre chose à faire, notamment à gérer au mieux leurs relations sociales. Ce n'est qu'au cours des tout derniers siècles que le fait de résoudre des problèmes, d'inventer, s'est trouvé socialement valorisé pour une petite fraction de la population. Au quotidien, nous traitons la plupart des problèmes pratiques à l'aide de routines bien rodées et nous réservons notre intelligence aux aspects de notre vie qui captent notre intérêt.
Pour nous intéresser, les programmes actuels ne disposent que d'une seule méthode. Ils mesurent à quel point tel contenu a intéressé d'autres personnes à qui nous ressemblons, internautiquement parlant. Un système véritablement intelligent, c'est-à-dire un système que nous trouverions intelligent en toutes circonstances, devrait être capable d'effectuer directement une mesure de l'intérêt, à condition, toutefois, que cette mesure ne soit pas erratique et soit véritablement … intelligente.
Avec mes étudiants, nous avons découvert un phénomène étonnant. L'intelligence humaine semble sélectionner les situations qui ont la propriété d'être anormalement simples, c'est-à-dire qui se révèlent plus simples qu'attendu. Le mot « simplicité » retrouve ici le sens technique dont il a déjà été question au chapitre précédent, et qui se rapporte à la quantité d'information utilisée pour décrire la situation. Pour quelle raison le tirage du 10 septembre 2009 de la loterie bulgare était-il intéressant ? Parce qu'il était simple de manière inattendue. Si les tirages du Loto nous semblent aléatoires, c'est parce qu'il nous est impossible, pour les décrire, de diminuer la quantité d'information contenue dans leurs nombres. Mais le tirage du 10 septembre 2009, lui, peut être décrit de manière bien plus concise en disant que c'est simplement la copie du tirage précédent. S'il était la copie, non pas du tirage précédent, mais d'un tirage survenu deux mois plus tôt, sa description aurait été un peu plus longue : il aurait fallu ajouter une information nécessaire pour retrouver ce tirage antérieur en mentionnant son rang dans la liste des tirages passés. Voilà pourquoi l'événement aurait été moins intéressant et pourquoi l'intérêt décroît régulièrement à mesure que l'intervalle entre les deux tirages identiques augmente. Mais, quand l'intervalle atteint un an jour pour jour, la description redevient simple. Pour passer du 10 septembre 2009 au 10 septembre 2008, il suffit de changer la valeur de l'année d'une unité. C'est le même mécanisme qui nous pousse à fêter les anniversaires des événements importants qui se sont produits il y a 1, 10 ou 100 ans bien plus que pour des intervalles de 17 ou 91 ans : tout se passe comme si la simplicité de l'intervalle rapprochait l'événement dans le temps. La coutume des anniversaires « ronds » n'a rien à voir avec une convention culturelle ; elle résulte des calculs de simplicité que nous effectuons tous inconsciemment.
Cet aspect de l'intelligence humaine obéit à un déterminisme impressionnant. Tout ce qui est simple de manière inattendue devient systématiquement intéressant . Imaginez que notre Loterie nationale sorte la combinaison 1, 2, 3, 4, 5, 6. Cette suite est l'une des plus simples qui soient. Eh bien, le monde entier en parlerait. Le caractère « incroyable » d'une telle nouvelle se traduit sous forme de probabilité subjective. En 2006, j'ai réalisé une expérience instructive. Pour la première fois de ma vie, j'ai acheté des grilles de Loto. Je les ai préremplies avec diverses combinaisons, parmi lesquelles bien entendu figurait la suite consécutive 1, 2, 3, 4, 5, 6. Pendant plusieurs jours, avec l'accord du patron du bar, j'ai proposé mes grilles à des clients attablés, en leur demandant d'en choisir une. Comme je m'y attendais, ils ont choisi les grilles les plus complexes . Personne n'a choisi la combinaison consécutive. L'un des clients a même déclaré en riant : « Si tu veux perdre, tu prends celle-là ! » Évidemment, les événements les plus simples, donc les plus intéressants, sont les plus incroyables et donc subjectivement les moins probables. Je dis « subjectivement » car, bien entendu, toutes les combinaisons ont exactement la même probabilité objective d'être tirées dans ce jeu. Des collègues m'ont fait observer à l'époque que quelqu'un qui joue sa date de naissance choisit une combinaison qui est simple à décrire, ce qui contredit l'idée que cette personne devrait préférer les tirages complexes. J'ai donc interrogé quelques joueurs et j'ai compris leur raisonnement. Leur date de naissance est certes simple pour eux ; en revanche, ils savent que la machine du Loto ne les connaît pas, si bien que leur date de naissance est complexe du point de vue de la machine. Ils ont ainsi le sentiment de choisir un tirage relativement probable. Aucun des joueurs que j'ai rencontrés ne réalisait que sa combinaison n'avait pas plus de chances de sortir que la suite « incroyable » 1, 2, 3, 4, 5, 6. sa combinaison n'avait pas plus de chances de sortir que la suite « incroyable » 1, 2, 3, 4, 5, 6.
La « théorie de la simplicité » que nous avons développée permet de quantifier l'intérêt que nous accordons à tout événement, pas seulement aux tirages du Loto. Imaginez que vous croisiez un ami dans un sentier de randonnée au Nouveau-Mexique. Vous qualifierez sans doute l'événement d'incroyable. Or il y a bien simplicité inattendue dans un tel cas. L'intérêt de cet événement se mesure au contraste entre la « complexité » du lieu et la « simplicité » de la personne rencontrée. S'il faut beaucoup d'information pour décrire l'endroit et peu pour spécifier la personne rencontrée, l'événement est automatiquement intéressant. Cette personne peut être l'un de vos voisins, un collègue ou une actrice. Dans chaque cas, votre cerveau calcule que la personne rencontrée peut être décrite de manière bien plus concise que s'il s'agissait d'une personne quelconque, et ceci d'autant plus si ce voisin ou ce collègue est proche, ou cette actrice est célèbre.
Au début de ce livre, nous avons suivi le personnage de Lisa au cours d'une journée de sa vie étudiante en 2030. Dans cette histoire, son assistant intelligent sélectionne des nouvelles qu'il lui présente. Cet assistant du futur appliquera certainement le principe de simplicité. Connaissant des éléments du passé de Lisa, il choisira par exemple, parmi les événements du jour, un incendie de hangar qui s'est produit à moins de 1 kilomètre du lieu où elle a grandi. Du fait de cette proximité géographique, l'endroit demande moins d'information pour être décrit (avec une même précision) que si l'incendie s'était produit à 10 kilomètres ; il est donc plus simple et donc plus intéressant pour Lisa. Selon le même principe, l'événement aurait été encore plus intéressant pour Lisa s'il s'était produit à seulement 100 mètres (le principe de simplicité permet de quantifier le phénomène en disant que la complexité du lieu varie comme le double du logarithme de la distance ). Grâce à de tels calculs, une IA pourra déterminer directement l'intérêt des événements d'après leur simplicité sans devoir attendre que des milliers de clics les aient rendus visibles.

x[modifier]

Calculer nos émotions[modifier]

Supposons qu'il y ait eu une victime dans l'incendie du hangar. L'émotion associée au fait qu'une personne soit morte vient bien sûr amplifier l'intérêt de la nouvelle. Comment une IA peut-elle anticiper l'émotion que pourra ressentir Lisa lorsqu'elle prendra connaissance de l'événement ? C'est impossible, pense-t-on. Une émotion, ça s'éprouve, ça se ressent, ça ne se calcule pas ! Certes, mais n'est-il pas possible d'anticiper au moins l'intensité de cette émotion ? On peut deviner que Lisa sera plus affectée si la victime habite tout près de sa maison natale plutôt qu'à l'autre bout de la ville ; ou si la victime est étudiante comme elle ; ou si elle est née le même jour qu'elle ; ou si elle s'appelle aussi Lisa. Un programme intelligent peut calculer l'influence de ces paramètres sur son émotion. Il suffit qu'il évalue la simplicité de la victime du point de vue de Lisa : tout élément de proximité ou de ressemblance rend la description de la victime plus concise. La victime étant plus simple, l'émotion est plus intense. Le programme peut donc estimer le niveau d'émotion suscité par la nouvelle, puisque la simplicité, ça se calcule.
Il y a quelques années, j'ai réalisé une étude visant à estimer l'émotion associée au fait de manquer un objectif de peu . Dans l'une des situations présentées, un personnage prénommé Lucas se dirige comme chaque jour vers la gare pour prendre son train. Constatant que son lacet de chaussure est défait, Lucas s'arrête pour le renouer. Quand il arrive sur le quai, il constate très énervé que les portes de son train sont en train de se refermer. Il se dit amèrement que cela ne serait pas arrivé s'il ne s'était pas arrêté quelques instants pour refaire son lacet. La très grande majorité des personnes testées ont estimé que l'émotion de Lucas est plus intense s'il a refait son lacet à 30 mètres de la gare plutôt qu'à 100 mètres ou à 800 mètres. Comment expliquer ce phénomène ? L'événement est ici d'autant plus émotionnel qu'il était évitable.
Selon la théorie de la simplicité, une cause plus simple à décrire est subjectivement plus improbable, et donc plus facile à remettre en question. Il est ainsi plus facile de blâmer la cause du lacet défait si sa proximité spatiale la rend plus simple à décrire. Si une IA veut nous comprendre, elle devra appliquer ce type de principe.

x[modifier]

Responsable mais pas coupable[modifier]

Les humains passent beaucoup de temps à commenter les actions d'autrui . Une intelligence artificielle peut-elle comprendre la notion de responsabilité, peut-elle juger les actions des humains et éventuellement blâmer leur auteur ?
Quelqu'un vous demande votre foulard pour faire un garrot à une personne accidentée à 100 mètres de là, et qui risque de mourir. Vous tenez à votre foulard, d'une valeur disons de 50 euros. Pourtant, vous n'hésitez pas à en faire don au secouriste. Autre exemple : un collecteur d'organisation caritative vous demande de donner 50 euros pour sauver la vie d'une personne en Afrique ; vous hésitez un peu plus. Cette différence de comportement peut s'expliquer par la plus grande distance, spatiale et temporelle. La victime africaine et son sauvetage dans un mois ou un an sont bien plus complexes à décrire avec la même précision que la victime située à 100 mètres et son sauvetage imminent. L'émotion associée s'en trouve diminuée d'autant. Une intelligence artificielle fonctionnant selon des principes utilitaristes ne verrait aucune différence entre les deux situations. Dans chaque cas, la même somme est dépensée pour le même effet  : sauver une personne. Ce n'est pas ainsi que nous fonctionnons. Nos décisions dépendent de l'émotion que nous associons au résultat, et cette émotion dépend du fait que le résultat nous apparaît simple, c'est-à-dire concis à décrire en termes de quantité d'information. Le même principe s'applique lorsque nous jugeons et commentons le comportement d'autrui.
Je me souviens précisément du 19 juin 1986  : la rue dans laquelle je me trouvais, le magasin, ce que j'étais en train d'acheter, la radio qui diffusait de la musique avant de s'interrompre pour un flash spécial. Coluche était mort. Il avait percuté à moto un camion qui, réalisant une man œuvre, lui barrait la route. Pendant plusieurs secondes, je me suis laissé aller à une réaction instinctive : m'en prendre au conducteur du camion en l'accusant d'avoir assassiné Coluche. Comme s'il avait agressé quelqu'un de ma famille. Heureusement que la justice ne fonctionne pas ainsi  : elle n'est pas censée tenir compte de la renommée de la victime au moment de juger le camionneur. Une intelligence artificielle, une vraie, capable de mener des calculs plutôt que de simplement classer les situations, aurait-elle pu analyser cet événement, aurait-elle compris mon sentiment immédiat vis-à-vis du conducteur et aurait-elle pu estimer sa responsabilité ? Et quel type de calcul aurait-elle dû effectuer pour cela ?
La notion de simplicité se retrouve à toutes les étapes d'un tel calcul. Elle joue un rôle, nous l'avons vu, dans la détermination de l'émotion. Coluche étant très célèbre à l'époque, très peu d'information suffisait à le désigner. Sa simplicité amplifiait considérablement l'émotion de l'événement pour le public. La notion de simplicité permet aussi d'estimer la responsabilité causale du camionneur. Pour cela, il faut mesurer combien l'action du camionneur a simplifié la description de l'enchaînement des causes menant à l'accident . Le calcul montre notamment que cette responsabilité causale croît avec le temps durant lequel le camion a barré la route au cours de la man œuvre, même s'il a suffi d'un instant pour provoquer l'accident. La simplicité se retrouve aussi dans la tête de l'auteur des faits. Celui-ci est supposé pouvoir calculer le risque qu'il a pris, risque que l'on peut estimer par la simplicité du lien causal entre son action et l'accident. Cette exigence que l'auteur des faits soit en mesure de calculer les conséquences de son action se retrouve dans l'histoire de Mary.
Mary est une éléphante de cirque qui vivait au début du xx siècle aux États-Unis. Le 12 septembre 1916, elle tua un soigneur inexpérimenté, embauché la veille et qui l'avait malmenée et probablement fait souffrir. L'éléphante de 5 tonnes fut pendue le lendemain à Erwin dans le Tennessee, devant un public de 2 500 personnes, à l'aide d'une grue (l'histoire de l'infortunée éléphante peut être consultée sur Wikipédia). Le sort réservé à Mary est choquant ; même si Mary était causalement responsable de la mort du soigneur, elle n'était pas réellement responsable. De nos jours, dans la plupart des cultures, les êtres qui ne sont pas en mesure de calculer les conséquences de leurs actions, comme les animaux, les jeunes enfants ou les malades mentaux, ne sont pas considérés comme réellement responsables, même s'ils le sont causalement.
Non seulement la responsabilité fait l'objet d'un calcul, fondé pour l'essentiel sur la notion de simplicité, mais ce calcul considéré comme hors d'atteinte des animaux ou des enfants est supposé être effectué par chacun d'entre nous à chaque instant. Or, dans un futur proche, une intelligence artificielle pourrait elle aussi être en mesure de calculer les conséquences de ses actes. Qu'en sera-t-il de sa responsabilité en tant qu'acteur ou décideur ? Qu'aurions-nous dit si le camion qui a tué Coluche avait été piloté par un programme ? À un moment de sa journée, notre personnage Lisa monte dans un taxi autonome. Le programme qui conduit le taxi prend quantité de décisions à chaque instant. Comme pour un conducteur humain, la plupart de ces décisions vont de soi et ne ressemblent en rien à des choix cornéliens. Le conducteur artificiel doit cependant être programmé pour toutes les éventualités, y compris les situations où il est obligé de mettre des vies en danger. En cas d'accident, peut-il être regardé comme responsable ? Ces questions dépassent largement le cadre des véhicules autonomes et concernent toute décision prise par une machine qui peut provoquer des dommages pour des humains, des animaux ou pour la nature. Les machines actuelles prennent des décisions que l'on peut qualifier d'aveugles.
Une machine qui appliquerait les principes de simplicité et calculerait les conséquences de ses actes pourrait-elle être tenue pour responsable en cas d'erreur ?
Contrairement à l'éléphante Mary, le programme est en principe en mesure d'effectuer tous les calculs de causalité requis. En revanche, il est difficile de pendre un programme. On pourrait dire que l'IA dans un tel cas est responsable sans être coupable. En réalité, le calcul de simplicité ne dit pas tout. Il estime l'intensité des émotions associées aux éventualités, en fonction de paramètres comme la proximité spatiale, temporelle ou sociale, la célébrité, ou encore la simplicité des enchaînements causaux. C'est déjà beaucoup, mais l'émotion attachée aux événements repose, à la base, sur tout autre chose  : sur la valeur que nous attachons au type d'événement considéré. Si nous préférons écraser un chien plutôt que heurter un landau, c'est en raison des valeurs que nous attachons à la vie d'un chien et à la santé d'un nouveau-né. Cette irruption des valeurs dans le calcul va-elle empêcher une IA de calculer sa responsabilité et celle d'autrui ? Pas le moins du monde. Il est facile de définir une hiérarchie standard de valeurs, conforme avec ce qu'attend la société à laquelle on appartient. Et ce sera le bon choix, puisque les jugements de culpabilité rendus par les tribunaux sont précisément censés appliquer cette hiérarchie standard de valeurs. On peut même aller un cran plus loin et en profiter pour faire découler la hiérarchie de valeurs utilisées par l'IA de principes rationnels. Deux vies sauvées valent plus qu'une seule ; ou il vaut mieux sauver une jeune personne en sacrifiant deux personnes âgées. C'est en tout cas ce que prônerait un point de vue utilitariste. Voulons-nous vraiment vivre sous le contrôle d'intelligences artificielles aussi « rationnelles » ?
Il est parfaitement possible de limiter la rationalité de l'IA aux calculs de responsabilité utilisant les principes de simplicité, tout en lui imposant notre hiérarchie de valeurs. Imaginons que Lisa, au moment d'aller à l'université, ait utilisé son propre véhicule autonome plutôt qu'un taxi. Elle a défini à l'avance sa hiérarchie de valeurs, au sein de laquelle elle a positionné la valeur de sa propre vie, celle de ses proches, celle de ses biens, celle du véhicule lui-même, ainsi que sa préférence de favoriser ou non la sécurité aux dépens du temps de parcours. Avec l'entrée de l'intelligence artificielle dans les différents compartiments de notre vie quotidienne, la liberté offerte à chacun d'imposer sa propre hiérarchie de valeurs sera le principal moyen qui nous restera pour exercer un contrôle sur notre environnement. Bien évidemment, cette liberté n'est pas sans conséquences. En cas d'accident, la responsabilité de l'utilisateur sera engagée. Si le programme intelligent chargé de conduire le véhicule a correctement effectué ses calculs, la responsabilité ne peut venir que d'un désaccord entre les valeurs qui lui ont été fournies et celles de la société dans laquelle le jugement de responsabilité se décide. Le véhicule sera responsable, mais c'est son utilisateur qui sera coupable.
On peut imaginer qu'une IA capable de tenir compte d'une hiérarchie de valeurs pour agir de manière responsable soit également capable de discuter à leur propos, de les affiner en les négociant avec l'utilisateur à qui elle montrerait les dangers de tel ou tel choix. Une telle IA saurait se faire apprécier de ses utilisateurs en étant en outre capable de commenter le bien-fondé des actions d'autrui, comme aiment tant à le faire les humains, en adoptant le point de vue et les valeurs de la personne à qui elle parle.

x[modifier]

Des intelligences artificielles créatives[modifier]

Une intelligence artificielle pourrait-elle parler de l'esthétique d'un tableau ou de l'intérêt d'un film ? Pour qu'elle comprenne ce dont elle parle, il faudrait non seulement qu'elle puisse « calculer » la qualité esthétique d'une œuvre, mais de plus que ce calcul reproduise la sensibilité esthétique éprouvée par les êtres humains. Voilà qui semble bien illusoire !
Après avoir réalisé plusieurs peintures abstraites, de plus en plus dépouillées, comme son Carré noir sur fond blanc, le peintre russe Kasimir Malevitch ose peindre en 1918 son très fameux Carré blanc sur fond blanc . Cette peinture est l'un des tout premiers monochromes, probablement le premier monochrome non humoristique. Une intelligence artificielle saurait-elle comprendre cette forme de créativité ? Dans cet exemple, on peut l'imaginer si la machine est dotée des moyens de mesurer la simplicité. Dans un monde où les monochromes n'existent pas encore, le carré blanc sur fond blanc présente une simplicité inattendue, puisqu'on ne peut faire plus simple. Cela, une machine peut le comprendre. Évidemment, dans un monde artistique peuplé de monochromes, chacun d'entre eux est moins intéressant, car l'information nécessaire pour le discriminer des autres vient accroître sa complexité. Le centième monochrome a toutes les chances de passer inaperçu, et une machine pourrait le savoir.
De nombreux artistes jouent sur la simplicité inattendue pour provoquer des effets esthétiques. Larry Kagan est connu pour réaliser des structures en fil de fer qui ne semblent pas avoir de forme identifiable. Pourtant, si on les éclaire sous le bon angle, l'ombre portée sur le mur devient tout à fait reconnaissable et parfaitement surprenante : ici un caniche, là un joueur de basket. L'une de ses structures se projette comme une main qui semble tenir la structure elle-même laquelle, maintenant, peut être reconnue comme un bouquet de fleurs. Une IA pourrait-elle comprendre, voire créer des formes qui nous surprennent ?
Avec des collègues, nous avons cherché à réaliser un programme simple capable de provoquer la surprise en fabriquant des images inattendues pixel par pixel. Pour qu'une image apparaisse simple, il faut que l'observateur puisse y reconnaître une forme qu'il connaît (il s'agissait en l'occurrence d'une émoticône). Pour que l'image soit inattendue, il faut que sa production à partir du point de départ soit complexe. Dans notre expérience, la complexité est représentée par le nombre de pixels à changer pour atteindre le résultat.
Ainsi, passer d'une icône de clin d' œil à partir d'un smiley (icône souriante) n'est pas très intéressant dans ce contexte, car les deux images se ressemblent trop, et changer quelques pixels suffit pour passer de l'une à l'autre. Notre programme armé de cette seule stratégie de « maximisation de la surprise » passait d'une émoticône à une autre de manière imprévisible et intéressante. Malgré les ambitions très limitées de l'expérience, le programme parvenait à nous surprendre. Nous étions captivés en essayant d'anticiper quelle serait la prochaine icône qui apparaîtrait sur l'écran derrière le frémissement transitoire des pixels en train de changer.
La simplicité inattendue n'est bien sûr pas le seul critère de la créativité, mais elle en est un ingrédient essentiel car, comme pour toute émotion, c'est elle qui contrôle l'intensité de ce qui est ressenti. On la retrouve au tout premier plan dans la création de fiction. Peut-on imaginer qu'une intelligence artificielle soit capable de raconter de bonnes histoires ? Au cours du récit de sa journée, notre personnage de Lisa demande à son assistant de réarranger les événements qu'elle a vécus le jour même pour en faire une réalité alternative intéressante. Est-ce plausible ? Pour l'instant, non. Les recherches actuelles portent surtout sur le fait de produire des récits dans lesquels les personnages réalisent des actions crédibles, et n'en sont pas à inventer des histoires intéressantes.
Un étudiant doctorant qui a étudié cette question de l'intérêt dans la fiction est parvenu à la conclusion que la notion de simplicité est cruciale dans cette forme de créativité . Dans un épisode d'une série française que je regardais récemment, la victime, chef d'un grand restaurant, est trouvée morte poignardée dans son établissement. On soupçonne l'un de ses collègues qui aurait pu être jaloux d'elle. Problème : l'heure de la mort, inférée d'après la température de son foie, indique avec certitude qu'elle était seule dans tout le bâtiment au moment du crime ; de plus, le collègue jaloux a un solide alibi. Mystère ! L'enquêtrice découvre par la suite que l'heure de la mort a été faussée par le fait que la victime avait été placée plusieurs heures en chambre froide. Le crime est plus récent qu'on ne le croyait, si bien que le suspect n'a plus d'alibi. On découvre finalement que c'est bien lui le coupable. La simplicité intervient sous trois angles dans ce type de scénario. Premier angle, pour quantifier le mystère. Le spectateur que je suis est incapable d'imaginer une explication plausible dans la situation de départ, c'est-à-dire un enchaînement de circonstances qui explique le crime et dont la complexité reste faible. Une bonne histoire commence donc avec une absence de solution simple a priori. Le deuxième angle où la simplicité intervient concerne la solution a posteriori. Celle-ci doit être la plus simple possible sur le plan causal. Dans cette histoire, l'assassin a bien un mobile, le placement en chambre froide explique bien l'erreur sur l'heure du décès, et il est naturel de trouver une chambre froide dans un restaurant (je soupçonne les scénaristes d'avoir placé l'intrigue dans un restaurant dans ce seul but). Reste le troisième angle par lequel l'histoire se doit d'être simple  : la solution a posteriori doit être simple à décrire. Il vaut mieux que l'assassin soit le personnage jaloux proche de la victime qui a été introduit au début de la narration, plutôt qu'un individu qu'on ne connaît pas et à qui la victime devait de l'argent. La présence d'un mobile dans chaque cas ne modifie pas la complexité causale, mais la personne de l'entourage est plus simple à décrire du point de vue du spectateur, ce qui rend le scénario plus intéressant. La simplicité inattendue est l'élément central de l'intérêt d'une telle histoire, encore plus que la révélation des événements. Même dans une histoire où l'on sait dès le départ qui est le coupable, on prend plaisir à ressentir le contraste entre la complexité causale posée au départ et la simplicité du dénouement, par exemple en s'imaginant dans la tête de l'enquêteur.
Pour intéresser Lisa en réinventant sa journée, une intelligence artificielle devra calculer ces trois formes de simplicité  : créer un problème dont la solution a priori est causalement complexe, puis dévoiler une solution qui se trouve être a posteriori simple à la fois sur le plan causal et sur le plan descriptif. Ce principe du contraste entre simplicités dépasse largement les histoires de crimes et semble s'appliquer naturellement à toute une gamme de narrations.
À la fin de sa journée, Lisa doit rédiger un curriculum vitae. Comment faire un CV qui intéresse le recruteur ? S'il est trop standard, il ressemblera à tous les autres et, de ce fait, sera complexe à distinguer. Puisqu'un CV est par nature une sorte de mininarration, l'assistant de Lisa pourrait tenter une stratégie narrative en ménageant une simplicité inattendue, par exemple en mettant en évidence une coïncidence qui suggère que le stage est fait pour elle. Une telle stratégie requiert des intelligences artificielles capables de calculer en tenant compte de la manière humaine de percevoir l'intérêt et, plus généralement, de communiquer.

x[modifier]

Être pertinent[modifier]

La question de la pertinence n'est pas simplement importante pour concevoir des intelligences artificielles. Si l'on suit Alan Turing, c'est la question la plus importante. Pour Turing, un programme intelligent doit pouvoir se comporter comme un être humain au cours d'une conversation. Il doit notamment émettre des répliques qui semblent sensées, rationnelles. Dans une expérience mentionnée plus haut, des étudiants cherchent à projeter des diapositives sur une porte qui leur sert d'écran. L'un suggère de poser le projecteur sur le bureau ; l'autre fait remarquer qu'il n'osait pas déranger les livres qui s'y trouvaient, puis finalement observe qu'ainsi l'image se trouve projetée sur la poignée de la porte ; un autre lui suggère d'incliner l'appareil en mettant les livres dessous, mais le premier répond que cela va déformer l'image. Conversation on ne peut plus banale. Pourtant, chaque réplique démontre qu'elle a été produite par un être intelligent, rationnel, pertinent. Si l'un des étudiants avait fait observer en parlant du projecteur  : « Il est de couleur noire », les autres auraient probablement répliqué  : « Et alors ? », attendant un lien logique avec le problème en cours. Les individus qui commettent ainsi des erreurs de pertinence sont rapidement considérés comme présentant des troubles mentaux et, dans nos sociétés, se retrouvent souvent mis à l'écart, si ce n'est enfermés.
Il est si facile d'être démasqué à la moindre erreur de pertinence qu'une intelligence artificielle n'a aucune chance de donner le change longtemps dans le jeu de l'imitation de Turing. Peut-on imaginer augmenter la puissance et la complexité des réseaux de neurones et des systèmes d'apprentissage par renforcement jusqu'à ce que leur comportement conversationnel ne puisse plus être discerné de celui des humains ? Non. Même un système surpuissant de ce type risque de dire fort mal à propos à propos du projecteur : « Il est de couleur noire », tout simplement parce qu'il ne comprend pas le problème dont il est question dans la conversation.
Dans le petit récit relatif à sa journée d'étudiante, Lisa doit travailler sur un projet portant sur la pertinence dans la conversation. Que faudrait-il à une IA pour comprendre et reproduire les répliques d'une conversation naturelle ? Au niveau des principes, peut-être fort peu de chose. Modéliser la pertinence dans le dialogue est quasiment la même chose que modéliser un aspect fondamental du raisonnement humain, appelé raisonnement délibératif. Autrement dit, il s'agit de rien moins que de comprendre la rationalité humaine ! Or il se trouve que le nombre des mécanismes impliqués dans le raisonnement délibératif est particulièrement réduit. Trois d'entre eux sont fondamentaux .
Le premier de ces mécanismes est la « détection de problème ». Projeter l'image sur la poignée est problématique, de même que projeter une image déformée. Une machine intelligente doit pouvoir voir et comprendre les problèmes. Le deuxième mécanisme a pour nom « abduction ». Cette opération consiste tout simplement à trouver une cause à une situation problématique. Je dis « tout simplement », mais l'opération elle-même n'a rien d'anodin. Si vous actionnez l'interrupteur et que la bouilloire ne fonctionne pas, vous saurez assez vite faire quatre ou cinq propositions, comme le fait que la bouilloire est défectueuse, le courant a été coupé, que le disjoncteur a sauté, mais vous n'aurez peut-être pas vingt idées plausibles sur la question. Rien que le fait d'attribuer la position trop basse de l'image à la position du projecteur, si évident pour un humain, ne l'est pas pour une machine. Nous disposons de diverses stratégies pour réaliser des abductions  : observation, comparaison avec des situations passées, raisonnement par analogie, détection de ce qui vient de changer, imagerie mentale, etc. Diverses techniques, comme le raisonnement par cas, permettent de réaliser des abductions dans les situations qui s'y prêtent.
L'abduction permet de propager le problème sur ses causes, puis éventuellement sur les causes de ses causes, jusqu'à ce que, peutêtre, une solution soit en vue. Si ce n'est pas le cas, le troisième mécanisme fondamental entre en jeu. Il s'agit de la « négation ». Face à un problème concret comme une bouilloire qui ne fonctionne plus, on passe un temps limité à chercher les causes pour établir un diagnostic. Si l'on s'aperçoit que le disjoncteur a sauté, la solution est trouvée. Passé ce temps, si aucune solution n'est en vue, on considère la version inverse du problème en en niant les termes. Plutôt qu'observer un état non souhaité, on souhaite un état non observé ; en l'occurrence, on souhaite que l'eau bouille, on souhaite que l'image ne soit plus sur la poignée. Cette fois, l'abduction va proposer des solutions plutôt que des diagnostics, et on va par exemple utiliser une casserole ou incliner le projecteur.
Il y a loin des principes à leur réalisation. Un système capable de raisonner et de dialoguer devra certainement posséder ces trois mécanismes : détection de problème, abduction, négation. Mais il devra, pour les mettre en œuvre, les connecter à des systèmes de perception constitués de capteurs et à des systèmes de commande permettant une variété d'actions. Or nous avons vu que le couplage de tels systèmes de perception-action avec des opérations de nature symbolique, comme ici la détection de problème, la recherche de cause et la négation, ne va pas de soi. L'élucidation des mécanismes qui vont permettre à une intelligence artificielle de raisonner et de dialoguer n'est donc qu'une étape.

x[modifier]

Perspectives[modifier]

Les chercheurs en intelligence artificielle ne s'accordent pas toujours sur ce qu'intelligence veut dire. Pour caricaturer, on peut dire qu'il y a d'un côté l'intelligence qui agit et d'un autre côté l'intelligence qui comprend. D'un côté, celle des réseaux de neurones et, de l'autre côté, celle qui calcule, raisonne et argumente. Cette divergence sur la définition même de l'intelligence est l'écho d'une opposition plurimillénaire profonde, celle qui sépare empiristes et rationalistes. Pour les empiristes, toute connaissance vient de l'expérience et de l'observation du résultat de ses actions. Le courant comportementaliste (béhavioriste) de la première moitié du xx siècle aux États-Unis et, maintenant, les réseaux de neurones ou l'apprentissage par renforcement sont des manières de transcrire l'empirisme dans le domaine scientifique et technique. À l'opposé, les rationalistes considèrent que l'esprit est préparé à acquérir un certain type de connaissances. Alors que l'esprit de l'empiriste est censé être vierge avant de recevoir des expériences qui vont le marquer de leur empreinte, l'esprit du rationaliste interroge le monde pour savoir quel type de structure est adéquat pour le représenter. Le langage de la pensée de Fodor, la grammaire universelle postulée par Noam Chomsky évoquée au chapitre précédent et les ontologies se rattachent directement à la tradition rationaliste.
Je ne crois pas que la vision empiriste permette d'amener l'intelligence artificielle à un niveau tel qu'on puisse la regarder comme réellement intelligente. Une fois que la phase d'émerveillement dans laquelle nous nous trouvons actuellement sera passée, nous commencerons à voir l'IA numérique pour ce qu'elle est  : un ensemble de techniques géniales pour apprendre le monde par c œur. L'intelligence qui résulte de cette forme d'apprentissage est une intelligence prémâchée. Une fois que le système a appris, il se contente d'appliquer la fonction apprise : à telle situation j'associe telle classe, dans tel cas je fais telle action. Son intelligence se limite au fait de combler par continuité les trous entre les cas connus. Or, à bien des égards, le monde, et particulièrement le monde humain, est trop structuré pour être appris par c œur .
Je ne crois pas non plus à une vision rationaliste naïve de l'intelligence artificielle. Placer directement les connaissances dans la mémoire de la machine, comme ce que l'on fait avec les ontologies, peut rendre des services à court terme, mais ne peut conduire à des machines réellement intelligentes. Les systèmes qui utilisent un langage de la pensée formé de relations et de règles statiques sont trop pauvres pour se connecter à la perception et ne peuvent pas évoluer par apprentissage. L'intelligence artificielle du futur, telle que je l'imagine, sera construite autour d'un ensemble de mécanismes largement inspirés de notre fonctionnement cognitif. Les réseaux de neurones ou l'apprentissage par renforcement reposent sur un seul mécanisme : l'extraction de régularités statistiques. L'IA a besoin d'autres mécanismes d'inspiration plus cognitive. Nous en avons rencontré plusieurs, notamment le contraste, le calcul de la simplicité et l'abduction. Le développement de l'intelligence artificielle est à l'image du progrès scientifique. Au cours des siècles et dans chaque discipline, la science oscille entre l'accumulation de données et la découverte de lois. Certains physiciens, biologistes, linguistes ou psychologues se focalisent sur le fait d'accumuler des expériences et des résultats tandis que certains de leurs collègues, parfois très minoritaires, s'efforcent de déceler un ordre caché en recherchant des mécanismes sous-jacents. La recherche en intelligence artificielle s'est récemment engagée dans l'exploitation forcenée des données, en tournant résolument le dos à toute idée de reproduction des mécanismes spécifiques de l'intelligence.
Si, comme je le crois, le futur de l'intelligence artificielle passe par l'imitation de l'intelligence naturelle, voire par l'amplification de ses mécanismes, alors le calendrier de ce futur n'est pas écrit. Comme pour tous les domaines de recherche, le progrès de l'IA passera par des étapes qualitatives impossibles à planifier. La simple extrapolation des techniques de l'IA numérique que l'on connaît aujourd'hui permettra de nouvelles performances impressionnantes, mais ce ne sont pas elles qui nous conduiront à la singularité technologique qu'Elon Musk et Stephen Hawking ont prophétisée. La question de la singularité technologique ressemble à celle de la surpopulation sur Mars  : on ne peut exclure que le problème se pose un jour, mais ce n'est pas demain. Les techniques actuelles de l'intelligence artificielle sont porteuses de nombreux dangers potentiels, mais pas de celui de prendre le pouvoir sur les humains.
On peut dès lors se demander si une intelligence artificielle dont le fonctionnement s'inspirerait de beaucoup plus près de l'intelligence humaine ne présenterait pas d'autres risques. Si les machines peuvent assimiler les mêmes connaissances que nous, ferons-nous encore l'effort de les acquérir ? Et si des machines comprennent nos émotions, ne court-on pas le risque de voir les relations affectives entre humains remplacées par des relations humain-machine . Comme toute nouvelle technologie, le rôle futur de l'IA dépend de ce que l'on en fera. Son utilité sociale et ses dangers seront fonction de ce que la société décidera d'autoriser ou d'interdire. Cependant, cette intelligence artificielle-là, conçue à notre image, nous sera bien plus intelligible que l'IA numérique actuelle. Il sera plus facile pour un large public de prendre des décisions éclairées à l'égard de dispositifs qui raisonnent comme nous. En tant que citoyen, je m'interroge bien sûr sur la présence envahissante et le pouvoir grandissant de machines qui deviendront progressivement nos alter ego. Je me rassure en me disant que ces innovations interviendront par étapes, nous laissant le temps de décider chaque fois de la place qu'elles occuperont. En tant que chercheur, je trouve l'idée de développer une intelligence à l'image de la nôtre plutôt fascinante. Les humains se sont tournés vers le cosmos pour y chercher d'autres intelligences et communiquer avec elles. Un temps viendra où nous aurons le sentiment de n'être plus seuls dans l'univers. L'espèce humaine aura créé près d'elle une nouvelle forme d'intelligence qui lui ressemblera, et elle aura à qui parler.

x[modifier]

1. Un objet complexe dans une collection d'objets simples identiques est intéressant, bizarrement, parce qu'il est plus simple que tous les autres. Il est en effet unique, alors que les autres objets doivent encore être distingués entre eux (voir le site www.simplicitytheory.science).
2. L'expérience sur la complexité des grilles de loto est décrite dans un article de 2006 publié dans les comptes rendus de la conférence ICCM (www.dessalles.fr/ papers/Dessalles_06020601.pdf).
3. Le site www.simplicitytheory.science présente l'essentiel de la théorie de la simplicité, avec des références et des exemples concrets. L'exemple de la rencontre fortuite est expliqué dans un article que j'ai publié en 2008 dans les comptes rendus de la conférence CogSci, p. 2134.
4. Dans un espace à deux dimensions, le nombre de localisations (pour une précision donnée) croît comme le carré de la distance à l'observateur. En prenant le logarithme de ce carré (ce qui revient à doubler le logarithme de la distance), on obtient la quantité de bits nécessaire pour désigner une localisation sans ambiguïté (voir les détails sur le site www.simplicitytheory.science).
5. L'expérience sur le « raté de peu » a été publiée en 2010 dans les comptes rendus de la conférence CogSci, p. 1928. Voir aussi l'étude qui lui fait suite, l'année suivante, à CogSci 2011, p. 408.
6. L'habitude humaine de parler des actions d'autrui a été mise en évidence par Robin Dunbar dans son célèbre livre, Grooming, Gossip, and the Evolution of Language, publié en 1996 par Harvard University Press.
7. Les effets combinés sur la responsabilité de la complexité causale et de la simplicité des effets sont analysés dans un article de Giovanni Sileno, Antoine Saillenfest et moi-même publié en 2017 dans les actes de la conférence JURIX (ebooks.iospress. nl/volumearticle/48059).
8. L'étude sur la créativité dans la fabrication d'images est présentée dans un article d'Antoine Saillenfest, Olivier Auber et moi-même publié en 2016 dans les comptes rendus de la conférence internationale sur la créativité ICCC (www. computationalcreativity.net/iccc2016/wp-content/uploads/2016/06/paper_39-1.pdf).
9. Michael Leyton, dans son livre The Structure of Paintings publié en 2006 chez Springer, suggère que la reconnaissance des formes connues dans une œuvre d'art peut être largement inconsciente.
10. Sur la modélisation de la surprise dans la fiction, voir la thèse d'Antoine Saillenfest publiée par Télécom ParisTech en 2015 (www.dessalles.fr/papers/ Saillenfest_16030401.pdf). Voir également l'article d'Antoine Saillenfest publié en 2014 dans le numéro 29 de la revue Literary and Linguistic Computing (www. dessalles.fr/papers/Dessalles_14072802.pdf).
11. Le Diagnostic and Statistical Manual of Mental Disorders, qui fournit des règles internationalement reconnues pour le diagnostic psychiatrique, inclut la désorganisation du discours comme indicateur d'une pathologie schizophrénique. La désorganisation du discours peut aussi être relative à des formes d'autisme.
12. Sur les mécanismes fondamentaux de la pertinence argumentative, voir le chapitre que j'ai écrit dans le livre Principles and Practice of Multi-Agent Systems publié en 2016 chez Springer (www.dessalles.fr/papers/Dessalles_16061002.pdf).
13. La notion de simplicité joue un rôle central dans l'abduction. Les causes les plus plausibles sont causalement les plus simples. Il s'agit d'une version d'un principe appelé « rasoir d'Occam ».
14. J'ai montré que les systèmes d'extraction de régularités avaient par construction certaines propriétés géométriques, notamment d'être isotropes et relatifs. Ils sont ainsi
efficaces pour apprendre de « bonnes » formes, qui sont invariantes par rotation et translation, mais pas pour apprendre les formes structurées comme le langage qui n'ont pas ces propriétés. Voir mon chapitre du livre Apprentissage. Des principes naturels aux méthodes artificielles, publié en 1998 chez Hermès. (www.dessalles.fr/ papers/Dessalles_97062502.pdf).
15. J'emprunte la comparaison entre la singularité technologique et la surpopulation sur Mars à David Sadek. Sur cette question de la singularité technologique, voir le livre de Jean-Gabriel Ganascia, Le Mythe de la singularité, publié en 2017 au Seuil.
16. Le danger de transfert affectif vers les machines a été abordé dans le beau film Her ( Elle ) de Spike Jonze, sorti en 2013.

x[modifier]

INDEX[modifier]

x[modifier]

A[modifier]

abandon sélectif ( dropout ) : 48, 53 abduction : 169, 170, 172
AIXI : 180
algorithmes génétiques : 63-65, 67 AlphaGo : 11, 33, 54-56, 58, 115, 123,
178, 180
AlphaGo Zero : 55, 58, 125, 180 Altavista : 26
Angwin, J. : 73, 181
anomalie : 116, 122-124, 134, 135, 138, 147, 151
antagonistes (réseaux) : 83
apprentissage antagoniste : 58 apprentissage instantané : 136, 137 apprentissage profond : 11, 27, 33, 39, 42,
44, 46-53, 56, 65, 67, 83, 124, 178 aspect : 188
attentionnel : 115, 117
attitude : 150
Auber, O. : 189
autoencodeurs : 48, 179

x[modifier]

B[modifier]

Bach, J.-P. : 177
Banks, I. : 183
Bar-Hillel, Y. : 176
béhaviorisme : 171
Bengio, Y. : 116, 182, 185
Berner, E. : 177
Big Bang : 8
binding Voir liage
Boltzmann (machines) : 48, 179 Bolukbasi, T. : 181
Bostrom, N. : 184
Boureau, Y. : 179
bulle informationnelle : 79-81, 84, 85 Burks, A. : 181

x[modifier]

C[modifier]

Cadé, D. : 177
cartes auto-organisatrices : 37, 179 Ceccato, C. : 15, 176
Chaitin, G. : 147, 188
Chalmers, D. : 184
Chomsky, N. : 148, 171
cinquième génération d'ordinateurs : 17, 21, 176
coïncidence : 113, 154
Colmerauer, A. : 177
Coluche : 161, 162
compression : 147
ConceptNet : 22, 177
connexionnisme : 38
conscience : 104, 105, 109, 185 continuité : 130, 132, 186 contradiction : 19, 116 contraste : 135, 136, 138, 139, 147, 151,
convolutifs (réseaux) : 48, 51, 52, 56, 67, 91, 183
convolution cyclique : 184
Crain, S. : 188
Crick, F. : 106, 184
Curie-Sk łodowska, M. : 21-23
Cuxac, C. : 180
CYC (système expert) : 20, 22, 120, 121, 177

x[modifier]

D[modifier]

Datta, A. : 182
décision automatisée : 30, 31, 86, 88, 89, 91
décision juridique : 73, 75, 86, 92, 182 Deep Blue : 23
DeepMind : 178
Denkenberger, D. : 175
Dolce (ontologie) : 120
Dunbar, R. : 189

x[modifier]

E[modifier]

échecs (jeu) : 16, 23, 144, 145
Eliza : 70, 71
Elsayed, G. : 187
émergence : 98, 101-103
empirisme : 171
Enjalbert, P. : 187, 188
Eslami, S. M. A. : 187
Esteva, A. : 183
évanouissement du gradient : 46, 49, 52, 179
évolution : 7, 63, 65, 66, 97, 98, 103, 105, 107, 108
explication : 86-88
explicite (connaissance) : 11, 21, 22, 62, 114-116, 123, 125, 126

x[modifier]

F[modifier]

Facebook : 27
fiction : 30, 150, 166
Fodor, J. : 117, 120, 121, 134, 171, 185, 186
fossé explicatif : 106, 107, 109, 184 Frey, C. B. : 90, 92, 183

x[modifier]

G[modifier]

Ganascia, J.-G. : 190
Gates, B. : 8, 9, 175
Gaucherel, C. : 181
générale (IA) : 123, 126
génératifs (réseaux) : 83, 84, 182 géométrie des significations : 59-62, 78,
83, 128, 130, 180
Gervais, R. : 70
Gestalt : 188
Ghadakpour, L. : 134, 186 Ghahramani, Z. : 187
go (jeu) : 11, 33, 55, 56, 58, 114, 123, 124 Gobet, F. : 187
Good, I. : 7, 8, 175
Gould, S. J. : 184
Goulden, R. : 187
Gouyon, P.-H. : 181
GPU : 53, 54
Griffiths, T. : 180
Gross, M. : 176
Grumbach, A. : 186

x[modifier]

H[modifier]

Hanson, D. : 181
Hänßle, H. : 183
Hassabis, D. : 178, 180, 187
Hawking, S. : 7-9, 11, 173, 175
Hebb, D. : 35-37, 102, 178
hésitation (réseau) : 43, 45, 133 Hinton, G. : 178, 179
Hofstadter, D. : 126-128, 146, 186 Hopfield, J. : 179
Hopfield (réseaux) : 179
Hui, F. : 54, 55
Human Brain Project : 34, 178 Hutter, M. : 180

x[modifier]

I[modifier]

IBM : 23, 175
implicite (connaissance) : 114-116
impossibilité : 116
incohérence : 116, 119

x[modifier]

J[modifier]

Jacquet, G. : 188
Jeopardy! : 23
jeu de l'imitation : 14, 21, 24, 31, 72, 169 Johnson, B. : 97, 98, 184
Jonze, S. : 190

x[modifier]

K[modifier]

Kagan, L. : 165
Kasparov, G. : 23
Kearns, M. : 182
Kleinberg, J. : 182
Koch, C. : 106, 184
Kohonen, T. : 37, 179
INDEX
Kohs, G. : 180
Koza, J. : 65, 66
Krizhevsky, A. : 178
Kubrick, S. : 15

x[modifier]

L[modifier]

Lake, B. : 187
Lample, G. : 180
langage de la pensée : 120, 134, 139, 140, 171, 172
latente (sémantique) Voir géométrie des significations
Le Cun, Y. : 48, 178, 179
Lebreton, V. : 183
Lecuivre, D. : 177
Lee, C. : 180
Lenat, D. : 21, 22, 24, 177
Lepore, E. : 186
Leyton, M. : 188, 189
liage : 101, 102, 105
Lieber, C. : 183
Lighthill, J. : 176
Liu, J. : 183

x[modifier]

M[modifier]

machines à vecteurs supports : 39, 47 Malevitch, K. : 165
Malsburg, C. von der : 102, 184 McCulloc, W. : 178
Mikolov, T. : 180
Mikrokosmos (ontologie) : 120
Milgram, S. : 182
Miller, J. : 181
Minsky, M. : 16, 18, 24, 36, 38, 42, 176, 178
monde de cristal : 93, 95, 96 Monte-Carlo : 180
Monte-Carlo (méthode) : 56
Morisse, T. : 183
Morizet-Mahoudeaux, P. : 176
Munch, D. : 188
Murena, P.-A. : 188
Musk, E. : 8, 11, 96-98, 173, 175, 184 N
négation : 116, 135, 170
NETtalk : 41-43, 48, 179
Neumann, J. von : 181
Neuralink : 96
Newell, A. : 16, 176
Nguyen, A. : 186

x[modifier]

O[modifier]

Oita, N. : 177
ontologies : 22, 23, 120, 134, 171, 172 Osborne, M. : 90, 92, 183

x[modifier]

P[modifier]

Papert, S. : 178
perceptron : 35, 36, 38, 40, 42, 44, 178 pertinence : 14, 15, 19, 22, 28, 29, 31, 71,
125, 128, 153, 168, 169, 176
Piaget, J. : 141, 187, 188
Pierce, J. R. : 176
Pitts, W. : 178
plongement lexical : 59-62, 67, 74, 83, 126, 128, 180, 181
produit tensoriel : 184
profond Voir apprentissage profond programmation génétique : 65, 66, 180 programmation génétique cartésienne :
65, 181
Pylyshyn, Z. : 117, 185

x[modifier]

Q[modifier]

Quattrociocchi, W. : 182

x[modifier]

R[modifier]

Radford, A. : 83, 182
Ramón y Cajal, S. : 34, 35, 178
rasoir d'Occam : 189
rationalisme : 171
réflexe : 111, 130, 131
Renaud (R. Séchan) : 177 renforcement (apprentissage) : 56, 58,
67, 105, 109, 125, 169, 171, 172 réseau de neurones : 185
réseaux sociaux : 27, 66, 71, 77 Resnais, A. : 57
responsabilité : 88, 161, 162, 189 rétropropagation du gradient : 38, 44, 45,
49, 52, 179
RGPD : 86
Rosenberg, C. : 179
Rosenblatt, F. : 35, 36, 40, 44, 178 Roussel, P. : 177

x[modifier]

S[modifier]

Sacks, O. : 101, 184
Sadek, D. : 190
Saillenfest, A. : 189
Santoro, A. : 185
saut de couches : 179
Schmidhuber, J. : 97, 123, 184, 186 Schmidt, E. : 94, 183
science-fiction : 9, 97, 98, 109, 137 Sedol, L. : 54, 55, 180
Sejnowski, T. : 179
sémantique : 62
sens commun : 20, 21
short-cuts Voir saut de couches
Shrdlu : 143
Sileno, G. : 189
Simon, H. : 16, 18, 24, 25, 144, 176, 187
simplicité : 146, 147, 153, 156-163, 165167, 189
simulation mentale : 140
singleton : 103, 184
singularité technologique : 7, 8, 173, 190 skip connections Voir saut de couches Smolensky, P. : 185
Snowden, E. : 94
Sophia (robot) : 181
Star Trek : 60, 61, 104, 110
Stasi : 94, 95, 183
stéréotypes : 75, 76, 88
structure : 11, 92, 145-148, 151 Suchanek, F. : 23
supervisé (ou non) : 38, 40, 46, 50, 52, 56, 58, 124, 125, 179
surapprentissage : 53, 179
Sutskever, I. : 178
SVM Voir machines à vecteurs supports synchronisation neuronale : 102, 103,
105, 184
systématicité : 117, 118
systèmes à base de connaissances : 18, 19 systèmes experts : 18, 19
Szegedy, C. : 131, 186
Tay (chatbot) : 69-72, 181
Télécom ParisTech : 23, 56 Tenenbaum, J. : 187
Thies, J. : 182
Toile : 10, 22-24, 26, 53, 77-79, 81, 82, 96, 145, 146, 177
totalitarisme numérique : 94
traduction automatique : 15, 16, 60, 61, 126-128, 149
transhumanisme : 97
Turchin, A. : 175
Turing, A. : 14, 15, 21, 24, 25, 31, 72, 153, 168, 169, 176
Twitter : 27, 69, 181

x[modifier]

U[modifier]

utilitarisme : 160, 163

x[modifier]

V[modifier]

valeurs : 88
véhicule autonome : 88
Venant, F. : 180, 188
Verbrugge, L. : 182
Victorri, B. : 180, 187, 188
Vilar, J. : 80, 182

x[modifier]

W[modifier]

Wasserman, R. : 184
Watson (programme) : 23, 24, 71, 145, 175
Web Voir Toile
Weizenbaum, J. : 70
Wikipédia : 26, 77, 85
Winograd, T. : 143
word embedding Voir plongement lexical X
Xu, K. : 185

x[modifier]

Y[modifier]

YAGO : 23, 24
Yngve, V. : 15, 16, 176

x[modifier]

Z[modifier]

Zelenka, J. D. : 79
Zémor, G. : 180
zombie : 111

x[modifier]

Remerciements[modifier]

Je remercie chaleureusement pour leurs précieuses remarques et suggestions Ada Diaconescu, Albert Bifet, Danielle Delpey, Hayette Soussou, Marie Al-Ghossein, Maxence Dessalles, Quentin Dessalles, Tamy Boubekeur, Thomas Bonald et Valérie Beaudouin. Je remercie également les étudiants doctorants avec lesquels j'ai partagé une aventure de recherche et avancé dans la reproduction d'aspects variés de l'intelligence, notamment Antoine Saillenfest, Damien Munch, Jean-Bernard Auriol, Laleh Ghadakpour et PierreAlexandre Murena. Merci aussi aux nombreux étudiants de Télécom ParisTech qui, à la faveur de stages, de projets ou de cours, ont contribué à l'avancement de mes recherches en intelligence artificielle. Ces remerciements sont l'occasion d'honorer la mémoire de Fernande et Robert Dessalles qui, par leur exemple et leurs encouragements, m'ont fait sentir la joie qu'il y a à tout analyser et à tout tenter de comprendre, à commencer par la faculté de compréhension elle-même, l'intelligence.

x[modifier]

Des intelligences TRÈS artificielles
Jean-Louis Dessalles

x[modifier]

L' « IA » fait de plus en plus souvent la une des médias. Les mystérieux algorithmes de nos ordinateurs sont champions du monde d'échecs et de go, ils vont conduire nos voitures, traduire automatiquement en n'importe quelle langue, voire imiter nos modes de raisonnement. Hélas, ils ne savent même pas qu'ils sont intelligents.
Pour le dire plus clairement, ils ne savent rien. Tout ce que peuvent manifester les ordinateurs dotés des techniques les plus récentes d'IA est une intelligence qui ne comprend rien – du réflexe sans réflexion. Certains de nos mécanismes cognitifs, patiemment mis au point par l'évolution biologique, comme la recherche de la simplification et de la structure des phénomènes, sont encore hors de portée des machines, contraintes d'approcher au plus près de nos modes de raisonnement sans jamais les reproduire vraiment.
Le fantasme de la machine qui sait tout a donc de beaux jours devant lui, même si les progrès de l'IA posent avec toujours plus d'acuité la lancinante question de savoir si une véritable intelligence peut être produite par des circuits de silicium.
Jean-Louis Dessalles est enseignant-chercheur à Telecom ParisTech. Il utilise l'intelligence artificielle pour démonter les mécanismes de l'intelligence humaine, notamment en ce qui concerne le langage et le raisonnement.
En couverture : © luismasters/Fotolia.