FADO
FADO: Fuzziness, Alignments, Data & Ontologies
L’équipe FADO (Fuzziness, Alignements, Data & Ontologies) a pour objet de recherche les données ouvertes et les données liées dans le contexte du Web sémantique et du Web des données. L'équipe s’intéresse aux questions fondamentales (e.g., extraction de connaissances, recommandation de jeux de données, alignement d’ontologies, liage et fusion de données, graphes de connaissances, ontologies) mais également aux applications à de nombreux domaines, en particulier l’héritage culturel, la santé, l’agronomie-l'environnement et la sociologie.
Les données ouvertes peuvent être définies comme des données disponibles sur le Web de manière gratuite à toute personne qui souhaiterait y accéder et les traiter. L’ouverture des données – souvent à grande échelle – est devenue un phénomène de grande ampleur nationalement et internationalement. Les institutions et organisations rendent de plus en plus de données accessibles, pour des raisons réglementaires, éthiques ou politiques et modifient le paysage socio-économique en permettant la création de nouveaux services. Ce mouvement est au coeur de l’économie de la donnée et des principes de la science ouverte. Cependant, il n’existe pas toujours les mécanismes, les méthodes et les outils pour mettre à disposition ces données de façon intelligente, pour les exploiter, et pour favoriser leur réutilisation et leur interopérabilité. Par exemple, en écologie, Reichman et al. 2011 estiment que “moins de 1% des données écologiques collectées” sont accessibles après la publication des résultats associés.
Également, les données sont produites en si grand volume et à un rythme si rapide, que cela met à l’épreuve notre capacité à les transformer en connaissances ouvertes, riches et exploitables automatiquement. Les principes de publication de données dites FAIR (Findable, Accessible, Interoperable, Reusable - https://www.go-fair.org/fair-principles/) guident le processus de création et partage de jeux de données dans de nombreux domaines de recherche ou applications. Cependant, l’ouverture des données selon ces principes pose plusieurs défis scientifiques dont l’articulation est spécifique à ce contexte. Disposons-nous réellement des méthodes, processus et technologies pour mettre en œuvre ces principes ? Cela peut être considéré comme vrai dans certaines sciences, e.g., la biomédecine, mais qu’en est-il d’autres disciplines comme l’agronomie, l’agriculture, la biodiversité, la culture, qui n’ont pas encore vu un effort équivalent dans le développement de référentiels de métadonnées, d’ontologies et d’outils sémantiques.
L’équipe FADO s’intéresse à un ensemble de questions de recherche autour des données ouvertes. Nous avons pour objectif de définir de nouvelles méthodes et outils pour assurer l’interopérabilité des données ouvertes en prenant en compte les différents niveaux d’hétérogénéité (sémantique, linguistique, syntaxique) ainsi que l’hétérogénéité des métadonnées qui y sont associées.
Travailler sur les données ouvertes relève plusieurs challenges, notamment liés à l’hétérogénéité et le volume des données traitées.
Sommaire
Publications depuis 2014 - Evaluation 2019[modifier]
Articles de revues internationales[modifier]
2019[modifier]
- PGxO and PGxLOD: a reconciliation of pharmacogenomic knowledge of various provenances, enabling further comparison
- Pierre Monnin, Joël Legrand, Graziella Husson, Patrice Ringot, Andon Tchechmedjiev, Clement Jonquet, Amedeo Napoli, Adrien Coulet
- BMC Bioinformatics, BioMed Central, 2019, 20 (S4). <10.1186/s12859-019-2693-9>
- Linking and disambiguating entities across heterogeneous RDF graphs
- Manel Achichi, Zohra Bellahsene, Mohamed Ben Ellefi, Konstantin Todorov
- Journal of Web Semantics, Elsevier, 2019, 55, pp.108-121.
2018[modifier]
- SIFR Annotator: Ontology-Based Semantic Annotation of French Biomedical Text and Clinical Notes
- Andon Tchechmedjiev, Amine Abdaoui, Vincent Emonet, Stella Zevio, Clement Jonquet
- BMC Bioinformatics, BioMed Central, 2018, 19 (1), pp.405-431.
- Agronomic Linked Data (AgroLD): A knowledge-based system to enable integrative biology in agronomy
- Aravind Venkatesan, Gildas Tagny Ngompe, Nordine El Hassouni, Imène Chentli, Valentin Guignon, Pierre Larmande, Clement Jonquet, Manuel Ruiz, Pierre Larmande
- PLoS ONE, Public Library of Science, 2018, 13 (11), pp.e0198270.
- Exploiting Inter- and Intra-Base Crossing with Multi-Mappings: Application to Environmental Data
- Hicham Hajj-Hassan, Anne Laurent, Arnaud Martin
- Big Data and Cognitive Computing, MDPI, 2018, 2 (3), pp.25-47.
- AgBioData consortium recommendations for sustainable genomics and genetics databases for agriculture
- Lisa Harper, Jacqueline Campbell, Ethalinda Cannon, Sook Jung, Monica Poelchau, Ramona Walls, Carson Andorf, Elizabeth Arnaud, Tanya Berardini, Clayton Birkett, Steve Cannon, James Carson, Bradford Condon, Laurel Cooper, Nathan Dunn, Christine Elsik, Andrew Farmer, Stephen Ficklin, David Grant, Jodi Hu, Emily Grau, Nic Herndon, Zhi-Liang Hu, Jodi Humann, Pankaj Jaiswal, Clement Jonquet, Marie-Angélique Laporte, Pierre Larmande, Gerard Lazo, Fiona Mccarthy, Naama Menda, Christopher Mungall, Monica Muñoz-Torres, Sushma Naithani, Rex Nelson, Daureen Nesdill, Carissa Park, James Reecy, Leonore Reiser, Lacey-Anne Sanderson, Taner Sen, Margaret Staton, Sabarinath Subramaniam, Marcela Karey Tello-Ruiz, Victor Unda, Deepak Unni, Liya Wang, Doreen Ware, Jill Wegrzyn, Jason Williams, Margaret Woodhouse, Jing Yu, Doreen Main
- Database -Weston-, Online Inc., 2018, 2018, pp.#bay088.
- Building an effective and efficient background knowledge resource to enhance ontology matching
- Amina Annane, Zohra Bellahsene, Faical Azouaou, Clement Jonquet
- Journal of Web Semantics, Elsevier, 2018, 51, pp.51-68.
- RDF dataset profiling - a survey of features, methods, vocabularies and applications
- Mohamed Ben Ellefi, Zohra Bellahsene, John Breslin, Elena Demidova, Stefan Dietze, Julian Szymański, Konstantin Todorov
- Semantic Web – Interoperability, Usability, Applicability, IOS Press, 2018, 9 (5), pp.677-705.
- Improving (Re-)Usability of Musical Datasets: An Overview of the DOREMUS Project
- Pasquale Lisena, Manel Achichi, Pierre Choffé, Cécile Cecconi, Konstantin Todorov, Bernard Jacquemin, Raphaël Troncy
- BIBLIOTHEK Forschung und Praxis, De Gruyter, 2018, 42 (2), pp.194-205.
- Handling scalable approximate queries over NoSQL graph databases: Cypherf and the Fuzzy4S framework
- Arnaud Castelltort, Trevor Martin
- Fuzzy Sets and Systems, Elsevier, 2018, 348, pp.21-49.
2017[modifier]
- Exploiting NoSQL Graph Databases and In Memory Architectures for Extracting Graph Structural Data Summaries
- Arnaud Castelltort, Anne Laurent
- International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, World Scientific Publishing, 2017, 25 (1), pp.81-109.
2016[modifier]
- Rogue behavior detection in NoSQL graph databases
- Arnaud Castelltort, Anne Laurent
- Journal of Innovation in Digital Ecosystems, Elsevier 2016, 3 (2), pp.70-82.
- Overview of YAM++-(not) Yet Another Matcher for ontology alignment task
- Duy Hoa Ngo, Zohra Bellahsene
- Journal of Web Semantics, Elsevier, 2016, 41, pp.30-49.
- YAM: a Step Forward for Generating a Dedicated Schema Matcher
- Fabien Duchateau, Zohra Bellahsene
- Transactions on Large-Scale Data- and Knowledge-Centered Systems, Springer Berlin / Heidelberg, 2016, Transactions on Large-Scale Data- and Knowledge-Centered Systems XXV, LNCS (9620), pp.150-185.
- A Constraint Optimization Method for Large-Scale Distributed View Selection
- Imene Mami, Zohra Bellahsene, Remi Coletta
- Transactions on Large-Scale Data- and Knowledge-Centered Systems, Springer Berlin / Heidelberg, 2016, LNCS (9620), pp.71-108.
- A survey on web data linking
- Manel Achichi, Zohra Bellahsene, Konstantin Todorov
- Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, Lavoisier, 2016. <10.3166/ISI.21.5-6.11-29>
2015[modifier]
- Software understanding: Automatic classification of software identifiers
- Pattaraporn Warintarawej, Anne Laurent, Marianne Huchard, Mathieu Lafourcade, Pierre Pompidor
- Intelligent Data Analysis, IOS Press, 2015, 19 (4), pp.761-778.
- Integrating Sensor Data Using Sensor Observation Service: Towards a Methodology for the O-Life Observatory
- Hicham Hajj-Hassan, Nicolas Arnaud, Laurent Drapeau, Anne Laurent, Olivier Lobry, Carla Khater
- Sensors & Transducers Journal, International Frequency Sensor Association (IFSA), 2015, 194 (11), pp.99-105.
- PGLCM: efficient parallel mining of closed frequent gradual itemsets
- Trong Dinh Thac Do, Alexandre Termier, Anne Laurent, Benjamin Negrevergne, Behrooz Omidvar Tehrani, Sihem Amer-Yahia
- Knowledge and Information Systems (KAIS), Springer, 2015, 43 (3), pp.497-527.
- Spatio-temporal data classification through multidimensional sequential patterns: Application to crop mapping in complex landscape
- Yoann Pitarch, Dino Ienco, Elodie Vintrou, Agnès Bégué, Anne Laurent, Pascal Poncelet, Michel Sala, Maguelonne Teisseire
- Engineering Applications of Artificial Intelligence, Elsevier, 2015, 37, pp.91-102.
2014[modifier]
- Towards NoSQL graph based master data management systems: building a generic and collaborative solution
- Arnaud Castelltort, Cédric Fauvet, Johanna Guidoni, Anne Laurent, Michel Sala
- International Journal of Emerging Sciences, Islamia University of Bahawalpur, Pakistan, 2014, 4 (3), pp.103-121.
- Managing and Querying Historical NoSQL GraphDatabases: The HNTP Criteria
- Arnaud Castelltort, Anne Laurent
- International Journal of Research in Information Technology, IJRIT, India, 2014, 2 (2), pp.184-196.
- Designing a Benchmark for the Assessment of Schema Matching Tools
- Fabien Duchateau, Zohra Bellahsene
- Open Journal of Databases, RonPub, 2014, 1 (1), pp.3-25.
- Fuzzy ontology alignment using background knowledge
- Konstantin Todorov, Céline Hudelot, Adrian Popescu, Peter Geibel
- International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, World Scientific Publishing, 2014, 22 (1), pp.75-112.
Communications internationales[modifier]
2019[modifier]
- Fuzzy Rules Based Solution for System Administration Security Management via a Blockchain
- Arnaud Castelltort, Chabert Antoine, Hersog Nicolas, Anne Laurent, Michel Sala
- BLOCKCHAIN, Jun 2019, Ávila, Spain. <https://www.blockchain-congress.net>
- Mining Fuzzy-Temporal Gradual Patterns
- Dickson Owuor, Anne Laurent, Joseph Orero
- FUZZ-IEEE, Jun 2019, New Orleans, United States. <http://sites.ieee.org/fuzzieee-2019/>
- Extracting Fuzzy Gradual Patterns from Property Graphs
- Faaiz Shah, Arnaud Castelltort, Anne Laurent
- FUZZ-IEEE, Jun 2019, New-Orleans, United States. <http://sites.ieee.org/fuzzieee-2019/>
2018[modifier]
- OSACA: Découverte d'attributs symboliques ordinaux
- Christophe Marsala, Anne Laurent, Marie-Jeanne Lesot, Maria Rifqi, Arnaud Castelltort
- LFA: Logique Floue et ses Application, Nov 2018, Arras, France. pp.43-50.
- DOREMUS: A Graph of Linked Musical Works
- Manel Achichi, Pasquale Lisena, Konstantin Todorov, Raphaël Troncy, Jean Delahousse
- ISWC: International Semantic Web Conference, Oct 2018, Monterey, CA, United States. pp.3-19.
- Introducing the HOBBIT platform into the ontology alignment evaluation campaign
- Ernesto Jiménez-Ruiz, Tzanina Saveta, Ondrej Zamazal, Sven Hertling, Michael Roder, Irini Fundulaki, Axel Ngonga Ngomo, Mohamed Sherif, Amina Annane, Zohra Bellahsene, Sadok Ben Yahia, Gayo Diallo, Daniel Faria, Maouen Kachroudi, Abderrahmane Khiat, Patrick Lambrix, Huanyu Li, Maximilian Mackeprang, Majid Mohammadi, Maciej Rybinski, Booma Balasubramani, Cassia Trojahn
- OM: Ontology Matching, Oct 2018, Monterey, United States. pp.49-60.
- Discovering Ordinal Attributes Through Gradual Patterns, Morphological Filters and Rank Discrimination Measures
- Christophe Marsala, Anne Laurent, Marie-Jeanne Lesot, Maria Rifqi, Arnaud Castelltort
- SUM: Scalable Uncertainty Management, Oct 2018, Milan, Italy. pp.152-163.
- Controlled Vocabularies for Music Metadata
- Pasquale Lisena, Konstantin Todorov, Cécile Cecconi, Françoise Leresche, Isabelle Canno, Frédéric Puyrenier, Martine Voisin, Thierry Le Meur, Raphäel Troncy
- ISMIR: International Society for Music Information Retrieval, Sep 2018, Paris, France.
- Extending Support Vector Regression to Constraint Optimization: Application to the Reduction of Potentially Avoidable Hospitalizations
- Huu Tu Ngo, Vera Georgescu, Carmen Gervet, Anne Laurent, Thérèse Libourel Rouge, Grégoire Mercier
- SoGood - ECML PKDD Workshops, Sep 2018, Dublin, Ireland. pp.89-102.
- Improving Hamming distance-based fuzzy join in MapReduce using Bloom Filters
- Thi-To-Quyen Tran, Thuong-Cang Phan, Anne Laurent, Laurent D’orazio
- FUZZ-IEEE: International Conference on Fuzzy Systems, Jul 2018, Rio de Janeiro, Brazil. <10.1109/FUZZ-IEEE.2018.8491658>
- Mining Spatial Gradual Patterns: Application to Measurement of Potentially Avoidable Hospitalizations
- Huu Tu Ngo, Véra Georgescu, Anne Laurent, Thérèse Libourel Rouge, Grégoire Mercier
- SOFSEM: Theory and Practice of Computer Science, Jan 2018, Krems, Austria. pp.596-608.
2017[modifier]
- KeyRanker: Automatic RDF Key Ranking for Data Linking
- Houssameddine Farah, Danai Symeonidou, Konstantin Todorov
- K-CAP: Knowledge Capture Conference, Dec 2017, Austin, TX, United States. pp.1-8.
- Symbolic Approximate Reasoning Within Unbalanced Multi-sets: Application to Autism Diagnosis
- Nouha Chaoued, Amel Borgi, Anne Laurent
- AICCSA: ACS/IEEE Conference on Computer Systems and Applications, Oct 2017, Hammamet, Tunisia. <10.1109/AICCSA.2017.74>
- Modeling the Complexity of Music Metadata in Semantic Graphs for Exploration and Discovery
- Pasquale Lisena, Raphaël Troncy, Konstantin Todorov, Manel Achichi
- DLfM: Digital Libraries for Musicology, Oct 2017, Shanghai, China. pp.17-24.
- Ontolex JeuxDeMots and Its Alignment to the Linguistic Linked Open Data Cloud
- Andon Tchechmedjiev, Théophile Mandon, Mathieu Lafourcade, Anne Laurent, Konstantin Todorov
- ISWC: International Semantic Web Conference, Oct 2017, Vienne, Austria. pp.678-693.
- Results of the Ontology Alignment Evaluation Initiative 2017
- Manel Achichi, Michelle Cheatham, Zlatan Dragisic, Jérôme Euzenat, Daniel Faria, Alfio Ferrara, Giorgos Flouris, Irini Fundulaki, Ian Harrow, Valentina Ivanova, Ernesto Jiménez-Ruiz, Kristian Kolthoff, Elena Kuss, Patrick Lambrix, Henrik Leopold, Huanyu Li, Christian Meilicke, Majid Mohammadi, Stefano Montanelli, Catia Pesquita, Tzanina Saveta, Pavel Shvaiko, Andrea Splendiani, Heiner Stuckenschmidt, Élodie Thiéblin, Konstantin Todorov, Cássia Trojahn dos Santos, Ondrej Zamazal
- OM: Ontology Matching, Oct 2017, Wien, Austria. pp.61-113.
- Legato: Results for OAEI 2017
- Manel Achichi, Zohra Bellahsene, Konstantin Todorov
- OM: Ontology Matching, Oct 2017, Vienne, Austria. pp.146-152.
- Camphor odor recognition within unbalanced multi-sets
- Nouha Chaoued, Amel Borgi, Anne Laurent
- FUZZ-IEEE: International Conference on Fuzzy Systems, Jul 2017, Naples, Italy. <10.1109/FUZZ-IEEE.2017.8015540>
- How can the data lake concept influence information system design for agriculture?
- Cédrine Madera, Anne Laurent, Thérèse Libourel Rouge, André Miralles
- EFITA CONGRESS , Jul 2017, Montpellier, France.
- YAM++ Online: A Web Platform for Ontology and Thesaurus Matching and Mapping Validation
- Zohra Bellahsene, Vincent Emonet, Duy Hoa Ngo, Konstantin Todorov
- ESWC: European Semantic Web Conference, May 2017, Portroz, Slovenia. pp.137-142.
- How ontologies can help NPIs research and practice: challenges, limits and promises?
- Anne Laurent, Gérard Bourrel, François Carbonnel, Aurélie Gerazime, The Loc Nguyen, Sylvie Rapior, Gregory Ninot
- iCEPS Conference, May 2017, Montpellier, France.
2016[modifier]
- Selecting Optimal Background Knowledge Sources for the Ontology Matching Task
- Abdel Nasser Tigrine, Zohra Bellahsene, Konstantin Todorov
- EKAW: Knowledge Engineering and Knowledge Management, Nov 2016, Bologna, Italy. pp.651-665.
- Selection and Combination of Heterogeneous Mappings to Enhance Biomedical Ontology Matching
- Amina Annane, Zohra Bellahsene, Faiçal Azouaou, Clement Jonquet
- EKAW: Knowledge Engineering and Knowledge Management, Nov 2016, Bologne, Italy. pp.19-33.
- Automatic Key Selection for Data Linking
- Manel Achichi, Mohamed Ben Ellefi, Danai Symeonidou, Konstantin Todorov
- EKAW: Knowledge Engineering and Knowledge Management, Nov 2016, Bologne, Italy. pp.3-18.
- A need of integrative and comprehensive health intervention ontology for intervention research
- Gregory Ninot, Gérard Bourrel, François Carbonnel, Aurélie Gerazime, Thérèse Libourel Rouge, Béatrice Lognos, Jérôme Maitre, J. Michaux, The Loc Nguyen, Sylvie Rapior, Raphaël Trouillet, Anne Laurent
- International Workshop on Intervention Research, Public Health Research Institute (IReSP), Alliance for life sciences and health (Aviesan), National Research Agency on AIDS and viral hepatitis (ANRS), National Cancer Institute (INCa), Nov 2016, Paris, France.
- The Next Information Architecture Evolution: The Data Lake Wave
- Cédrine Madera, Anne Laurent
- MEDES: Management of Digital EcoSystems, Nov 2016, Hendaye, France. <http://medes.sigappfr.org/16/>
- Results of the Ontology Alignment Evaluation Initiative 2016
- Manel Achichi, Michelle Cheatham, Zlatan Dragisic, Jérôme Euzenat, Daniel Faria, Alfio Ferrara, Giorgos Flouris, Irini Fundulaki, Ian Harrow, Valentina Ivanova, Ernesto Jiménez-Ruiz, Elena Kuss, Patrick Lambrix, Henrik Leopold, Huanyu Li, Christian Meilicke, Stefano Montanelli, Catia Pesquita, Tzanina Saveta, Pavel Shvaiko, Andrea Splendiani, Heiner Stuckenschmidt, Konstantin Todorov, Cássia Trojahn dos Santos, Ondrej Zamazal
- OM: Ontology Matching, Oct 2016, Kobe, Japan. pp.73-129.
- Exploring Linked Classical Music Catalogs with OVERTURE
- Pasquale Lisena, Manel Achichi, Eva Fernandez, Konstantin Todorov, Raphäel Troncy
- ISWC: International Semantic Web Conference, Oct 2016, Kobe, Japan.
- Multilingual Mapping Reconciliation between English-French Biomedical Ontologies
- Amina Annane, Vincent Emonet, Faiçal Azouaou, Clement Jonquet
- WIMS: Web Intelligence, Mining and Semantics, Jun 2016, Nîmes, France. <10.1145/2912845.2912847>
- Multimapping Design of Complex Sensor Data in Environmental Observatories
- Hicham Hajj-Hassan, Nicolas Arnaud, Arnaud Castelltort, Laurent Drapeau, Anne Laurent, Olivier Lobry, Carla Khater
- WIMS: Web Intelligence, Mining and Semantics, Jun 2016, Nimes, France. <10.1145/2912845.2912856>
- Réconciliation d'alignements multilingues dans BioPortal
- Amina Annane, Vincent Emonet, Faiçal Azouaou, Clement Jonquet
- IC: Ingénierie des Connaissances, Jun 2016, Montpellier, France. <https://ic2016.sciencesconf.org/>
- Beyond Established Knowledge Graphs-Recommending Web Datasets for Data Linking
- Mohamed Ben Ellefi, Zohra Bellahsene, Konstantin Todorov, Stefan Dietze
- ICWE: International Conference on Web Engineering, Jun 2016, Lugano, Switzerland. <10.1007/978-3-319-38791-8_15>
- Dataset Recommendation for Data Linking: An Intensional Approach
- Mohamed Ben Ellefi, Zohra Bellahsene, Konstantin Todorov, Stefan Dietze
- ESWC: European Semantic Web Conference, May 2016, Heraklion, Crete, Greece. pp.36-51.
2015[modifier]
- Efficient Semantic Verification of Ontology Alignment
- Duy Hoa Ngo, Zohra Bellahsene
- WI-IAT: Web Intelligence and Intelligent Agent Technology, Dec 2015, Singapour, Singapore. pp.141-148.
- Linguistic Modifiers with Unbalanced Term Sets in Multi-valued Logic
- Nouha Chaoued, Amel Borgi, Anne Laurent
- KEOD: Knowledge Engineering and Ontology Development, Nov 2015, Lisbon, Portugal. pp.50-60.
- Light-Weight Cross-Lingual Ontology Matching with LYAM++
- Abdel Nasser Tigrine, Zohra Bellahsene, Konstantin Todorov
- ODBASE: Ontologies, DataBases, and Applications of Semantics, Oct 2015, Rhodos, Greece. pp.527-544.
- Extracting fuzzy summaries from nosql graph databases
- Arnaud Castelltort, Anne Laurent
- FQAS: Flexible Query Answering Systems, Oct 2015, Cracow, Poland. pp.189-200.
- LYAM++ Results for OAEI 2015
- Abdel Nasser Tigrine, Zohra Bellahsene, Konstantin Todorov
- OM: Ontology Matching, Oct 2015, Bethlehem, PA, United States. <http://www.om2015.ontologymatching.org>
- Datavore: A Vocabulary Recommender Tool Assisting Linked Data Modeling
- Mohamed Ben Ellefi, Zohra Bellahsene, Konstantin Todorov
- ISWC: International Semantic Web Conference, Oct 2015, Bethlehem, PA, United States. <http://iswc2015.semanticweb.org/calls/posters-and-demos>
- Exploiting RDF Open Data Using NoSQL Graph Databases
- Raouf Bouhali, Anne Laurent
- AIAI: Artificial Intelligence Applications and Innovations, Sep 2015, Bayonne, France. pp.177-190.
- Fuzzy Historical Graph Pattern Matching A NoSQL Graph Database Approach for Fraud Ring Resolution
- Arnaud Castelltort, Anne Laurent
- pproach for Fraud Ring Resolution. AIAI: Artificial Intelligence Applications and Innovations, Sep 2015, Bayonne, France. pp.151-167.
- Building the O-Life Franco-Lebanese Environmental Observatory Using Sensor Web Enablement Framework : Challenges and First Approach
- Hicham Hajj-Hassan, Nicolas Arnaud, Laurent Drapeau, Carla Khater, Anne Laurent, Olivier Lobry
- SENSORCOMM, Aug 2015, Venise, Italy. <http://www.iaria.org/conferences2015/SENSORCOMM15.html>
- Mining Emerging Gradual Patterns
- Anne Laurent, Marie-Jeanne Lesot, Maria Rifqi
- IFSA-EUSFLAT: International Fuzzy Systems Association - European Society for Fuzzy Logic and Technology, Jun 2015, Gijon, Spain. <10.2991/ifsa-eusflat-15.2015.234>
- Towards Geographic Requirements Engineering
- Mounir Touzani, Anne Laurent, Thérèse Libourel Rouge, Joël Quinqueton
- KMIKS: Knowledge Management, Information and Knowledge Systems, Apr 2015, Hammamet, Tunisia. <http://2015.kmiks.net>
- Towards Linked Data Extraction From Tweets
- Manel Achichi, Zohra Bellahsene, Dino Ienco, Konstantin Todorov
- EGC: Extraction et Gestion des Connaissances, Jan 2015, Luxembourg, Luxembourg. pp.383-388.
2014[modifier]
- NoSQL Graph-based OLAP Analysis
- Arnaud Castelltort, Anne Laurent
- KDIR: Knowledge Discovery and Information Retrieval, Oct 2014, Rome, Italy. pp.217-224.
- Mining Epidemiological Dengue Fever Data from Brazil: A Gradual Pattern Based Geographical Information System
- Yogi Satrya Aryadinata, Yuan Lin, Christovam Barcellos, Anne Laurent, Thérèse Libourel Rouge
- IPMU: Information Processing and Management of Uncertainty in Knowledge-Based Systems, Jul 2014, Montpellier, France. pp.414-423.
- Fuzzy queries over NoSQL graph databases: perspectives for extending the cypher language
- Arnaud Castelltort, Anne Laurent
- IPMU: Information Processing and Management of Uncertainty, Jul 2014, Montpellier, France. pp.384-395.
- Towards Semantic Dataset Profiling
- Mohamed Ben Ellefi, Zohra Bellahsene, François Scharffe, Konstantin Todorov
- PROFILES, Jun 2014, Anissaras, Crete, Greece. <http://ceur-ws.org/Vol-1151/paper5.pdf>
- Spatial assessment of extreme significant waves heights in the Gulf of Lions
- Romain Chailan, Gwladys Toulemonde, Frederic Bouchette, Anne Laurent, Florence Sevault, Heloise Michaud
- ICCE: International Conference on Coastal Engineering, 2014, Seoul, South Korea. pp.management.17.
Membres[modifier]
Permanents[modifier]
- Arnaud Castelltort, Maître de Conférences UM
- Clement Jonquet, Maître de Conférences UM
- Anne Laurent, Professeur des Universités UM
- Michel Sala, Maître de Conférences UM
- Konstantin Todorov, Maître de Conférences UM
Non permanents[modifier]
- Zohra Bellahsene, Invité longue durée, Professeur Emérite
- Mehdi Mirzapour, CDD Chercheur UM
- Huu Tu Ngo, Doctorant CHU Mtp
- Dickson Odhiambo Owuor, Doctorant StU KY
- Faaiz Shah, Doctorant Financeur étranger
Collaborateurs réguliers[modifier]
- Pierre Larmande, Ingénieur d'Etudes Institut de recherche pour le développement (IRD)
Thématiques de Recherche[modifier]
Les activités de recherche de l’équipe s’articulent autour de trois grands axes, décrits ci-après, pour répondre aux challenges d'hétérogénéité et de volume. Ces activités sont systématiquement menées dans le cadre des projets de l’équipe. Les cinq ANR de l’équipe FADO se recouvrant sur la période (sauf D2KAB) sont présentés dans la figure ci-après.
Axe 1 : Web sémantique[modifier]
L'intégration de données et l'interopérabilité sémantique sont indispensables pour permettre de nouvelles découvertes scientifiques qui pourraient émerger du rapprochement des différentes données disponibles. Les terminologies, vocabulaires et ontologies jouent un rôle central pour structurer les données d’un domaine et les rendre interopérables. Dans cet axe nous nous intéressons aux ontologies (alignement, gestion, métadonnées, cycle de vie) et aux données liées (annotation, liage, représentation, indexation sémantique) :
- L'alignement d'ontologies a pour but la découverte des correspondances sémantiques entre des ontologies, devient une tâche cruciale pour résoudre le problème d'hétérogénéité dans les applications du Web sémantique. Nous avons proposé de nouvelles mesures de similarité efficaces afin de comparer les étiquettes et les profils d'entités et leur contexte Nous appliquons également une méthode d'appariement de graphes appelée propagation de similarité au niveau de la structure qui découvre des correspondances en exploitant des informations structurelles des entités. Afin d'écarter les correspondances incohérentes, nous avons conçu une nouvelle méthode de filtrage sémantique [hal-01411573v1]. Enfin, un article de synthèse de l'ensemble de ces travaux sur le sujet de l'alignement d'ontologies a donné lieu à une publication dans la revue JWS [hal-01411159v1]. L’un des problèmes posés est de pouvoir aligner d’une façon incrémentale de nouvelles ontologies et d’intégrer leur évolution (croissance, fusion) dans le contexte dynamique du web sémantique. De manière synthétique, les défis sont liés à : la prise en compte de l’imprécision des données [lirmm-01350553], la prise en compte de données multi-langues à travers des ontologies, mais aussi des bases de connaissances lexico-sémantiques [lirmm-01615473], la production d’alignements complexes, la prise en compte des niveaux de granularités hétérogènes, l’utilisation de la connaissance a priori (ou background knowledge [lirmm-01350553]).
• Nous avons poursuivi nos travaux dans le domaine de l'alignement d'ontologies en explorant une nouvelle approche qui est basée sur l'utilisation de bases de connaissances pour améliorer la qualité de l'alignement. En effet, les approches traditionnelles s'appuient uniquement sur le contenu des ontologies à aligner. Cependant, ces approches sont moins efficaces lorsque des concepts équivalents ont des étiquettes différentes et sont structurés avec différentes points de vue de modélisation. Pour surmonter cette hétérogénéité sémantique, la communauté s'est tournée vers l'utilisation de ressources externes de connaissances. Tout d'abord, nous aons appliqué cette approche en utilisant le réseau sémantique BabelNet pour aligner des ontologies multilingues ; les résultats obtenus sont très prometteurs lirmm-01408025v1. Par ailleurs, nous avons proposé une approche pour la sélection de ressources externes en fonction des ontologies à aligner [lirmm-01407888v1]. Dans sa thèse, Amina Annane traite ce problème de manière intensive dans le domaine dans le domaine biomédical où il existe de nombreuses ressources externes en étudiant les deux questions sous-jacentes de la sélection de ressources externes et de son exploitation pour l'alignement d'ontologies tel-02092875v1. Elle a proposé une approche pour sélectionner et construire une ressource de connaissance avec les concepts idoines choisis parmi un ensemble d'ontologies, afin d'augmenter l'efficacité sans perte d'efficacité. Un article sur la question de la sélection de ressources externes et de son utilisation pour l'alignement a été publié dans la revue Journal of Web Semantics [hal-01809627v1].
• D'autre part, nous étudions un ensemble de problèmes autour des données ouvertes et liées (Linked Open Data - LOD). Les travaux menés pendant la thèse de Mohamed Ben Ellefi visent à l'amélioration de l'accessibilité et l'usage des données ouvertes par des méthodes avancées de publication, d’interconnexion et de recommandation de jeux de données pertinents pour l’interconnexion [lirmm-01350553], [tel-01785362v1]. Tout d'abord, nous nous intéressons à la recommandation de vocabulaire pour l'enrichissement sémantique et le partage des données. Un outil appelé "Datavore" a été développé dans lors de cette thèse [lirmm-01408036v1]. Cet outil a pour objet de recommander des termes de vocabulaire. Il repose sur l´écosystème des Vocabulaires Ouverts Liés (Linked Open Vocabulary- LOV) pour l’acquisition des vocabulaires existants et leurs métadonnées. Par ailleurs, nous avons proposé une approche basée sur la notion de profil de jeux de données pour la recommandation de jeux de données [lirmm-01408037v1]. Cette première approche est basée sur le filtrage collaboratif, qui exploite à la fois les profils thématiques des jeux de données, ainsi que les mesures de connectivité traditionnelles, afin d’obtenir un graphe englobant les jeux de données du LOD et leurs thèmes. Le point faible de cette approche est qu'elle nécessite d’apprendre le comportement de la connectivité des jeux de donnés dans le graphe représentant le LOD (Linked Open Data). Or ce graphe est loin d'être complet. Pour éviter ce problème, notre équipe a proposé une nouvelle approche pour l’identification des jeux de donnés candidats qui exploite le chevauchement des profils intensionnels entre les différents jeux de données lirmm-01408036v1. Par ailleurs, un article état de l'art sur les profiles de jeux de données a été accepté à la revue internationale Semantic Web Journal [hal-01987355v1]. Le deuxième problème que nous avons étudié consiste à découvrir les entités associées par le lien d'identité (donné par le prédicat OWL owl: sameAs) à travers de deux jeux de données avec une application dans le domaine musical dans le cadre de l'ANR DOREMUS [hal-01894663]. C'est le sujet principal de la thèse de Manel Achichi [tel-01810363v1], [hal-01987332]. Cependant, une entité du monde réel donnée peut être décrite différemment dans différentes sources de données. Par conséquent, la découverte automatique de liens d'identité peut devenir difficile compte tenu de cette hétérogénéité. Un article faisant un état de l'art dans le domaine a été publié dans [hal-01407854v1]. Dans le cadre de cette thèse, Legato — un outil générique de liage automatique de données hétérogènes, a développé et expérimenté pendant le domaine musical. Cet outil est basé sur la notion de profil d’instance permettant de représenter chaque ressource comme un document textuel de littéraux gérant une variété d’hétérogénéités de données sans l’intervention de l’utilisateur. Legato implémente également une étape de filtrage de propriétés dites problématiques permettant de nettoyer les données du bruit susceptible de rendre la tâche de comparaison difficile. Legato a participé avec succès à la campagne d'évaluation OAEI 2017 [hal-01987686v1]. Un article faisant la synthèse des travaux menées dans cette thèse a été publié dans la revue Journal of Web Semantics [hal-01987332v1]. Dans le cadre du montage du projet ANR-DFG franco-allemand, nous avons pu construire un large graphe de connaissance contenant des informations sur des assertions et leur méta-données dans l'espace médiatique et sociale qui vise à aider les travaux de vérification de faits ou fact-checking (ClaimsKG https://data.gesis.org/claimskg/site/).
- Au sein des projets SIFR (Indexation Sémantique de Ressources de données biomédicales Francophones – ANR JCJC & H2020 Marie Curie), PractiKPharma (ANR) et AgroPortal (soutiens des PIA NUMEV & IBC) nous nous intéressons aux questions relatives à la gestion de la connaissance, en particulier via l’utilisation d’ontologies pour l’intégration, l’annotation et l’indexation sémantique des données générées. En partenariat avec l’Université de Stanford, nous développons et maintenons deux portails d’ontologies qui nous permettent d’attaquer des problèmes de recherche complexes tels que le traitement de la langue, l’alignement d’ontologies, l’annotation sémantique, l’ingénierie ontologique, tout en étant pilotés par des scénarios d’applications concrets dont les impacts en santé et agronomie sont mesurables. Le SIFR BioPortal (http://bioportal.lirmm.fr) [hal-01398250] est une plateforme ouverte et générique pour l’hébergement d’ontologies et de terminologies biomédicales françaises ainsi que le SIFR Annotator, un outil d’annotation sémantique pour traiter des données biomédicales textuelles en français [lirmm-01934127][lirmm-01680514]. Par exemple, cet outil est capable de détecter le contexte d’une annotation au sein de notes cliniques (e.g., est-ce qu’une condition est observée ou non observée, est-ce que c’est le patient qui est concerné ou quelqu’un d’autre, qu’elle est la temporalité d’une annotation) [lirmm-01656834]. Nous exploitons ces outils pour aider les chercheur/cliniciens à traiter leurs données dans leurs études (collaboration avec l’Hôpital Européen G. Pompidou dans le projet ANR PractiKPharma). Le projet AgroPortal (http://agroportal.lirmm.fr), a pour l’objectif d’offrir un portail d’ontologies et de vocabulaires de référence pour l’agronomie et la biodiversité [lirmm-01679502]. Ce projet est particulièrement fédérateur pour plusieurs institutions de recherche de Montpellier (INRA, CIRAD, IRD, CGIAR) et a un impact national et international reconnu. Le projet AgroPortal continue au sein de FADO dans le cadre de l’ANR D2KAB et est un composant important au sein de deux soumissions en cours de projet EU H2020 dans le cadre de l’implémentation de l’European Open Science Cloud.
- Dans le cadre du projet CEPS, portant sur les interventions non médicamenteuses dans le domaine de la santé, ces plateformes ont été exploitées et des méthodologies de transformation des données et de construction collaborative ont été proposées [lirmm-01383168]. Un début d’ontologies des interventions non médicamenteuses a été proposé (http://bioportal.lirmm.fr/ontologies/INM) et sert désormais de référentiel pour la description des données de la plateforme CEPS. Également la réflexion couplant les sciences juridiques et les thématiques de l’équipe FADO est menée en lien avec le projet CommonData de la MSH Sud cherchant à comprendre et poser les bases de la production et de la valorisation de “communs de la recherche” issus des données scientifiques. Ce travail avec l’équipe FADO est actuellement mené dans le contexte des fonctions de Vice-Présidente de l'Université de Montpellier déléguée à la science ouverte et aux données de la recherche d’Anne Laurent et de l’implication de C. Jonquet pour la mise en place d’une formation à destination des collègues scientifiques non informaticiens ou juristes.
Axe 2 : Traitement, modélisation et sécurité des données à large échelle[modifier]
La massification des données conduit, depuis quelques années, à la prise en compte de nouveaux modèles de gestion et de traitement des données. Au sein de l’équipe FADO, nous étudions en particulier deux thématiques, l’une dédiée aux graphes de propriétés, l’autre dédiée aux lacs de données. Ces travaux s’inscrivent dans des projets, partenariats et thèses.
La gestion des données ouvertes repose sur le modèle conceptuel RDF. Dans nos travaux, nous explorons l’utilisation de graphes de propriété pour exploiter de telles données de manière efficace. Les bases de données orientées graphes (NoSQL par exemple) permettent de gérer des données dans lesquelles les liens sont importants et des requêtes complexes sur ces données à l’aide d’un environnement dédié offrant un stockage et des traitements spécifiquement destinés à la structure de graphe. Un graphe de propriété dans un environnement NoSQL est alors vu comme un graphe orienté étiqueté dans lequel les étiquettes des noeuds et les relations sont des ensembles d’attributs (propriétés) de la forme (clé:valeur). Il s’agit alors de construire les modalités de réécriture d’un modèle à l’autre, comme cela a été étudié dans [lirmm-01381087]. Ces modèles sont alors étendus pour intégrer des capacités d’analyse de données, notamment pour la découverte des structures sous-jacentes à l’aide de résumés flous permettant de mieux prendre en compte les grandes tendances [lirmm-01381083]. La découverte de structures sous-jacentes dans les grandes bases graphes est également étudiée par l’extraction de motifs graduels, notamment le travail de thèse de Faaiz Shah dont une partie a été publiée dans [lirmm-02085780]. Ces motifs permettent d’extraire automatiquement les informations corrélées. Une première contribution est alors de définir quels sont les motifs pouvant être extraits à partir de telles bases de données. Nous devons, dans un deuxième temps, étendre les travaux existant dans la littérature pour traiter les valeurs manquantes dans les bases de données graphe. En effet, de telles bases de données peuvent être assimilées à des bases NoSQL semi-structurées dans lesquelles toutes les propriétés ne sont pas présentes partout, ce qui conduit à des valeurs non présentes de manière homogène, soit parce que la valeur n’est pas connue (l’âge d’une personne par exemple) ou parce qu’elle n’est pas applicable (l’année du service militaire d’une femme par exemple dans un pays et à une époque à laquelle les femmes ne le faisaient pas) L’application de telles méthodes est alors rendue difficile car les propriétés classiquement appliquées en fouille de données (anti-monotonie) ne sont plus valides. Nous proposons donc une nouvelle approche qui est testée sur des données réelles et synthétiques. Notre approche est étendue au cas des motifs graduels flous afin de mieux prendre en compte la nature imprécise des connaissances présentes et à extraire. Dans le cadre de la thèse de Dickson Owuor (financement de l’Ambassade de France au Kenya), la dimension temporelle est ajoutée aux motifs recherchés afin de permettre l’exploration de données environnementales et agricoles de manière plus pertinente. Les premiers résultats ont fait l’objet d’une publication dans [lirmm-02085779].
De manière complémentaire aux graphes de propriété, nous étudions les lacs de données comme une possibilité de gestion des données en amont de la phase d’ouverture et d’exploitation des données. Le concept, émergent, a donné lieu à des outils commerciaux avant que les communautés académiques s’en emparent. Nous avons ainsi pu proposer une définition (thèse de Cédrine Madéra, data architect IBM) parue dans [lirmm-01399005] et qui a été ensuite étendue pour intégrer la question de la gravité des données et de la conception assistée des lacs à travers ses composants, en nous appuyant sur l’analyse formelle de concepts en lien avec M. Huchard (équipe MAREL). Le domaine d’application de l’agriculture, très présent au sein de FADO, a été étudié à travers la vision “lac de données” dans [hal-01847697]. Un ouvrage est en cours de parution sur le concept des lacs de données. Favorisant la préparation de croisements de données, les lacs de données sont au coeur des projets O-LiFE et HUT (ainsi que des projets RIDER et HPPC décrits en annexe). O-LiFE est un observatoire de l’environnement dédié à l’étude des ressources et de la biodiversité dans la zone critique à la vie, focalisé sur la méditerranée. Il est co-porté par le CNRS français et le CNRS libanais. Il vise à structurer, partager, pérenniser et valoriser les données environnementales. FADO participe au projet pour chercher des réponses aux utilisateurs finaux et aux producteurs de données qui ne partagent pas les mêmes besoins. Des environnements de gestion de données d’observations sont proposés, basés sur des ontologies partagées et des standards d’échange de données de capteurs. Ils ont pour but d’une part de permettre l’interopérabilité entre observatoires et d’autre part de permettre la prise en compte de points de vue distincts sur les données via des multi-mapping pour découpler la vision initiale du producteur de données et les multiples utilisations possibles des données. Le projet s’appuie depuis 2019-2010 sur un projet PHC Cèdre. Le projet HUT (HUman at Home ProjecT) d’“appartement observatoire", initié par A. Foucaran (IES, UMR 5214) et M. Depincé (Dynamiques du droit, UMR 5815), réunit de nombreux acteurs très divers, institutionnels (13 laboratoires de recherche) et entreprises (Enedys, IKEA, ...), pour imaginer l’appartement du futur et poser les questions associées : collecte de données, enjeux juridiques face aux données captées, exploitation des données, etc. FADO participe au projet pour réfléchir à la représentation des données internes et externes (données ouvertes) pour permettre leur exploitation dans un environnement sécurisé. Le projet est financé par la Région Occitanie et la Métropole de Montpellier. Soulignons que le projet HUT est très interdisciplinaire, incluant les SHS, et s’inscrit ainsi dans un ancrage très fort de l’équipe FADO en ce sens. C’est d’ailleurs à travers 2 projets PEPS de la MITI - Mission pour les Initiatives Transverses et Interdisciplinaires du CNRS que le LIRMM a été financé sur ce projet. Il est hébergé au sein de la MSH Sud (Maison des Sciences de l’Homme - les Sciences Unies pour un autre Développement) comme le sont d’autres projets sur lesquels des membres de FADO collaborent : CommonData, NumeRev, COGITHON. Cogithon est une plateforme d’émergence de projets en Sciences Humaines et Sociales centrée sur les interactions Homme/environnement pour l’adaptation de l’homme en situation de handicap cognitif. Cogithon associe trois unités de recherche à travers ses porteurs du projet : EPSYLON, LIRMM, LGI2P.
L’équipe FADO aborde la problématique de la traçabilité et de la sécurité sous l’angle des données. L’augmentation des transactions et des volumes de données a mis en évidence la nécessité de se doter de techniques, algorithmes et outils permettant de s’assurer de la fiabilité, de la traçabilité et de la sécurité des données. Des travaux ont donc été effectués sur cet axe.
- La détection de fraudes est étudiée dans le cadre de systèmes de base de données NoSQL orientées graphes [lirmm-01398978v1]. Les comportements malhonnêtes font référence à des anomalies comportementales pouvant survenir dans les activités humaines et pouvant ainsi être extraites de données générées par l'homme. Dans cet article, nous essayons de montrer que les bases de données graphes NoSQL sont un outil utile à cet effet.
- La génération d’un moteur de règles floues pour détection de comportement suspects dans le cadre de blockchain [Hal:lirmm-02085775]. La transformation numérique a conduit au fait que presque toutes les organisations et sociétés disposent de réseaux privés internes et gèrent des données et des applications sensibles. Dans ce contexte, les administrateurs système sont des super utilisateurs qui peuvent accéder à tout ce matériel sensible. Comme il est connu que de nombreuses fraudes sont causées par des actions internes, nous affirmons qu'il est important de disposer de systèmes de journalisation automatisés puissants, même pour les superutilisateurs. À cette fin, les blockchains constituent une solution efficace, car ils ne peuvent pas être écrasés par les administrateurs système. Cependant, comme il n’est pas efficace de stocker toutes les actions, nous introduisons un nouveau système basé sur des règles floues afin de gérer efficacement le système de journalisation du système dans une blockchain. Ces travaux dédiés aux nouveaux systèmes de traçabilité avec la blockchain ont été réalisés dans le cadre d’une collaboration avec l’entreprise chainHero.
- La conception de systèmes sécurisés a été étudiée dans le cadre du PEPS 3S de 2017 dédié au concept de tiers de confiance pour la mise en place de processus respectant la “privacy by design” dans le cadre du projet HUT (HUman at home ProjecT) et a donné lieu à l’organisation de séminaires interdiciplinaires et de la parution d’un ouvrage.
- Des liens ont été créés avec les équipes d’investigation numérique pénale. Michel Sala en est l’acteur principal au sein de l’équipe, par l’organisation des printemps de l’investigation numérique. Il a également créé un diplôme Universitaire d’investigation numérique pénale axé sur les problématiques liées au forensic ouvert en 2018.
Plateformes[modifier]
L’équipe rayonne également au travers des différents logiciels qu’elle développe et maintient (voir annexe): YAM++ online, Legato, AgroPortal, SIFR BioPortal, Claims Explorer, etc.
YAM++[modifier]
YAM++ est un système d’alignement d’ontologies qui a obtenu le 1er rang à la compétition internationale sur l’alignement d’ontologies OAEI 2013. Ce prototype a été pris en charge par un ingénieur IE pour le développement d'une plateforme en ligne qui se trouve à http://yamplusplus.lirmm.fr. Le but étant d'en faire un logiciel exécutable en ligne afin qu'il devienne accessible au plus grand nombre d'utilisateurs. Le système comporte également un validateur d'alignement collaboratif. et un évaluateur. Notre plateforme stocke et offre des ressources à la communauté. On y trouve des ontologies et des alignements déjà validés. Cette dernière ressource est précieuse lorsque la validation est faite par des experts car les mappings résultats peuvent servir alors d'alignement de référence dans leur domaine. Cette plateforme est originale et inédite dans le domaine. En avril 2019, il y a près de 200 utilisateurs issus d'institution de recherche comme des entreprises et venant de plusieurs pays différents.
AgroPortal[modifier]
Mi-2015, en réutilisant la technologie du NCBO BioPortal, nous avons conçu AgroPortal (http://agroportal.lirmm.fr), un portail de vocabulaires et d’ontologies pour le domaine agronomique mais également pour les sciences de l’alimentation, des plantes et de la biodiversité. AgroPortal est un prototype avancé robuste et fiable qui permet l’hébergement d’ontologies, la recherche de concepts, la gestion des versions, la visualisation, les commentaires et qui supporte la recommandation d’ontologies. Il propose un outil d’annotation sémantique, stocke et exploite les alignements entre ontologies et tout ceci en respectant les technologies du Web sémantique. AgroPortal répond spécifiquement aux exigences de la communauté agronomique en termes de formats d’ontologies (e.g., vocabulaires SKOS et dictionnaires de traits) et de fonctionnalités (e.g., métadonnées et capacités d’annotation avancées). La version v1.4 d’AgroPortal a été publiée en juillet 2017. La plate-forme héberge actuellement 106 ontologies, dont plus des 2/3 ne sont présentes dans aucun portail d’ontologies similaire (comme NCBO BioPortal) et 7 ontologies privées. Nous avons identifié 90 autres ontologies candidates et nous travaillons chaque jour pour en importer de nouvelles tout en impliquant / informant les développeurs d’ontologies originales. La plateforme compte déjà plus de 100 utilisateurs enregistrés et certains vocabulaires sont visités plus de 100 fois par mois. Le code est disponible de manière ouverte à https://github.com/agroportal.
SIFR BioPortal et Annotator[modifier]
Dans le projet SIFR, nous construisons un workflow d’indexation basé sur les ontologies (i.e., French Annotator) similaire à celui qui existe pour les ressources en anglais, mais spécialisé pour le Français. Ce service est désormais disponible au sein d’un portail de 25 ontologies/terminologies biomédicales qui réutilisent la technologie NCBO BioPortal, développée à l’Université de Stanford. Les ontologies nous sont livrées par le groupe CISMeF du CHU de Rouen, ou extraites de l’UMLS ou directement téléchargées par les utilisateurs. Quand les ontologies sont multilingues, nous les connectons directement au NCBO BioPortal et traitons seulement le contenu en français. Le SIFR BioPortal a été mis en production en juin 2015 : http://bioportal.lirmm.fr et utilisé et amélioré depuis cette date. Il héberge le SIFR/French Annotator (http://bioportal.lirmm.fr/annotator), un Web service qui pour un morceau de texte donné retourne les concepts d’ontologies mentionnés directement dans ce texte ou expansés sémantiquement. Ce outil est utilisé dans plusieurs applications au sein des projets de recherche (e.g., ANR PractiKPharma) ou des collaborations (e.g., CHU de Nancy, INRIA Wimmics, projet SIDES 3.0). Le code est disponible de manière ouverte à https://github.com/sifrproject.
Legato[modifier]
Legato est un système automatique et open source permettant de relier des graphes de connaissances RDF hétérogènes et divers. Legato permet de réduire les efforts de configuration de l'utilisateur en implémentant des méthodes efficaces de filtrage de données et de représentation d'instances. En particulier, le système est capable de lever des ambiguïtés entre instances distinctes mais très similaires dans leur description.
Coda[modifier]
Coda est un prototype d'application Web utilisé pour valider facilement et rapidement des liens d'identité (de type owl:sameAs) manuellement. L'outil peut être utilisé par les développeurs d'ontologies ou les curateurs de jeux de données pour sélectionner manuellement les liens générés automatiquement.
Claims Explorer[modifier]
Claims Explorer (https://data.gesis.org/claimskg/explorer/home) est un moteur de recherche qui permet de naviguer dans le graphe de connaissance ClaimsKG qui rassemble des informations sur une grande quantité d'assertions et leur meta-données extraites à partir de sites de fact-checking de référence. L'outil permet de créer des échantillons de données qui peuvent être utiles pour des tâches d'apprentissage automatique (pour le problème de vérification de faits) ou bien de validation et réproductibiltié de travaux de recherche dans le domaine de la sociologie computationnelle.