Scenari à l'envers

Bonjour,
je cherche un outil, (si possible libre et via web à installer sur nos serveurs) qui permettrait de granulariser un document (type pdf ou autre).
Le but est de granulariser tout document pour avoir ensuite une exploitation pédagogique (niveau lycée)
En gros, j’ai un livre au format pdf ou epub et je souhaiterais avoir de manière quasi automatique le découpage en granules (sections, paragraphes, mais aussi tout ce que comporte une page texte, images, graphiques, notes …) pour une exploitation pédagogique dans d’autres outils type Moodle, exe learning …
En gros, une sorte de chaine éditoriale, mais qui fonctionnerait à l’envers, c’est-à-dire qui déconstruit le document fini pour fournir la collection des éléments élémentaires.
Le but est de fournir ce type d’outils aux enseignants des lycées.
Merci de vos retours

Bonjour @E.Pret ,

Ce type de besoin est une demande fréquente… à laquelle il n’y a logiquement pas de solution complète :).

La granularisation, ou, plus précisément, la scénarisation (ajouter une structure logique au contenu, pour rendre explicite l’organisation du document et ses intensions pédagogiques) ne peut pas être déduite d’une structure textuelle.
Tout un ensemble de critères, avec des algorithmes de type « logique floue » (ex : « le style « gras » correspond à un mot « mis en relief » quand il est dans une phrase, mais probablement plus à une conclusion quand la phrase entière est en gras »), peuvent essayer de déduire une structure logique d’un contenu, mais l’expérience nous a montré que le résultat (très partiel, très imparfait) nécessite une repasse manuelle importante, avec un gain de temps proche de 0 par rapport à la saisie complète du contenu (via copier/coller).

Dit autrement, moins le document en entrée est structuré (ce qui est le cas pour les PDF, les documents LibreOffice sans consignes auteurs strictes, …), plus il est hasardeux d’en déduire une structure documentaire.

La passe de scénarisation de l’auteur étant de fait indispensable, notre approche est de faciliter/améliorer les imports de contenus dans l’environnement d’édition de nos chaines éditoriales, via les fonctions de copier/coller (depuis la nouvelle interface full-web de scenari 5). Ainsi, par exemple, les structures élémentaires (listes, url, …) sont reconnues et proposées à l’auteur… qui a alors la possibilité d’affiner/ajuster à sa guise.

Cdt
Antoine
Kelis

Je vous remercie pour votre réponse et votre analyse.
Effectivement la réponse à cette problématique n’est pas aussi simple, on se prend à rêver que les outils numériques sont capables de tout faire…

En piste de recherche, j’ai également exploré des outils de type analyse syntaxique tels que Talkwalker, ou encore l’outil orangedatamining mais ce n’est pas encore ça.