Traitement des données

Lorsque les données terrain ont été vérifiées, le traitement en général ne pose pas de problème. Il sera cependant toujours multiple car l’opérateur va vouloir tester différents types de regroupement de placettes : modification ou simplification de la typologie des stations ou des peuplements, modification des groupes d’aménagement, etc.

 

Chaîne de traitement

Dans la chaîne de traitement proposée la saisie sera faite à l’aide d’un tableur, que ce soit Excel ou LibreOffice car ces outils bureautiques sont très répandus. Le tableur peut être utilisé sur le terrain si installé sur un terminal de saisie ou bien au retour du terrain après une première saisie papier. II permet de limiter les erreurs de saisie grâce aux zones de validation. Cela revient à fixer pour chaque case du tableur le type de donnée et les valeurs acceptées.

Lorsque la saisie sera finie et corrigée,  le programme réalise tous les calculs à l'échelle de l'unité de mesure (arbre, brins de taillis, sous-placette de régénération, etc.). La chaîne de traitement offre alors deux possibilités :

  • Exporter les données calculées dans un classeur Excel. Cela permet à l'opérateur d'effectuer la phase de vérification et les premiers calculs avec le logiciel RStudio, à charge pour lui d'aller plus loin en utilisant des outils qu'il connaît (tableur, traitement de texte) pour calculer les valeurs moyennes à différents niveaux d’agrégation, construire les tableaux de synthèse, éditer les graphiques, etc. et au final rédiger le rapport.
  • Effectuer l’ensemble des opérations sur RStudio. Ce dernier peut également faciliter l’édition de rapports. en proposant un plan-type et en y insérant les graphiques et tableaux standards.

 

Le pourquoi de cette nouvelle chaine de traitement

La proposition de cette nouvelle chaîne de traitement est devenue nécessaire pour de multiples raisons :

  • Augmentation de la demande  : en plus des informations classiques dans les domaines de la dendrométrie et de la sylviculture, les réseaux de placettes doivent désormais fournir également des évaluations dans les domaines de l’écologie ou de l’économie. La liste des variables souhaitées augmente, ce qui va dans le sens d’un meilleur suivi de l’écosystème forêt. La maîtrise des coûts oblige alors à diversifier le type d’échantillonnage. L'obligation d'assurer l'exactitude des résultats milite pour une harmonisation des calculs
  • Diversité des analyses : elle nécessite l’élaboration de tableaux ou de graphiques synthétiques, communicants et facilitant les analyses. Il faut que ces graphiques s’adaptent au nombre de cycles de mesure, sans être obligé de revoir leur conception à chaque nouvelle campagne. 
  • Ajout de nouvelles analyses sur des fichiers existants. Les analyses faites sur les cycles précédents doivent pouvoir être complétées par de nouveaux traitements et/ou données.
  • Taille des fichiers : certaines forêts ont fait l’objet de 4 cycles de mesures. On atteint les limites offertes par les tableurs. Dans la solution proposée, il est réaliste de considérer que les tables n’ont pas de limites de taille. Par ailleurs,  le stockage des données au format Rdata est optimisé. Les archives ont des tailles vraiment très réduites (par exemple l’ensemble des tables de l’AFI occupe moins de 4 Mo de mémoire). Cela facilite les importations et les échanges.
  • Mise en commun des données, des analyses. La mutualisation des données peut permettre d’améliorer la précision des estimations pour des habitats ou pour des essences peu présents. Elle autorise, lors du premier cycle de mesure, des estimations de l’accroissement, en utilisant des informations puisées dans des réseaux proches et comparables. Elle permet également de bénéficier des réflexions d’autrui : nouvelles analyses, nouveaux graphiques, etc.
  • Assurer une certaine qualité des informations : la vérification des données est souvent sommaire. La véracité des calculs n’est pas assurée.
  • Diffuser de nouvelles techniques d’inventaire. L’utilisation d’une nouvelle technique d’inventaire se heurte à de nombreuses questions : peut-on associer données anciennes et nouvelles, formules de calculs, … ?
  • Etre évolutif : les données issues de réseaux de placettes permanentes sont rarement entièrement valorisées. Elles peuvent faire l’objet de nombreuses analyses thématiques, être utilisées par exemple pour construire des typologies. Elles doivent pouvoir être facilement connectées à des SIG pour pouvoir bénéficier de l’apport de l’analyse spatiale. Il faut laisser la possibilité aux personnes connaissant le langage de programmation R de développer de nouvelles analyses.

 

Mutualisation

L’organisation des données, leur traitement ont été conçus pour faciliter les échanges aussi bien des résultats que des scripts ou des types de graphiques. Les personnes qui le souhaitent pourront alimenter un serveur qui contient 3 bases de données :

  • AFI : base de données du réseau Association Futaie Irrégulière.
  • PSDRF : base de données du réseau utilisant le Protocole de Suivi Dendrométrique des Réserves Forestières.
  • GF : base des données recueillies dans le cadre de la gestion ordinaire.

Ces 3 bases sont physiquement situées sur un serveur INRA. Les accès se font par le biais d’un protocole SFTP. C’est un protocole sécurisé de transfert de fichiers (File Transfer Protocol). Cela signifie qu’il vous faut demander un login et un mot de passe à l’administrateur de chaque base. Dans le cas des personnels ONF, les accès se feront sans doute par le biais de leur intranet.

 

Support et logiciels retenus

La chaîne de traitement repose sur des logiciels libres. Le langage de programmation R en constitue le cœur par le biais de son interface RStudio.

 

Jeu de données

A titre d'exemple vous pouvez télécharger le jeu de données ExemplePermGF.zip. Il pourra être utilisé pour se familiariser aux possibilités des outils proposés.

 

Pour aller plus loin :

Le fichier NoticeSaisieGF.pdf fournit une aide à l’interprétation des résultats critère par critère.

 

 

Fichier joint