Ces logiciels vous sont présentés et commentés par Thierry Vallaud (Socio Logiciels)
1- TANAGRA
TANAGRA est un logiciel gratuit et "open source" de DATAMINING, destiné à l’enseignement et à la recherche. Il implémente une série de méthodes de fouilles de données ou de manière générique l’Extraction de connaissances à partir de données issues du domaine de la statistique exploratoire, de l'analyse de données, de l’apprentissage automatique et des bases de données.
Son premier objectif est d’offrir aux étudiants et aux chercheurs d’autres domaines (médecine, bioinformatique, marketing, etc.) une plate-forme facile d’accès, respectant les standards des logiciels actuels.
Le second objectif est de proposer aux enseignants une plate-forme entièrement fonctionnelle, le logiciel peut servir d’appui pédagogique pour les illustrations et le traitement des jeux de données en cours ou en TD.
Enfin, le troisième objectif est de proposer aux chercheurs une architecture leur facilitant l’implémentation des techniques qu'ils veulent étudier et de comparer les performances de ces algorithmes.
En revanche, TANAGRA n'intègre pas à l'heure actuelle tout ce qui fait la puissance des outils commerciaux du marché : multiplicité des sources de données, accès direct aux entrepôts de données et autres datamarts (magasin de données), appréhension des données à problèmes (valeurs manquantes...), interactivité des traitements, etc...
Le site de diffusion du logiciel, mis en ligne en janvier 2004, compte en moyenne une vingtaine de visiteurs par jour.
2- WEKA :
Développé à l'Université de Waikato (Nouvelle Zélande), par un groupe de chercheurs, WEKA est délivré en open source selon la licence publique GNU.
Il implémente en Java une collection d'algorithmes de fouille de données. donc potentiellement exécutable sur tous les systèmes d'exploitation.
Cet ensemble d’algorithmes d’apprentissage, de reconnaissance des formes et de data mining recouvre les méthodes de classification supervisées et non supervisées. En plus, une structure de tableau de données normalisé et des outils d’interrogation de bases de données permet d’avoir une entrée unique.
Actuellement WEKA contient des modules de pré analyse et de visualisation, de classification, de régression et des algorithmes construisant des règles d’association.
En résumé, Weka permet donc de pré-traiter les données, de les analyser à l'aide d'une méthode d'apprentissage et d'afficher le modèle résultant et ses performances.
SIPINA (Système Interactif pour les Processus d’Interrogation Non Arborescent) a été développé par le laboratoire E.R.I.C ( Equipe de Recherche en Ingénierie des Connaissances ) de l’université de Lyon.
Le projet scientifique d'E.R.I.C. est le développement des méthodes et des outils informatiques pour l'extraction automatique des connaissances à partir des données quelles que soient leurs types : bases de données structurées, images, texte libre...
SIPINA permet de traiter les problèmes d’explication. Ce type de problèmes se retrouve surtout dans le domaine des sciences de l’homme (sociologie, biologie, psychologie, médecine,…). Ce logiciel a été utilisé, par exemple, pour l’aide au diagnostic, l’évaluation d’un risque, l’établissement de profils caractéristiques de certaines populations.
SIPINA est à la base une méthode d’analyses des données. Elle fait partie des méthodes dites explicatives comme l’analyse discriminante, la segmentation, la régression… Cette méthode permet d’expliquer une variable qualitative par des variables explicatives elles-mêmes toutes qualitatives.
Enfin, SIPINA se distingue surtout par sa large palette de méthodes d'induction par arbres de décision, avec la possibilité d'intéragir directement avec les modèles construits. Distribué depuis une dizaine d'années, ce logiciel est très connu dans le monde de la recherche.
Ce logiciel permet de programmer les traitements à l’aide de scripts en PYTHON, il est également possible de définir les traitements à l’aide d’un graphe représentant les
« filières ».
Le coeur des algorithmes de calcul sont compilés dans des DLL écrits en C++.
Ce logiciel propose un grand nombre de méthodes de datamining. L'aspect "user-friendly" du logiciel, sa facilité d'utilisation et la qualité de ses sorties sont remarquables.
AlphaMiner est développé par l'institut de technologie d'E-Affaires (ETI) de l'université de Hong Kong sous l'appui des fonds d'innovation et de technologie (ITF) du gouvernement de la région administrative spéciale de Hong Kong (HKSAR).
C'est une plateforme de datamining open source qui fournit un excellent rapport coût / exécution. AlphaMiner offre la modélisation d’extraction de données souples et les dispositifs de nettoyage de données avec une interface facile à utiliser de type Workflow.
Le système de datamining d'AlphaMiner fournit des technologies accessibles de BI (Business Intelligence) en accroissant des technologies open source existantes qui permetent aux entreprises de prendre de meilleures décisions dans l'environnement d'affaires en cours d'évolution rapide.
Technologies d'AlphaMiner
1. La construction de cas de modèle de Workflow permet de construire des cas de datamining simplement grâce à la fonction « drag and drop ».
2. L'architecture Plug-able fournit l'extensibilité pour ajouter de nouvelles possibilités de BI dans l'importation de données et l'exportation, transformations de données, modelant l'évaluation d'algorithme et le déploiement. Les capacités de data mining de Xelopes et de Weka ont été incorporées dans la première version.
3. Les fonctions de datamining souples offrent de puissants outils pour conduire l'analyse spécifique d'industrie comprenant le profil client, l’analyse d'association de produit, la classification et la prévision.
YALE (Yet Another Learning Environment) est un outil open-source flexible pour la découverte de la connaissance, les expériences d'étude de machine, et les applications de datamining. YALE suit le concept du prototypage rapide.
Des expériences peuvent se composer d'un grand nombre d'opérateurs arbitrairement empilables et leur installation est décrite par les fichiers XML qui peuvent facilement être créés avec une interface utilisateur graphique. L'interface utilisateur graphique et le XML ont basé le langage d’écriture de YALE dans un environnement intégré de développement pour l'étude de machine et le datamining. Les applications de YALE couvrent la recherche et l'exploitation réelle de données charge.
Le développement de la plupart des concepts de YALE a commencé en 2001 à l'unité d'intelligence artificielle de l'université de Dortmund.
Bien que YALE soit totalement open source, il offre une quantité énorme de méthodes et de possibilités non couvertes par d'autres logiciels.
Intelligent Miner d'IBM est une famille d'outils actuellement composée d'Intelligent Miner for Data (IMD) et d'Intelligent Miner for Text (IMT).
• IMD permet la préparation des sources de données relationnelles qui comporte la sélection des données à explorer, le codage, la détermination des valeurs manquantes et l'agrégation de valeurs. Diverses techniques sont ensuite proposées pour extraire les connaissances. Puis, des outils de présentation permettent de visualiser les résultats.
• MT est centré vers l'analyse de textes libres. Il comporte trois composants : un moteur de recherche textuel avancé (TextMiner), un outil d'accès au Web (moteur de recherche NetQuestion et un méta-moteur) et un outil d'analyse de textes (Text Analysis). L'objectif général est de faciliter la compréhension des textes.
Comme son nom l'indique, il ne fonctionne que sur une base de données IBM DB2, mais dans de nombreux environnements (AIX, OS/390-400, Solaris, Windows 2000 et NT...). Cet outil et ses déclinaisons sont en fait des extensions à la base de données qui en est le point central.
Intelligent Miner Scoring peut également accéder à des sources de données non-DB2 - Oracle en particulier - via l'interface d'accès Datajoiner.
8- GNOME DATAMINING
Gnome-datamine-tools est une collection croissante d'outils packagés pour fournir une collecte des données d’extraction simple librement disponible.
Les applets de Gnome sont codés en C et certains applets sont codés en Python.
Les outils suivants sont inclus dans le paquet :
1. Règles d'association d'Apriori : L'application gdmapriori permet d’extraire des règles d'association des données de transaction. De nombreuses options sont disponibles.
2.Classificateur de Bayes : L'application de gdmbayes permet d’établir des classificateurs de Bayes des données de formation.
3. Arbres de décision : L'application de gdmdtree permet de construire un arbre de décision des données de formation. De nombreuses options sont disponibles, y compris produire des règles.
4. Outil de CSV : L'outil de csv fournit le traçage (au xfig) et la génération de table (pour le latex). La ligne de la commande deux outils est fournie. csv2plot tracera un graphique de x/y des données. csv2latex produira des commandes de table de latex pour l'inclusion dans un document de latex.
Pentaho est une plate-forme 100 % open source, destinée à concurrencer les autres projets décisionnels propriétaires. En effet, cet ensemble d'outils regroupe des programmes pour l'analyse, le datamining, le reporting, les processus de production, l'extraction de requêtes, la gestion des processus, etc.
Cette solution est totalement complémentaire avec les ERP.
Le projet Pentaho a été lancé par des anciens collaborateurs de Hyperion, Oracle, Cognos et SAS avec à sa tête, André Boisvert, un des meilleurs visionnaires du monde du décisionnel, qui a dirigé les principales entreprises de ce secteur depuis 25 ans.
A noter : des connaissances techniques en programmation sont nécessaires pour l'installation de cette application.
La plate-forme Pentaho se compose ainsi d’un framework BI, de composants BI et de nombreux outils de conception et de développement.
Le framework BI constitue le socle de la plate-forme Pentaho. Celui-ci est constitué des élements et fonctions suivantes :
- Moteur d’execution des process BI (développé par Pentaho)
- Moteur de worklow (Enhydra Shark)
- Planification des traitements (Quartz)
- Gestion de la sécurité d’accès aux données (Pentaho)
- Repository de solutions et d’audits (Pentaho)
- Mécanisme de souscription aux rapports (Pentaho).
Les composants BI recouvrent les domaines suivants : Reporting, Dashboards Analyse (OLAP), Workflow, Datamining. Tous les composants utilisés sont des composants OpenSource reconnus :
Les outils de conception sont proposés en client riche sous l’environnement Eclipse RCP (Rich Client Platform). Ces outils permettent la création de rapports, de dashboards, ainsi que l’élaboration des règles métiers et des process BI :
- Pentaho Design Studio : environnement de conception et de test des process BI
- Pentaho Report Designer : outil de création de rapports (mise en page)
- Pentaho Metadata : outil permettant la modélisation de « Business views » (vues métier).
- Cube Designer : assistant de conception de cubes OLAP.
- Pentaho Data Integration (anciennement Kettle) : permet de définir des jobs d’export, de transformation et de chargement de données.
Le framework et les composants BI font partie intégrante du serveur Pentaho.Les solutions et les process BI sont conçus avec les outils de conception. Ceux-ci sont ensuite déployés sur le serveur Pentaho.
Pentaho est téléchargeable à cette adresse sur le site Pentaho.org.
121, 22 Mo, version 1.2.0 sortie le 19 décembre 2006.
10- AWSTATS
AWStats est un outils d'analyses statistiques pour site web. Il est programmé en langage Perl. Pour l'utiliser, il faut placer le script dans le répertoire Cgi de son serveur puis modifier le chemin d'accès.
Quelques unes de ses fonctionnalités :
- le nombre de visites,
- le nombre de visiteurs uniques,
- de pages,
- de hits,
- de transfert, par domaine/pays, hôte, heure, navigateur, OS, etc.
Le tout apparaissant dans des graphiques simples à comprendre.
Awstats est très précis et offre une bonne représentation de l’état graphique des statistiques.
Il amène aussi des fonctions telles que la détection des visites de robots, le fonctionnement avec IIS en plus d'Apache, la correction automatique des logs incorrects ou un nombre de moteurs de recherche détecté bien plus important, en plus des statistiques classiques.
A télécharger.
Documentation fournie et démo disponible sur le site officiel
Publicité
»
Annuaire
Gagnez en visibilité !
Pour la première fois, dmnews.net propose un Annuaire des professionnels et des solutions de Marketing Direct et de Relation Client.
Le moment est-il venu pour les marques d'utiliser les réseaux sociaux pour 'engager' le consommateur ?
Réseaux sociaux, widgets, vidéos, SMS, quelles sont les règles du Web 2.0 et comment les maîtriser ?
Les Américains ont quelques longueurs d'avance sur nous en la matière.
Pour accéder aux solutions de Christian Renard (Médiavente) et de ses partenaires américains, Jeff Hillmire et Raghu Kakarala (Spunlogic), cliquez ici.
»
Sondage
A quelle fréquence nettoyez-vous votre base de données de ses NPAI et la mettez-vous aux normes ?