banner

Blog

Dec 01, 2023

Une approche d'apprentissage en profondeur pour détecter les pannes de trépans à partir d'un petit ensemble de données sonores

Rapports scientifiques volume 12, Numéro d'article : 9623 (2022) Citer cet article

1905 Accès

4 Citations

3 Altmétrique

Détails des métriques

La surveillance de l'état des machines est vitale dans l'industrie manufacturière. La détection précoce des composants défectueux dans les machines pour arrêter et réparer les composants défectueux peut minimiser le temps d'arrêt de la machine. Dans cet article, nous présentons une méthode de détection des pannes dans les foreuses à l'aide de sons de forage à Valmet AB, une entreprise de Sundsvall, en Suède, qui fournit des équipements et des procédés pour la production de pâte à papier, de papier et de biocarburants. Le jeu de données de forage comprend deux classes : les sons anormaux et les sons normaux. La détection efficace des pannes de forage reste un défi pour les raisons suivantes. La forme d'onde du son de forage est complexe et courte pour la détection. De plus, dans les paysages sonores réalistes, les sons et le bruit existent simultanément. En outre, l'ensemble de données équilibré est petit pour appliquer des techniques d'apprentissage en profondeur de pointe. En raison de ces difficultés susmentionnées, des méthodes d'augmentation du son ont été appliquées pour augmenter le nombre de sons dans l'ensemble de données. Dans cette étude, un réseau de neurones convolutionnels (CNN) a été combiné avec une mémoire à long court terme (LSTM) pour extraire les caractéristiques des spectrogrammes log-Mel et pour apprendre les représentations globales de deux classes. Une unité linéaire rectifiée qui fuit (Leaky ReLU) a été utilisée comme fonction d'activation pour le CNN proposé au lieu du ReLU. De plus, un mécanisme d'attention a été déployé au niveau de la trame après la couche LSTM pour prêter attention à l'anomalie des sons. En conséquence, la méthode proposée a atteint une précision globale de 92,62 % pour classer deux classes de sons de machines sur l'ensemble de données de Valmet. De plus, une expérience approfondie sur un autre ensemble de données de forage avec des sons courts a donné une précision de 97,47 %. Avec plusieurs classes et des sons de longue durée, une expérience utilisant l'ensemble de données UrbanSound8K accessible au public obtient 91,45 %. Des expériences approfondies sur notre ensemble de données ainsi que sur des ensembles de données accessibles au public confirment l'efficacité et la robustesse de notre méthode proposée. Pour reproduire et déployer le système proposé, un référentiel open source est accessible au public sur https://github.com/thanhtran1965/DrillFailureDetection_SciRep2022.

Les systèmes de détection des défauts de forage sont largement utilisés dans les usines pour prévenir les pannes de machine. La perceuse comprend 90 ou 120 forets pour percer des milliers de petits trous à la surface du métal1. Lorsque les forets se cassent, il est nécessaire de procéder à un forage manuel et à une post-production, ce qui est exigeant en ressources et globalement coûteux pour l'entreprise. Le technicien de maintenance arrête la machine toutes les 10 min pour identifier les forets cassés et les changer avant de redémarrer la perceuse. Par conséquent, un système de détection de pannes pour la perceuse est très important pour minimiser les temps d'arrêt de la machine ainsi que les coûts de maintenance.

De nombreuses études ont été menées sur la détection et le diagnostic des pannes de forage au cours de la dernière décennie. Choi et al.2 ont proposé une méthode d'extraction de caractéristiques dans le domaine temporel et dans le domaine fréquentiel nommée paramètres caractéristiques de l'échec du forage (CPDF). Dans la deuxième étape, un perceptron multicouche (MLP) a été utilisé pour prédire l'échec du forage en fonction du seuil d'indice d'état du forage. Cela réduirait le taux d'erreur. Pour améliorer la précision du diagnostic de l'échec du forage, Skalle et al.3 ont proposé une méthode basée sur la détection des symptômes (par exemple, formation molle, accumulation de coupes, patte de chien locale). Kumar et al.4 ont utilisé des signaux de vibration pour détecter et classer les pannes de forage à l'aide de trois schémas de classification différents : réseau de neurones artificiels (ANN), machines à vecteurs de support (SVM) et classificateurs bayésiens. Étant donné que les signaux basés sur les vibrations contiennent souvent du bruit, plusieurs techniques ont été nécessaires pour supprimer le bruit et séparer les sources afin d'améliorer la précision de la détection des défauts.

Les chercheurs ont utilisé l'analyse du son et des vibrations ces dernières années pour détecter et classer les défauts5. À la suite du développement de l'apprentissage en profondeur, les réseaux de neurones convolutifs (CNN) ont été utilisés pour extraire automatiquement des fonctionnalités afin de diagnostiquer et de classer les défauts sur les machines, en particulier les perceuses. En raison de l'avantage de l'analyse acoustique par rapport aux vibrations, Glowacz6 a proposé une méthode de détection acoustique des défauts pour les perceuses à percussion électriques et les moulins à café. Ces caractéristiques acoustiques, y compris la racine carrée moyenne (RMS) et une sélection de méthode d'amplitude à l'aide d'un filtre multi-expansé (MSAF-17-MULTIEXPANDED-FILTER-14), ont été utilisées pour classer l'état de défaut par le classificateur voisin le plus proche. De plus, pour détecter le défaut des perceuses à percussion électriques, il est nécessaire de déterminer le défaut du dispositif de boîte de vitesses de la perceuse, car les engrenages sont le composant principal de la transmission de puissance. Jing et al.7 ont proposé une méthode pour détecter la défaillance d'une perceuse à percussion électrique en utilisant une régression logistique à partir d'une intensité sonore et de signaux acoustiques variant dans le temps.

Récemment, un certain nombre de techniques ont été étudiées dans le domaine de la détection des défauts et de la surveillance de l'état des machines. Hou et al.8 ont utilisé l'énergie des paquets d'ondelettes pour extraire les caractéristiques des signaux acoustiques, puis ont appliqué une méthode de sélection des caractéristiques basée sur le coefficient de corrélation de Pearson pour sélectionner les caractéristiques. Les caractéristiques sélectionnées ont été utilisées pour classer l'état de panne avec un classificateur de réseau neuronal. En plus des moteurs hydrauliques synchrones, cette approche peut également être appliquée à d'autres machines tournantes. Dans une autre approche, Wang et al.9 ont proposé une méthode multimodale pour détecter les défauts de roulement en fusionnant les signaux acoustiques et vibratoires collectés à partir de l'accéléromètre et du microphone à l'aide du CNN unidimensionnel.

Ces dernières années, le deep learning a connu un grand succès dans la détection et le diagnostic de défauts mécaniques en utilisant des signaux vibratoires et acoustiques10,11,12,13,14,15,16. En outre, des études récentes ont démontré que les représentations d'images de signaux sonores peuvent être utilisées pour former l'architecture d'apprentissage en profondeur pour les tâches de classification sonore. Les chercheurs ont proposé de nombreuses représentations d'images pour les sons, telles que les coefficients cepstraux de fréquence Mel (MFCC)17,18, le spectrogramme19, le spectrogramme Mel20. De plus, de nombreux modèles d'apprentissage en profondeur à la pointe de la technologie ont été utilisés pour une classification solide. Boddapati et al.19 ont comparé la précision de la classification d'AlexNet et de GoogleLNet sur trois représentations différentes des caractéristiques du son (spectrogramme, MFCC et diagramme de récurrence croisée). Une variante des réseaux de neurones conditionnels, appelée réseau de neurones conditionnel masqué (MCLNN) a été proposée par Medhat et al.21 pour classer les sons. Les chercheurs ont utilisé des CNN dilatés avec des filtres dilatés et des fonctions d'activation ReLU qui fuient17,22. L'effet de la modulation du taux de dilatation dans le CNN dilaté sur la classification des sons a été comparé dans Chen et al.22. Des études récentes ont montré que les réseaux de neurones récurrents (RNN) produisent d'excellents résultats pour des séquences sonores de longueur variable. Wang et al.23 ont proposé une architecture CNN avec un mécanisme d'attention parallèle temporel-spectral pour capturer certaines images où des événements sonores se produisent et prêter attention aux différentes bandes de fréquences. Zhang et al.24 ont proposé une architecture CNN pour apprendre les caractéristiques spectro-temporelles et une unité récurrente bidirectionnelle fermée (Bi-GRU) avec un mécanisme d'attention au niveau de la trame pour la classification du son. De plus, l'analyse du bruit de forage a été utilisée dans les opérations chirurgicales orthopédiques, par exemple, le forage manuel de l'os. Par exemple, Torun et Pazarci25 ont proposé un système de classification basé sur ANN pour classer si une percée ou non s'est produite, en utilisant une estimation paramétrique de la densité spectrale de puissance. Seibold et al.26 ont introduit des spectrogrammes log-Mel des sons de forage dans ResNet-18 pour détecter les événements de percée de forage et démontrer le potentiel de la détection acoustique basée sur l'apprentissage profond pour la prévention des erreurs chirurgicales.

Notre article proposait une approche pour détecter les défaillances des perceuses basée sur les sons de forage de Valmet AB. Il s'agit d'une entreprise de Sundsvall qui fournit des procédés et des équipements pour la production de biocarburants. Valmet AB exploite actuellement plusieurs machines de forage pour percer des trous dans des matériaux métalliques. Cependant, la plupart des études de détection des défauts de forage ont utilisé un grand ensemble de données équilibré. Les forets cassés ne se produisent pas assez souvent, par conséquent, le bruit des forets cassés ne représente qu'un petit pourcentage du total. Il est difficile de former des modèles avancés d'apprentissage en profondeur sur de petits ensembles de données dans des applications du monde réel. De plus, les caractéristiques extraites des signaux sonores bruts sont insuffisantes pour la classification car la durée d'échantillonnage des sons dans l'ensemble de données est d'environ 20,83 ms et 41,67 ms. Il est donc plus difficile de comparer nos résultats à ceux de recherches antérieures dans le domaine de la classification des sons de forage. Par conséquent, un système d'apprentissage en profondeur de bout en bout est confronté à de nombreux défis lorsqu'il s'agit de détecter les défauts de forage. Pour surmonter ces difficultés, des méthodes d'augmentation des données ont été appliquées pour générer davantage d'échantillons de l'ensemble de données. Les méthodes d'augmentation décalaient le son de 5 ms et augmentaient le volume de 2. Ces sons dans l'ensemble de données augmenté ont été convertis en spectrogrammes log-Mel. De plus, un CNN combiné à un LSTM basé sur l'attention a été proposé pour classer les sons de forage. Les cartes de caractéristiques ont été extraites des spectrogrammes log-Mel à l'aide de CNN, puis une couche LSTM a été utilisée pour apprendre la représentation globale des caractéristiques de haut niveau à partir des caractéristiques extraites. Leaky ReLU a été utilisé dans CNN au lieu de ReLU pour atténuer le problème potentiel que CNN cesse d'apprendre lorsque ReLU a une valeur inférieure à zéro. Leaky ReLU aide CNN à continuer à apprendre lorsque les valeurs d'entrée sont négatives. Pour se concentrer sur les parties importantes des sons de forage et éliminer les parties inutiles, une couche d'attention a été ajoutée après le LSTM.

L'architecture proposée est décrite comme illustré à la Fig. 1. Initialement, des méthodes d'augmentation audio ont été appliquées aux sons originaux pour augmenter le nombre d'échantillons dans l'ensemble de données. Dans l'étape suivante, une petite architecture CNN comprenant cinq couches a été proposée pour générer des caractéristiques à partir des spectrogrammes Mel de sons. Enfin, ces caractéristiques ont été utilisées comme entrée du LSTM avec le mécanisme d'attention pour apprendre la représentation des caractéristiques de haut niveau. Les détails des couches dans notre modèle proposé sont décrits dans le tableau 1, où nC est le nombre de classes et \((S=1)\) est la foulée de 1 pour la couche convolutive.

La méthodologie proposée.

Valmet AB perce de petits trous dans des plaques métalliques avec plusieurs machines. Il existe deux types de perceuses dans une usine qui sont de 90 et 120 bits. La figure 2 montre un foret sain et un foret cassé1. Dans cet ensemble de données, le son d'une perceuse à Sundsvall, en Suède, a été enregistré avec quatre microphones AudioBox iTwo Studio. Pour capturer les sons de forage, 96 kHz a été utilisé comme fréquence d'échantillonnage. L'ensemble de données contient 134 sons avec des longueurs de 20,83 ms et 41,67 ms dans deux classes (normales et anormales).

Une mèche saine (côté gauche) et une mèche cassée (côté droit)1.

Bien que les hyper-paramètres du modèle aient été affinés pour s'adapter à la tâche de détection des défauts de forage, l'absence de sons lorsque les forets ont été cassés reste un grand défi. Pour relever ce défi, des méthodes d'augmentation de données ont été appliquées aux sons originaux. Ainsi, le nombre de sons dans l'ensemble de données a augmenté. En outre, l'augmentation des données permet d'améliorer la capacité de généralisation du modèle proposé. Il existe de nombreuses méthodes d'augmentation audio telles que l'étirement temporel, le changement de hauteur, le contrôle du volume, l'ajout de bruit, etc. Il n'est pas approprié d'appliquer certaines méthodes d'augmentation aux sons de l'ensemble de données car elles sont très courtes à seulement 20,83 ms ou 41,67 ms. L'expérimentation a révélé que seules les méthodes d'augmentation des données de décalage temporel et de contrôle du volume sont efficaces pour l'ensemble de données.

Dans cet article, le décalage temporel et le contrôle du volume ont été appliqués pour générer des sons syntaxiques. Nous n'avons pas ajouté de bruit au son comme méthode d'augmentation car le son de notre jeu de données est très court. Le bruit rend difficile la classification des sons. MATLAB fournit une fonction simple, audioDataAugmenter, pour augmenter le son. Il serait prudent d'étudier d'autres méthodes d'augmentation lors de l'application de la méthode proposée à d'autres ensembles de données.

Un décalage temporel est le processus de décalage aléatoire du son vers l'arrière ou vers l'avant. Le point de départ du son a été décalé de 5 ms vers la droite, puis ramené à sa longueur d'origine. La figure 3a montre la représentation temporelle du son de défaut d'origine et du son augmenté en utilisant le décalage temporel.

La représentation temporelle du son de défaut d'origine et du son augmenté.

Le volume a été augmenté en multipliant l'audio par un facteur d'amplitude aléatoire. Le gain de volume a été fixé à 2 dB. En utilisant cette technique, nous pouvons obtenir une certaine invariance concernant le gain d'entrée audio. La représentation temporelle du son de défaut d'origine et du son augmenté à l'aide de la commande de volume est illustrée à la Fig. 3b.

Les progrès récents dans le domaine de la classification d'images utilisant CNN pour plusieurs classes avec une grande précision nous ont motivés à étudier la capacité de la représentation d'image des sons à détecter les échecs de forage. Dans cet article, les sons de forage ont été convertis en spectrogrammes log-Mel pour alimenter le CNN proposé. Le spectrogramme log-mel a été généré comme suit. Étant donné un son de forage brut, le spectrogramme Mel a été calculé à l'aide d'une transformée de Fourier à court terme (STFT) avec des fenêtres de Hamming de 100 ms et une longueur de saut de 50 ms, la longueur de la FFT était de 2048, le taux d'échantillonnage était de 96 kHz et le nombre de banque de filtres Mel était de 96. Puisque les auteurs en 27 ont constaté que le spectrogramme Mel à échelle logarithmique améliore la précision de la classification par rapport au spectrogramme Mel. Par conséquent, le logarithme du spectrogramme Mel a été pris comme entrée de l'architecture CNN proposée. La figure 4 montre des spectrogrammes log-Mel d'un son anormal original et de son son augmenté en utilisant le contrôle du volume et le décalage temporel.

Spectrogrammes Log-Mel d'un son anormal original, les sons augmentés utilisant le décalage temporel et le contrôle du volume.

Une architecture CNN a été proposée pour extraire les caractéristiques des spectrogrammes log-Mel. En conséquence, la troisième couche convolutive a été utilisée pour extraire les caractéristiques au lieu d'ajouter une couche dense à la fin. De plus, Leaky ReLU a été utilisé comme fonction d'activation. Les résultats de l'expérience montrent que l'utilisation de Leaky ReLU peut améliorer la précision de la classification de l'ensemble de données. Pour apprendre la représentation globale des caractéristiques de haut niveau, les caractéristiques extraites ont été introduites dans LSTM avec un mécanisme d'attention.

L'architecture CNN proposée se composait de trois couches convolutives et de deux couches de mise en commun maximale, et de six couches de normalisation par lots avec les fonctions d'activation Leaky ReLU. Des spectrogrammes Log-Mel ont été introduits dans le CNN proposé pour extraire des caractéristiques de haut niveau pour la tâche de classification. Tout d'abord, trois couches convolutionnelles avec des tailles de noyau de filtre 3 × 3 ont été utilisées. Trois couches convolutionnelles ont respectivement 128, 128 et 256 cartes d'entités. Deuxièmement, une couche de regroupement maximal avec des tailles de noyau de filtre de 2 × 4 a été ajoutée après les deux premières couches convolutionnelles. Une paire de couches de normalisation par lots (BN) avec Leaky ReLU a été ajoutée avant et après les couches convolutionnelles pour normaliser les caractéristiques et réduire le surajustement.

L'équation pour ReLU est \( f(x) = max(0,x)\). Lorsque l'entrée de la couche est négative, le ReLU est égal à zéro. Par conséquent, les descentes de gradient atteignent la valeur de zéro et ne peuvent pas converger vers le minimum local. Pour Leaky ReLU, il y a toujours une petite pente pour permettre la mise à jour du poids du gradient accumulé. Par conséquent, bien que ReLU puisse calculer plus rapidement, Leaky ReLU a été utilisé à la place de ReLU afin que les couches n'arrêtent pas d'apprendre lorsque la pente de ReLU est nulle. La fonction d'activation Leaky ReLU28 est décrite par l'Eq. (1):

où \(\alpha \) a été fixé à 0,3 dans cette recherche.

Dans cet article, LSTM29 a été utilisé pour apprendre des cartes de caractéristiques séquentielles extraites du CNN proposé. L'unité LSTM peut être mise à jour comme dans les équations. (2)–(7) :

où \(X_{t}\) est l'entrée du mini-lot ; \(i_{t}\) est la porte d'entrée ; \(f_{t}\) est la porte oubliée ; \(o_{t}\) est la porte de sortie ; \(\tilde{c}_{t}\) est la cellule d'entrée ; \(c_{t}\) est l'état de la cellule ; \(h_{t}\) est l'état caché ; \(\sigma \) est la fonction sigmoïde ; \(\tau \) est la fonction tanh ; W, U sont les matrices de poids ; b est le paramètre de biais ; t est le pas de temps.

En raison de différentes caractéristiques au niveau de la trame contribuant de manière inégale à la classification des classes de sons d'événements, un mécanisme d'attention30 a été largement utilisé dans le modèle séquence à séquence. Dans cet article, une couche d'attention anticipée31 a été ajoutée après LSTM à des points spécifiques d'une séquence lors du calcul de sa sortie. De plus, lors de la transition de l'état normal du foret à l'état cassé, la hauteur de l'audio change. Par conséquent, les caractéristiques extraites du spectrogramme log-Mel juste au moment où le trépan se fissure auront une anomalie. Le but de la couche d'attention est de se concentrer sur cette anomalie. Pour le LSTM, la sortie d'attention att peut être définie comme suit :

où \(h_{t}\) désigne la sortie masquée \(t_{th}\) du LSTM au pas de temps t, T représente le nombre total de pas de temps dans la séquence d'entrée, et le \(\alpha _{t}\) est le poids d'attention peut être calculé comme suit :

La méthode proposée a été évaluée sur l'ensemble de données de notre Valmet. En outre, notre méthode proposée a également été vérifiée sur un jeu de données de forage in26 appelé jeu de données de Seibold, et un jeu de données de référence, à savoir UrbanSound8K32.

L'ensemble de données de forage de Valmet comprend 134 sons, divisés en deux catégories : les sons anormaux et les sons normaux. Après avoir appliqué les méthodes de décalage temporel et d'augmentation du contrôle du volume à 134 sons originaux de deux catégories, l'ensemble de données étendu comprend 402 sons. Ces sons dans l'ensemble de données augmenté ont été convertis en spectrogrammes log-Mel pour former un modèle de bout en bout. Environ 70% de l'ensemble de données (280 spectrogrammes log-Mel) et 30% (122 spectrogrammes log-Mel) ont été utilisés pour la formation et les tests, respectivement. Lors de la formation du modèle sur l'ensemble d'apprentissage, 280 sons ont été divisés par le rapport de 70/30 pour les ensembles d'apprentissage et de validation.

Notre méthode proposée est également évaluée sur le jeu de données de forage in26. Il se compose de deux classes, corticale et percée. Dans cet ensemble de données, les échantillons ont été enregistrés à une fréquence d'échantillonnage de 44,1 kHz et une profondeur de bits de 24 bits. Les sons de cet ensemble de données sont courts, tout comme ceux de notre ensemble de données Valmet. Il y a 126 sons dans la catégorie corticale et 136 sons dans la catégorie percée. Dans l'ensemble de données, les sons ont des durées variables mais sont généralement inférieurs à une seconde. Les événements de percée durent entre 100 et 250 ms, ce qui est plus court que les sons de la catégorie corticale. Notre approche d'augmentation des données proposée n'a pas été appliquée à cet ensemble de données. L'ensemble de données est divisé en 70 % (88 sons corticaux et 95 sons de percée) pour l'entraînement et 30 % (38 sons corticaux et 41 sons de percée) pour les tests. Toutes les autres configurations d'expérience sont les mêmes que celles que nous avons menées sur l'ensemble de données de Valmet.

UrbanSound8K32 a été utilisé pour tester l'efficacité de la méthode proposée dans la classification multi-classes avec des sons plus longs (inférieurs ou égaux à 4 secondes). Il y a 8732 sons dans cet ensemble de données représentant les sons urbains de 10 classes : climatiseur, klaxon de voiture, jeux d'enfants, aboiement de chien, forage, moteur au ralenti, coup de feu, marteau-piqueur, sirène et musique de rue. Les mêmes configurations expérimentales ont été utilisées pour entraîner 6111 sons (70 % de l'ensemble de données) et tester 2621 sons (30 %). Les méthodes d'augmentation des données n'ont pas été appliquées à cet ensemble de données.

Le modèle d'apprentissage en profondeur proposé a été formé sur Intel CORE i5 8e génération avec carte graphique NVIDIA 1050Ti. La bibliothèque Keras33 avec la boîte à outils TensorFlow34 qui sont des cadres d'apprentissage en profondeur populaires ont été utilisées pour implémenter et déployer la méthode proposée. De plus, la bibliothèque Librosa35 a été utilisée pour générer des spectrogrammes log-Mel à partir des sons de forage originaux.

Pour l'optimisation des hyper-paramètres, l'optimiseur Adam36 a été utilisé avec un taux d'apprentissage de 0,001, une taille de lot de 4, un momentum de 0,9 et 100 époques. Pendant la formation, l'entropie croisée catégorielle a été utilisée comme fonction de perte \(L_{f}\) pour mettre à jour les poids du réseau. Il est défini comme suit :

où nC est le nombre de classes, \(y_{n}\) est la vérité terrain et \(\hat{y}_{n}\) est les probabilités de classe prédites pour l'élément \(n_{th}\) des prédictions du modèle. De plus, pour éviter le sur-ajustement et améliorer le modèle généralisé, un arrêt précoce a été appliqué pour entraîner le réseau avec la patience de 5.

Le tableau 2 montre les résultats de notre méthode sur le jeu de données de Valmet et les jeux de données mentionnés ci-dessus. Notre méthode proposée a atteint la précision de 92,62 % et 97,47 % sur l'ensemble de données de Valmet et l'ensemble de données de Seibold, respectivement. La méthode proposée fonctionne non seulement bien sur de petits ensembles de données avec des sons courts (ensembles de données de Valmet et Seibold), mais elle obtient également une grande précision sur l'ensemble de données UrbanSound8K à dix classes avec des sons plus longs. À partir de la dernière colonne du tableau 2, nous pouvons voir que notre modèle fonctionne le mieux sur l'UrbanSound8K, par rapport aux méthodes de pointe. La performance de notre méthode proposée a atteint 91,45%, légèrement supérieure à celle des autres méthodes.

Comme le montre le tableau 3, la précision globale de la méthode proposée, CNN utilisant la fonction d'activation Leaky ReLU combinée avec le LSTM basé sur l'attention (CNN-LSTM-Attention-Leaky ReLU), était de 92,62 %. La matrice de confusion pour la méthode proposée est illustrée à la Fig. 5. Le tableau 3 montre le score F1, la précision et le rappel pour chaque classe dans l'ensemble de données augmenté.

La matrice de confusion pour le modèle proposé (CNN-LSTM-Attention-Leaky ReLU) sur le jeu de données augmenté.

Le rôle des différents modules est étudié à travers des expériences d'ablation en utilisant notre méthode proposée. Comme indiqué précédemment, notre modèle comporte quatre composants clés : le module CNN, la couche LSTM, le mécanisme d'attention et la fonction d'activation Leaky ReLU. Nous analysons le rôle de chaque composant au fur et à mesure que nous éliminons les modules un par un dans nos expériences d'ablation ou modifions la fonction d'activation. La précision moyenne de toutes les expériences est indiquée dans le tableau 4 à titre de comparaison. L'utilisation de CNN avec la fonction d'activation Leaky ReLU en conjonction avec le LSTM basé sur l'attention permet d'obtenir la plus grande précision de 92,62 %. Ce résultat démontre que le Leaky ReLU et le mécanisme d'attention peuvent affecter la précision globale de la méthode proposée lorsqu'ils sont combinés avec CNN et LSTM. Les expériences suivantes ont été menées pour valider l'efficacité de notre méthode proposée :

Dans l'architecture CNN, nous menons des expériences avec la fonction d'activation Leaky ReLU. Les paramètres de l'expérience étaient identiques à l'architecture CNN dans la méthode proposée. Cependant, deux couches entièrement connectées que nous avons utilisées à la fin de CNN pour la classification. Selon le tableau 4, la précision globale de cette méthode n'était que de 86,89 %, ce qui est inférieur à la précision de notre méthode proposée (92,62 %). La figure 6a montre la matrice de confusion pour cette méthode. Le tableau 5 montre la précision, le rappel et le score F1 pour chaque classe.

Comparaison de différentes méthodes.

Cette partie expérimentée avec CNN utilise la fonction d'activation Leaky ReLU en conjonction avec LSTM. Cette expérience teste si l'incorporation d'une couche d'attention dans le modèle est efficace. Dans cette méthode, la précision atteint 90,16 %, ce qui est inférieur à notre méthode proposée (précision de 92,62 %). Il est clair que la précision du modèle a été améliorée en incluant la couche d'attention. En théorie, avec la couche d'attention, le LSTM est censé investir plus de puissance de calcul dans cette partie petite mais importante de l'entrée, de sorte que le réseau améliore ces parties et efface le reste. La matrice de confusion pour cette méthode est illustrée à la Fig. 6b. Le tableau 6 montre la précision, le rappel et le score F1 pour chaque classe.

Cette partie expérimentée avec l'architecture CNN utilise la fonction d'activation ReLU en conjonction avec le LSTM basé sur l'attention. La matrice de confusion pour cette méthode est illustrée à la Fig. 6c. Dans cette expérience, le modèle a été exécuté avec l'activation ReLU pour prouver qu'il est moins efficace que l'activation Leaky ReLU sur notre ensemble de données. Lors de l'utilisation de la fonction d'activation ReLU, la précision était de 91,80 %, lors de l'utilisation de Leaky ReLU, la précision était plus élevée (92,62 %). Comme Leaky ReLU a une pente de 0,3 au lieu de 0, CNN peut s'entraîner plus rapidement et éviter le problème de « ReLU mourant » sur notre ensemble de données. Le tableau 7 montre la précision, le rappel, le score F1 pour chaque classe.

Pour tester l'efficacité du processus d'augmentation des données, le modèle proposé à la section 2 a été exécuté à la fois sur les ensembles de données d'origine et augmentés. Le tableau 8 montre la précision, le rappel et le score F1 pour chaque classe. La précision sur l'ensemble de données augmenté a atteint 92,62 % alors que la précision sur l'ensemble de données d'origine n'a atteint que 88,10 % (tableau 9). La précision de notre méthode proposée sur le jeu de données augmenté (402 sons) est nettement plus élevée que sur le jeu de données original (201 sons). La matrice de confusion pour notre méthode proposée sur l'ensemble de données d'origine est illustrée à la Fig. 6d.

Le son est trop court et l'ensemble de données équilibré contient trop peu d'échantillons, ce qui sont les deux principaux défis du développement d'un système de détection de panne de machine pour Valmet AB. Pour commencer, il est difficile d'appliquer des méthodes d'augmentation de données à des sons courts. Certaines stratégies modernes d'augmentation des données, telles que la synthèse de nouvelles données à l'aide de modèles génératifs, ont récemment suscité l'intérêt des chercheurs. GAN, par exemple, est un modèle génératif commun utilisé pour synthétiser de nouvelles données à partir d'un petit ensemble de données dans le traitement d'image et la vision par ordinateur. Les sons de forage dans l'ensemble de données de Valmet, en revanche, sont beaucoup trop courts pour être utilisés avec le GAN à la pointe de la technologie. De plus, un modèle avec trop de paramètres peut sous-ajuster un ensemble de données d'apprentissage limité. Lorsque les modèles d'apprentissage en profondeur ne parviennent pas à saisir les tendances sous-jacentes des données, on parle de sous-ajustement. En conséquence, le modèle fera de nombreuses prédictions inexactes. Pour éviter le sous-ajustement, il est nécessaire d'utiliser un ensemble de données plus grand avec des sons plus longs. Cependant, en raison des coûts élevés et de la nature à forte intensité de main-d'œuvre de la capture et de l'identification des sons dans les usines, il n'est pas possible de collecter des ensembles de données volumineux et équilibrés. Sur un ensemble de données limité, notre méthode proposée peut être utilisée pour développer un modèle de classification. Les bruits de forage peuvent être enregistrés et identifiés à l'aide de ce modèle de classification directement en usine. Un technicien qualifié peut confirmer l'exactitude des sons enregistrés identifiés par ce modèle. Ces nouveaux sons sont ensuite ajoutés à un ensemble de données plus important. Lorsqu'un modèle d'apprentissage en profondeur est formé sur un ensemble de données plus volumineux, il peut générer de meilleurs résultats.

Notre méthode proposée est validée sur l'ensemble de données de Seibold pour démontrer son efficacité ainsi que pour éviter les biais dans l'ensemble de données spécifié de Valmet AB. Les résultats de l'expérience indiquent que la méthode proposée atteint une plus grande précision que le système de référence utilisant ResNet-1840 dans l'étude précédente26 sur le même ensemble de données. Comme le montre le tableau 2, la précision moyenne de notre méthode proposée sur cet ensemble de données a atteint 97,47 %, alors que Seibold et al.26 ont atteint une précision de 91,90 %. La figure 7 illustre la matrice de confusion utilisant l'ensemble de données de Seibold avec notre méthode proposée, tandis que la précision, le rappel et le score F1 pour chaque classe sont présentés dans le tableau 10. Selon ces résultats, notre méthode proposée est capable de traiter efficacement des ensembles de données sonores courts et petits, tels que ceux des ensembles de données de Valmet et Seibold.

La matrice de confusion pour le modèle proposé (CNN-LSTM-Attention-Leaky ReLU) sur l'ensemble de données de Seibold.

La figure 8 illustre la matrice de confusion de la méthode proposée sur l'ensemble de données de référence UrbandSound8K. Dans le tableau 11, la précision, le rappel et le score F1 pour chaque classe de l'UrbandSound8K sont présentés. Comme le montre le tableau 2, notre méthode proposée atteint une meilleure précision que l'état de l'art et les méthodes les plus récentes sur l'ensemble de données UrbandSound8K. La précision moyenne de notre méthode proposée est de 91,45 %, alors qu'elle est de 70,90 %, 89,00 % et 90,07 % pour Stride-Ds-2437, 1D CNN38 et AudioCLIP39, respectivement. Ces résultats suggèrent que notre méthode surpasse les techniques modernes sur des ensembles de données multi-classes avec des sons plus longs. De plus, cela valide la généralisation de notre méthode proposée, qui fonctionne bien non seulement sur des ensembles de données sonores petits et courts, mais également sur de grands ensembles de données avec de nombreuses classes et des sons longs.

La matrice de confusion pour le modèle proposé (CNN-LSTM-Attention-Leaky ReLU) sur le jeu de données UrbanSound8K.

Dans cet article, un modèle d'apprentissage en profondeur a été proposé pour un système de détection de défauts de forage. En outre, des méthodes d'augmentation du décalage temporel et du contrôle du volume ont été appliquées pour augmenter le nombre de sons dans le petit ensemble de données. Les sons de l'ensemble de données augmenté ont été convertis en spectrogrammes log-Mel et ont été utilisés pour former l'architecture CNN proposée avec la fonction d'activation Leaky ReLU en conjonction avec le LSTM basé sur l'attention pour détecter l'échec du forage. Il a été constaté que la précision globale de notre système proposé atteignait 92,62 % sur l'ensemble de données de notre Valmet. En termes d'identification des forets cassés, la précision de la méthode proposée est acceptable. Cette méthode a un énorme potentiel pour être utilisée pour diagnostiquer les défauts des machines industrielles. Il s'agit d'une méthode non invasive de diagnostic d'une panne de machine à l'aide de sons courts ou de petits ensembles de données. De plus, cet article a utilisé à la fois un ensemble de données privé avec des sons petits et courts, à savoir l'ensemble de données de Seibold, et un ensemble de données de référence UrbanSound8K pour valider l'efficacité et la généralisation de la méthode proposée. Des études montrent que notre méthode proposée est plus précise que l'état de l'art et les méthodes les plus récentes sur les deux ensembles de données. Sur les ensembles de données de Seibold et UrbandSound8K, notre méthode proposée atteint une précision de 97,47 % et 91,45 %, respectivement. Nous envisageons de combiner le son et les images pour identifier les erreurs de forage et améliorer les résultats de détection des erreurs de forage à l'avenir. Les aspects d'avoir de nombreux événements dans le même son, tels que les sons polyphoniques, qui mélangent à la fois des sons de forage anormaux et d'autres, seront également examinés.

Les ensembles de données générés pendant et/ou analysés pendant l'étude en cours sont disponibles auprès de l'auteur correspondant sur demande raisonnable.

Tran, T. & Lundgren, J. Diagnostic de défaut de forage basé sur le scalogramme et le spectrogramme MEL de signaux sonores utilisant l'intelligence artificielle. Accès IEEE 8, 203655–203666. https://doi.org/10.1109/ACCESS.2020.3036769 (2020).

Article Google Scholar

Choi, YJ, Park, MS & Chu, CN Prédiction des défaillances de forage à l'aide de l'extraction de caractéristiques dans les domaines temporel et fréquentiel du courant du moteur d'alimentation. Int. J.Mach. Fabrication d'outils 48, 29–39 (2008).

Article Google Scholar

Skalle, P., Aamodt, A. & Gundersen, OE Détection des symptômes pour révéler les causes conduisant à des échecs de forage. Perceuse SPE. Complet. 28, 182–193 (2013).

Article Google Scholar

Kumar, A., Ramkumar, J., Verma, NK & Dixit, S. Détection et classification des défauts dans le processus de forage à l'aide de l'analyse des vibrations. En 2014 Conférence internationale sur les pronostics et la gestion de la santé, 1–6 (IEEE, 2014).

Henriquez, P., Alonso, JB, Ferrer, MA et Travieso, CM Examen des systèmes de diagnostic automatique des pannes utilisant des signaux audio et vibratoires. IEEE Trans. Syst. Homme. Cybern. Syst. 44, 642–652. https://doi.org/10.1109/TSMCC.2013.2257752 (2014).

Article Google Scholar

Glowacz, A. Détection des défauts des perceuses à percussion électriques et des moulins à café à l'aide de signaux acoustiques. Capteurs 19, 269 (2019).

Annonces d'article Google Scholar

Jing, Y., Su, H., Wang, S., Gui, W. & Guo, Q. Diagnostic de panne des perceuses à percussion électriques basé sur l'intensité sonore variable dans le temps et la régression logistique. Vibration de choc. 2021 (2021).

Hou, J., Sun, H., Xu, A., Gong, Y. & Ning, D. Diagnostic de panne d'un moteur hydraulique synchrone basé sur des signaux acoustiques. Adv. Méca. Ing. 12, 1687814020916107 (2020).

Google Scholar

Wang, X., Mao, D. & Li, X. Diagnostic de défaut de roulement basé sur la fusion de données vibro-acoustiques et le réseau 1D-CNN. Mesure 173, 108518 (2021).

Article Google Scholar

Polat, K. Le diagnostic de panne basé sur un modèle de mémoire profonde à court terme à partir des signaux de vibration dans les machines à commande numérique par ordinateur. J. Inst. Électron. Calcul. 2, 72–92 (2020).

Article Google Scholar

González-Muñiz, A., Díaz, I. & Cuadrado, AA DCNN pour la surveillance de l'état et la détection des défauts dans les machines tournantes et sa contribution à la compréhension de la nature de la machine. Helyon 6, e03395 (2020).

Article Google Scholar

Verstraete, D., Ferrada, A., Droguett, EL, Meruane, V. & Modarres, M. L'apprentissage en profondeur a permis le diagnostic des défauts à l'aide de l'analyse d'image temps-fréquence des roulements à éléments roulants. Vibration de choc. 2017 (2017).

Zhang, S., Zhang, S., Wang, B. et Habetler, TG Algorithmes d'apprentissage en profondeur pour le diagnostic des défauts de roulement - Une revue complète. Accès IEEE 8, 29857–29881 (2020).

Article Google Scholar

Chen, Z., Chen, X., Li, C., Sanchez, R.-V. & Qin, H. Diagnostic de panne de boîte de vitesses basé sur les vibrations à l'aide de réseaux de neurones profonds. J. Vibroeng. 19, 2475-2496 (2017).

Article Google Scholar

Islam, MM & Kim, J.-M. Diagnostic de défaut de roulement moteur à l'aide de réseaux de neurones à convolution profonde avec analyse 2D du signal vibratoire. Dans Conférence canadienne sur l'intelligence artificielle, 144-155 (Springer, 2018).

Xueyi, L., Jialin, L., Yongzhi, Q. & David, H. Diagnostic de défaut d'engrenage semi-supervisé à l'aide d'un signal de vibration brut basé sur l'apprentissage en profondeur. Menton. J. Aéronaute. 33, 418–426 (2020).

Article Google Scholar

Zhang, X., Zou, Y. & Shi, W. Réseau de neurones à convolution dilatée avec LeakyReLU pour la classification des sons environnementaux. Dans Conférence internationale sur le traitement du signal numérique, DSP 2017-Augus, https://doi.org/10.1109/ICDSP.2017.8096153 (2017).

Davis, N. & Suresh, K. Classification des sons environnementaux à l'aide de réseaux de neurones à convolution profonde et d'augmentation de données. Dans 2018 IEEE Recent Advances in Intelligent Computational Systems (RAICS), 41–45, https://doi.org/10.1109/RAICS.2018.8635051 (2018).

Boddapati, V., Petef, A., Rasmusson, J. & Lundberg, L. Classification des sons environnementaux à l'aide de réseaux de reconnaissance d'images. Process Comput. Sci. 112, 2048-2056. https://doi.org/10.1016/j.procs.2017.08.250 (2017).

Article Google Scholar

Mushtaq, Z., Su, SF & Tran, QV Classification sonore environnementale basée sur des images spectrales utilisant CNN avec une augmentation significative des données. Appl. Acoustique. 172, 107581. https://doi.org/10.1016/j.apacoust.2020.107581 (2021).

Article Google Scholar

Medhat, F., Chesmore, D. & Robinson, J. Réseaux de neurones conditionnels masqués pour la classification des sons environnementaux. In Artificial Intelligence XXXIV - 37th SGAI International Conference on Artificial Intelligence, AI 2017, Cambridge, Royaume-Uni, 12-14 décembre 2017, Actes, Vol. 10630 de Lecture Notes in Computer Science, (eds Bramer, M. & Petridis, M.) 21–33, https://doi.org/10.1007/978-3-319-71078-5_2 (Springer, 2017).

Chen, Y., Guo, Q., Liang, X., Wang, J. et Qian, Y. Classification des sons environnementaux avec convolutions dilatées. Appl. Acoustique. 148, 123–132. https://doi.org/10.1016/j.apacoust.2018.12.019 (2019).

Article Google Scholar

Wang, H., Zou, Y., Chong, D. et Wang, W. Classification des sons environnementaux avec une attention parallèle temporelle-spectrale. Dans Interspeech 2020, 21e conférence annuelle de l'International Speech Communication Association, événement virtuel, Shanghai, Chine, 25-29 octobre 2020, (eds Meng, H. et al.) 821–825, https://doi.org/10.21437/Interspeech.2020-1219 (ISCA, 2020).

Zhang, Z., Xu, S., Zhang, S., Qiao, T. et Cao, S. Réseau neuronal récurrent convolutif basé sur l'attention pour la classification des sons environnementaux. Neuroinformatiquehttps://doi.org/10.1016/j.neucom.2020.08.069 (2020).

Article PubMed PubMed Central Google Scholar

Torun, Y. & Pazarci, Ö. Détection de percée basée sur l'estimation de la densité spectrale de puissance paramétrique pour le forage osseux orthopédique avec analyse du signal d'émission acoustique. Acoustique. Aust. 48, 221-231 (2020).

Article Google Scholar

Seibold, M. et al. Détection acoustique en temps réel et intelligence artificielle pour la prévention des erreurs en chirurgie orthopédique. Sci. Rép. 11, 1–11 (2021).

Annonces d'article Google Scholar

Choi, K., Fazekas, G., Sandler, M. & Cho, K. Une comparaison des méthodes de prétraitement du signal audio pour les réseaux de neurones profonds sur le marquage de la musique. En 2018, 26e Conférence européenne sur le traitement du signal (EUSIPCO), 1870–1874 (IEEE, 2018).

Maas, AL, Hannun, AY & Ng, AY Les non-linéarités du redresseur améliorent les modèles acoustiques des réseaux de neurones. dans ICML Workshop on Deep Learning for Audio, Speech and Language Processing, Vol. 28, (2013).

Hochreiter, S. & Schmidhuber, J. Longue mémoire à court terme. Calcul neuronal. 9, 1735–1780 (1997).

Article CAS Google Scholar

Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Dans Advances in Neural Information Processing Systems, 5998–6008 (2017).

Raffel, C. & Ellis, DPW Les réseaux feed-forward avec attention peuvent résoudre certains problèmes de mémoire à long terme. CdR (2015). arXiv:1512.08756.

Salamon, J., Jacoby, C. & Bello, JP Un ensemble de données et une taxonomie pour la recherche sur les sons urbains. Dans 22e Conférence internationale ACM sur le multimédia (ACM-MM'14), 1041-1044 (2014).

Chollet, F. et al. Kéras. https://github.com/fchollet/keras (2015).

Abadi, M. et al. TensorFlow : Apprentissage automatique à grande échelle sur des systèmes hétérogènes (2015). Logiciel disponible sur tensorflow.org.

McFee, B. et al. librosa/librosa : 0.8.1rc2, https://doi.org/10.5281/zenodo.4792298 (2021).

Kingma, DP & Ba, J. Adam : Une méthode d'optimisation stochastique. In 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, 7-9 mai 2015, Conference Track Proceedings (eds Bengio, Y. & LeCun, Y.) (2015).

Nordby, JO Classification des sons environnementaux sur des microcontrôleurs utilisant des réseaux de neurones convolutifs. Mémoire de maîtrise, Université norvégienne des sciences de la vie, Ås (2019).

Abdoli, S., Cardinal, P. & Koerich, AL Classification sonore environnementale de bout en bout à l'aide d'un réseau neuronal convolutif 1D. Système expert. Appl. 136, 252–263 (2019).

Article Google Scholar

Guzhov, A., Raue, F., Hees, J. & Dengel, A. Clip audio : extension du clip à l'image, au texte et à l'audio. prétirage arXiv arXiv:2106.13043 (2021).

He, K., Zhang, X., Ren, S. et Sun, J. Apprentissage résiduel profond pour la reconnaissance d'images. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 770–778 (2016).

Télécharger les références

Cette recherche a été soutenue par le Fonds régional de l'UE, le projet MiLo (n° 20201888) et le projet Acoustic sensor set for AI monitoring systems (AISound). Les auteurs tiennent à remercier Valmet AB pour avoir fourni l'ensemble de données sonores de forage. Les auteurs remercient Matthias Seibold de l'Université technique de Munich d'avoir partagé leur ensemble de données.

Financement en libre accès fourni par la Mid Sweden University.

Département de conception électronique, Mid Sweden University, Sundsvall, Suède

Thanh Tran et Jan Lundgren

Division de la mécatronique computationnelle, Institut des sciences computationnelles, Université Ton Duc Thang, Ho Chi Minh Ville, Vietnam

Nhât Truong Pham

Faculté de génie électrique et électronique, Université Ton Duc Thang, Hô-Chi-Minh-Ville, Vietnam

Nhât Truong Pham

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Conceptualisation : TT ; Méthodologie : TT ​​; Logiciel : TT ​​et NTP ; Conservation des données : TT ; Rédaction—ébauche originale : TT et NTP ; Rédaction—révision et édition : JL; Encadrement : JL ; Tous les auteurs ont examiné le manuscrit.

Correspondance à Thanh Tran.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Tran, T., Pham, NT et Lundgren, J. Une approche d'apprentissage en profondeur pour détecter les pannes de foret à partir d'un petit ensemble de données sonores. Sci Rep 12, 9623 (2022). https://doi.org/10.1038/s41598-022-13237-7

Télécharger la citation

Reçu : 01 janvier 2022

Accepté : 23 mai 2022

Publié: 10 juin 2022

DOI : https://doi.org/10.1038/s41598-022-13237-7

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

PARTAGER