De nos jours, la diffusion et la croissance des applications Web 2.0 ont créé un nouveau monde de communication et de collaboration. Plus d’un milliard de personnes dans le monde sont connectées par les réseaux sociaux et les messageries instantanées. Ils collaborent par le biais de wikis, de podcasts, de messages de discussion, de commentaires et de messagerie instantanée. La nouvelle génération de réseaux sociaux en ligne est rendue possible par la diffusion généralisée d’Internet haut débit et est même devenue une modalité de communication et d’interaction grand public de plus en plus importante dans la société de l’information dans laquelle nous vivons aujourd’hui. Facebook, Instagram, Twitter, LinkedIn et d’autres sites de réseautage social en ligne similaires offrent des espaces où les individus peuvent créer un profil et le connecter à d’autres afin de créer un réseau personnel. Dans les réseaux sociaux en ligne, l’objectif est l’interaction sociale et la connexion. Ces sites de réseautage social en ligne offrent à chacun un endroit pour partager ses histoires personnelles, en mots, en images et en vidéos avec ses amis. Ils connectent également les gens avec des amis et d’autres personnes qui travaillent, étudient et vivent autour d’eux. Ils aident les gens à en savoir plus sur les événements, les fêtes et autres fonctions sociales.
La participation et la continuité dans les réseaux sociaux en ligne représentent un nouveau phénomène social qui dépend largement des interactions avec d’autres utilisateurs dans un réseau personnel. Les médias sociaux sont devenus un important moyen de communication ouvert pour comprendre les opinions des utilisateurs et évaluer les tendances dans plusieurs domaines de recherche. Nous sommes à l’ère du partage de millions d’images sur les réseaux sociaux. Les sites de médias sociaux les plus populaires sont Facebook, Instagram, Twitter et Pinterest. Cet aspect a motivé de nombreux travaux sur l’analyse des données des médias sociaux à l’aide de techniques d’apprentissage automatique et d’apprentissage en profondeur. L’analyse des sentiments a été définie comme l’étude informatique des opinions et des sentiments exprimés dans les textes, avec une définition simplifiée: «un sentiment ou une opinion personnelle positive ou négative». La recherche dans ce domaine classe le texte en fonction de sa polarité: positive, négative et neutre (n’exprimant aucun sentiment). Généralement, il existe deux approches principales de l’analyse des sentiments: la première approche consiste en des modèles basés sur le lexique, et la seconde implique les méthodes basées sur l’apprentissage automatique. Les méthodes basées sur l’apprentissage automatique utilisent plusieurs fonctionnalités de texte comme entrée pour un modèle de formation, puis prédisent le sentiment du texte à l’aide de ces fonctionnalités. Parmi les techniques d’apprentissage automatique supervisées, semi-supervisées et non supervisées qui effectuent la classification des sentiments, les plus populaires sont les algorithmes basés sur des réseaux de neurones profonds et des réseaux adversatifs génératifs. Les techniques d’apprentissage approfondi permettent aux machines d’apprendre à classer les données par elles- mêmes; par exemple, un outil d’analyse d’images d’apprentissage en profondeur peut apprendre à reconnaître des images contenant des chats, sans qu’on leur dise spécifiquement à quoi ressemble un chat. Avec des solutions automatisées basées sur le Deep Learning pour la surveillance des médias sociaux, il est possible d’avoir accès à des informations exploitables pour gérer efficacement l’image de l’utilisateur et connaître les commentaires des utilisateurs (même lorsqu’ils n’étaient pas censés être entendus initialement, ce qui est la meilleure partie du tout) en temps opportun. Les principaux défis sont les difficultés inhérentes au suivi et à la quantification de la très grande quantité et de l’ensemble de données non structurées. Un grand nombre de recherches existantes utilisent les résumés quantitatifs du contenu généré par les utilisateurs (User Generated Content), tels que la valence globale et le volume des évaluations des

utilisateurs, pour ainsi représenter les opinions des utilisateurs. Pour atteindre cet objectif, un ensemble d’images et de publications est collecté en effectuant des recherches automatisées de hashtags et de publications. Par exemple, les gens prennent des photos et insèrent du texte dans les photos à l’aide d’un logiciel de retouche photo. Afin d’estimer la signification d’une image, il est essentiel non seulement de juger les éléments visuels mais aussi de comprendre la signification du texte inclus. En règle générale, une plate-forme de médias sociaux (Instagram, Twitter et Facebook) a différentes façons d’introduire des messages de ses utilisateurs. Le contenu principal de la publication est souvent le texte accompagné de hashtags. Par conséquent, un article comprend généralement trois éléments principaux: du texte, des hashtags et une image.
L’approche pour estimer le sentiment général d’une image sur la base d’informations visuelles et textuelles est effectuée en évaluant le sentiment d’une image par un classificateur d’apprentissage automatique basé sur des caractéristiques visuelles et textuelles extraites de deux réseaux neuronaux à convolution profonde (DCNN) spécialement formés. L’extracteur de fonctionnalités visuelles est basé sur l’architecture du réseau VGG16 et il est formé en affinant un modèle pré- formé sur l’ensemble de données ImageNet. Tandis que l’extracteur de fonctionnalités visuelles est appliqué à l’image entière, l’extracteur de fonctionnalités textuelles détecte et reconnaît les textes avant d’extraire les fonctionnalités. L’extracteur de fonctionnalités textuelles est basé sur l’architecture DCNN et est créé en affinant un modèle qui a été précédemment formé sur des images de réseaux sociaux synthétisées. Sur la base de ces fonctionnalités, six classificateurs de pointe, à savoir kNearest Neighbors (kNN), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Naive Bayes (NB) et Artificial Neural Network (ANN) sont comparés pour reconnaître le sentiment général des images.