Rozpowszechnienie i rozwój serwisów Web 2.0 wpływa na kształtowanie się nowej rzeczywistości z dziedzinie komunikacji i współpracy. Ponad miliard ludzi na całym świecie komunikuje się za pomocą sieci społecznościowych i komunikatorów internetowych. Wspierają się poprzez podcasty, fora dyskusyjne, komentarze i komunikatory internetowe. Nowa generacja sieci społecznościowych jest możliwa dzięki powszechnemu korzystaniu z szybkiego Internetu, a co więcej stała się ona głównym źródłem komunikacji i interakcji o wzrastającym znaczeniu w społeczeństwie informacyjnym, w którym obecnie żyjemy. Facebook, Instagram, Twitter, LinkedIn i inne podobne internetowe serwisy społecznościowe zapewniają środowiska online, w których użytkownicy mogą tworzyć profile i łączyć je z innymi w celu stworzenia sieci osobistej. Celem internetowych serwisów społecznościowych są interakcje społeczne i komunikacja. Te internetowe serwisy społecznościowe zapewniają każdemu użytkownikowi miejsce, w którym może dzielić się swoimi osobistymi historiami ze znajomymi, za pomocą tekstu, zdjęć i filmów. Zrzeszają one przyjaciół, znajomych, współpracowników, studentów, uczniów i innych pozostałych użytkowników. Dzięki nim można zasięgnąć informacji na temat różnych wydarzeń, spotkań i wszelkich innych społecznych interakcji. Bycie użytkownikiem i korzystanie z internetowych sieci społecznościowych stanowi nowe zjawisko społeczne, które w dużej mierze zależy od interakcji z innymi użytkownikami w sieci osobistej. Media społecznościowe stały się ważnym otwartym źródłem komunikacji, które umożliwia poznanie opinii użytkowników i ocenę trendów z różnych dziedzin. Żyjemy w czasach, w których miliony zdjęć jest udostępnianych na mediach społecznościowych. Najpopularniejsze serwisy społecznościowe to Facebook, Instagram, Twitter i Pinterest. Ten aspekt zainicjował przeprowadzenie analizy danych dotyczących mediów społecznościowych z wykorzystaniem technik maszynowego uczenia się oraz technik głębokiego uczenia. Analiza nastrojów została zdefiniowana jako obliczeniowe badanie opinii i uczuć wyrażonych w tekstach lub osobiste pozytywne lub negatywne odczucia lub opinie. Badania w tej dziedzinie klasyfikują tekst według jego biegunowości: pozytywny, negatywny i neutralny (nie wyrażający żadnych emocji). Ogólnie rzecz biorąc, istnieją dwa główne podejścia do analizy nastrojów: pierwsze podejście składa się z modeli opartych na leksykonach, a drugie z metod opartych na uczeniu maszynowym. Metody oparte na uczeniu maszynowym wykorzystują kilka funkcji tekstowych jako wkład dla modelu szkoleniowego, a następnie przewidują nastrój tekstu za pomocą tych funkcji. Wśród kontrolowanych, częściowo kontrolowanych i niekontrolowanych technik uczenia maszynowego, które dokonują klasyfikacji nastrojów, najpopularniejsze są algorytmy oparte na głębokich sieciach neuronowych i generatywnych sieciach przeciwstawnych. Techniki głębokiego uczenia się umożliwiają maszynom samodzielne uczenie się klasyfikowania danych. Na przykład narzędzie do analizy obrazów głębokiego uczenia może nauczyć się rozpoznawać obrazy, które zawierają koty, bez wyjaśnienia jak wygląda kot. Dzięki zautomatyzowanym rozwiązaniom opartym na głębokim uczeniu, media społecznościowe mają możliwość uzyskania dostępu do praktycznych spostrzeżeń, aby efektywnie zarządzać profilem użytkownika i poznać opinie użytkowników (nawet jeśli początkowo nie miały zostać wzięte pod uwagę). Główne wyzwania to nieodłączne trudności związane ze śledzeniem i określeniem ilościowym przytłaczająco dużej liczby nieustrukturyzowanych zestawów danych. Duża ilość istniejących badań wykorzystuje ilościowe podsumowania treści generowanych przez użytkowników (UGC), takie jak ogólna wartościowość oraz ilość ocen opinii użytkowników w celu przedstawienia tych opinii. Aby osiągnąć ten cel, zestaw zdjęć oraz postów zostaje zebrany poprzez automatyczne wyszukiwanie hasztagów i postów. Na przykład użytkownicy robią zdjęcia i wstawiają tekst do zdjęć za pomocą oprogramowania do edycji zdjęć. W celu oceny wartości obrazu, niezbędna jest nie tylko ocena elementów wizualnych, ale również zrozumienie znaczenia zawartego tekstu. Ogólnie rzecz biorąc, serwisy mediów społecznościowych (Instagram, Twitter i Facebook) przedstawiają treści użytkowników na różne sposoby. Główną treścią postu jest zwykle tekst oraz hasztagi. Składa się on zwykle z trzech głównych elementów: tekst, hasztagi i obraz. Ogólna ocena zdjęcia w oparciu o informacje wizualne i tekstowe, jest dokonywana poprzez ocenę nastroju zdjęcia przez klasyfikator uczenia maszynowego oparty na cechach wizualnych i tekstowych, wyodrębnionych z dwóch specjalnie wyszkolonych głębokich konwolucyjnych sieci neuronowych (DCNN). Ekstraktor cech wizualnych jest oparty na architekturze sieci VGG16 i jest dostosowywany poprzez dostrajanie modelu opartego na zestawie danych ImageNet. Podczas gdy ekstraktor cech wizualnych jest stosowany do całego obrazu, ekstraktor cech tekstowych wykrywa i rozpoznaje teksty przed wyodrębnieniem funkcji. Ekstraktor funkcji tekstowych jest oparty na architekturze DCNN i jest tworzony przez dostrojenie modelu, wcześniej przeszkolonego w zakresie syntetyzowanych obrazów w mediach społecznościowych. W oparciu o te cechy, sześć najnowocześniejszych klasyfikatorów, a mianowicie kNearest Neighbors (kNN), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Naive Bayes (NB) i Artificial Neural Network (ANN) zostało porównane w celu rozpoznania ogólnego nastroju zdjęcia.