맞춤형 사전 기법을 이용한 비정형 빅데이터 형태소 분류 모델 연구
- 발행기관 강릉원주대학교
- 발행년도 2021
- 학위수여년월 2021. 8
- 학위명 박사
- 학과 및 전공 도움말 일반대학원 멀티미디어공학과
- 실제URI http://www.dcollection.net/handler/kangnung/000000011016
- UCI I804:42001-000000011016
- 본문언어 한국어
초록/요약 도움말
디지털 시대라고 할 수 있는 현대는 빠르게 변화하고 있으며 많은 사람들이 그 원인으로 빠른 의사결정과 추세 변화를 지목하고 있다. 그러나 사실 엄청난 데이터의 생성이 빠른 변화의 배경이라고 할 수 있다. 이런 데이터의 생성은 이전에도 존재하였지만, 통신 네트워크와 하드웨어를 기반으로 하는 인프라의 발전으로 처리가 가능하게 되었으며, 이를 통하여 빅데이터 시대가 도래하였다. 과거에는 데이터를 관리 측면으로만 사용하던 것을 빅데이터 시대에는 의사결정 및 빠르게 변화하는 패턴에 대하여 분석을 하기 시작하였으며, 데이터에 대한 가치 분석을 위하여 비정형 데이터에 대한 분석 및 처리가 더욱 많이 요구되고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 이를 위하여 데이터는 디비피아의 논문 요약과 주제어, 부 주제어 그리고 키워드를 크롤링하여 전처리 작업을 통해 중복 및 배제 데이터들에 대한 정제 작업을 진행하였다. 또한, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하였으며, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였고, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하였다. 특히, 본 논문에서는 기존 방식과 달리 사용자 사전과 금지어 및 변환어에 대하여 형태소 분석 후에 생성하고 적용하도록 함으로써 비정형 데이터 분석 시 업종별 사전을 사전에 적용하지 않아도 되었다. 추출된 명사를 이용하여 TF-IDF 값을 생성하였으며, 학습 데이터와 와이 값을 결합하여 분석 데이터 셋을 생성하였다. 또한, 군산대학교의 KNU 한국어 감정 사전을 이용하여 감정 분석을 진행하였다. 생성된 분석 데이터 셋에 네 가지 분석 알고리즘(랜덤 포레스트, 의사결정 트리, 다중 로지스틱, 서포트 벡터 머신)을 적용하여 분류의 적정성을 측정하였으며 다양한 시각화를 통해 검증 절차를 거쳤다. 본 논문에서는 사용 데이터가 이미 잘 분류된 논문 관련 데이터이기에 100%에 가까운 정확도를 보였다. 하지만 민원 데이터와 같이 정제되지 않은 비정형 데이터에 적용하였을 때에는 정확도가 91% 밖에 나오지 않았다. 향후 본 연구의 내용은 소셜뿐만 아니라 민원 분석, 댓글 등과 같은 비정형 텍스트 관련 분석 및 분류 등으로 활용 범위를 넓혀 나갈 수 있으며 정확도를 높이기 위하여 더 많은 학습을 통해 사용자 맞춤형 사전에 대한 지속적인 단어 추가와 다양한 분석 알고리즘에 대한 검증이 필요하다
more초록/요약 도움말
The modern era, which can be called the digital age, is rapidly changing, and many people point to rapid decision-making and trend change as the cause. but In fact, it can be said that the generation of huge data is the background of rapid change. The generation of such data existed before, but processing became possible with the development of infrastructure based on communication networks and hardware, and through this, the era of big data came. In the era of big data, where data was used only for management purposes in the past, analysis of decision-making and rapidly changing patterns has begun, and analysis and processing of unstructured data are more demanded for value analysis of data. In this paper, an analysis model was designed and verified for the classification of unstructured data, which is often required in the era of big data. To this end, the data were crawled for the thesis summary, main words, sub-topic words, and keywords of DBPIA, and the duplicate and exclusion data were refined through pre-processing. also, a database was created using the data dictionary of KoNLP, and the process of tokenization of words was performed through morpheme analysis, and nouns were extracted using KAIST's 9 part-of-speech classification system. In particular, in this paper, unlike the existing method, it is not necessary to apply the dictionary for each industry type in the case of unstructured data analysis by generating and applying the user dictionary, prohibited words, and transformed words after morpheme analysis. TF-IDF value was generated using the extracted noun, and an analysis data set was created by combining the training data and the Y value. also, emotion analysis was performed using the KNU Korean emotion dictionary of Kunsan University. Four analysis algorithms(random forest, decision tree, multi-logistic, support vector machine) were applied to the generated analysis data set to measure the adequacy of classification, and verification procedures were performed through various visualizations. In this paper of data used are already well-classified paper-related data, the accuracy is close to 100%. but, when applied to unrefined unstructured data such as civil complaint data, the accuracy was only 91%. In the future, the content of this study can be extended to analysis and classification related to unstructured texts such as civil complaint analysis and commentary as well as society, in order to increase accuracy, it is necessary to continuously add words to the user-customized dictionary through more learning and to verify various analysis algorithms.
more목차 도움말
Ⅰ. 서 론 1
II. 연구 배경 6
2.1 빅데이터 처리 과정 6
2.1.1. 원천 데이터 7
2.1.2. 수 집 8
2.1.3. 저 장 15
2.1.4. 처 리 17
2.1.5. 분 석 18
2.1.6. 시각화 19
2.2 언어 모델 20
2.2.1 BoW(Bag of Words) 20
2.2.2 TF-IDF(Term Frequency-Inverse Document Frequency) 21
2.2.3 자기 회귀 언어 모델 22
2.2.4 엔그램(N-gram) 24
2.3 사회관계망 분석 모델 25
2.3.1 사회연결망 분석(Social Network Analysis, SNA) 26
2.3.2 의미연결망 분석(Semantic Network Analysis, SNA) 26
2.3.3 감정 분석(Emotional Analysis, EA) 27
III. 제안 방법론 28
3.1 Data Collection 29
3.2 Tokenization 30
3.3 Characteristic analysis 31
3.4 Analytical Model 32
IV. 구 현 34
4.1 Collecting thesis data and creating a database 34
4.2 Word tokenization and data Preconfiguration 36
4.2.1 Modeling and Data dictionary Building 36
4.2.2 Word dictionary Calibration Method 39
4.3 Analyze attributes by classification and
organize analysis data sets 42
4.4 Classification model validation 43
4.4.1 Perform analysis model 43
4.4.2 Verification of accuracy 50
4.5 Analysis Result 52
V. UTMAS 구축 53
5.1 UTMAS(Unstructured Text morpheme analysis System) 53
5.2 데이터 수집 58
5.3 특성 탐색 67
5.4 의미 탐색 79
5.5 결과 활용 88
VI. 결 론 93
REFERENCES 95

