연구보고서

HOME > 연구실적 > 연구보고서
연구보고서 상세보기
부서명 안전연구실
발행년도 2019
간행물 번호 11-1741056-000181-01
연구보고서명 기계학습 기술활용 재난안전 문서 자동분류 기술 개발 및 학습자료 구축(위탁)
참여연구원 용역감독: 김도우, 최동진, 신은혜
보고서 pdf 기계학습 기술활용 재난안전 문서 자동분류 기술 개발 및 학습자료 구축.pdf
요약 Ⅰ. 연구제목
  기계학습 기술활용 재난안전 문서 자동분류 기술 개발 및 학습자료 구축

Ⅱ. 연구배경
  1. 빅데이터를 활용한 미래·신종재난과 관련된 weak signal(약신호)를 효율적으로 탐색하기 위하여 뉴스를 비롯한 대용량 텍스트 데이터의 지능적인 분석이 필요
  2. 국립재난안전연구원은 비정형 빅데이터에 숨어있는 재난안전 정보를 맞춤형으로 탐색하여 재난이슈를 고찰할 수 있는 연구를 수행 중이며, 본 과업에서는 최신의 인공지능 기술을 도입하여 텍스트의 의미적 분석을 도모

Ⅲ. 연구목적
  1. 기계학습 기술 기반 재난안전 문서 자동분류를 위한 학습데이터 구축
  2. 재난안전 분류체계 기반 확률적 문서 분류 기술 개발: 기계학습
  3. 재난안전 정보 인식 및 문장 탐색/분류 방법 연구

Ⅳ. 연구내용
  1. 기계학습 기술 기반 재난안전 문서 자동분류를 위한 학습데이터 구축
    가. 재난안전 문서 분류체계 구축 지원
      - 재난 및 안전관리 기본법에 정의되어 있는 자연재난 및 사회재난을 포함하고, 안전사고 및 안전부패 등을 탐색범위에 반영될 수 있는 맞춤형 문서 분류 체계 구축을 지원
    나. 재난안전 유형별 문서 자동분류를 위한 기계학습용 학습데이터 구축
      - 딥러닝(Deep Learning)을 비롯한 기계학습 기술을 기반으로 문서를 학습하고 자동으로 분류하기 위한 학습데이터를 구축
      - 이때, 구축되는 학습데이터는 국립재난안전연구원에서 제공하는 정보 분류체계를 따름
  2. 재난안전 분류체계 기반 확률적 문서 분류 기술 개발: 기계학습
    가. 기계학습 기술 적용을 위한 워드임베딩(단어벡터 등) 구축->참값으로 판단된 뉴스 만으로 워드벡터 생성
      - 효율적으로 문서를 학습하여 재난안전 정보 분류체계 기반으로 문서를 자동으로 분류하 위한 단어의 의미적, 형태적, 구문적 특성 등을 반영한 워드임베딩 구축 및 문서 벡터화 연구
    나. CNN 및 RNN등과 같은 딥러닝 기술을 적용한 재난안전 문서 자동 분류 기술 개발: 현업 적용 가능한 성능
      - 최신의 딥러닝 기술을 적용하여 문서를 자동으로 학습하고 분류할 수 있는 분류기 개발
      - 정오 분류된 문장들을 3~4 기계학습 방법에 인풋자료로 활용하여 재현성 확인
      - 정으로 분류된 문장들과 랜덤한게 일반뉴스에서 뽑힌 문장들을 정오 데이터로 활용하여 3~4개 기계학습 적용
      - 기계학습으로 학습 및 분류가 불가능한 재난안전 정보 유형의 경우, 전통 적인 방법(키워드 기반 등)을 적용한 분류기 개발, 키워드 출현 기반 확률: 참값 문서 기반
    다. 개발된 문서 자동 분류기를 이용한 문서 자동 분류 및 저장
      - 개발된 문서 자동 분류기를 이용하여 국립재난안전연구원에서 제시하는 문서를 자동으로 분류하여 저장
  3. 재난안전 정보 인식 및 문장 탐색/분류 방안 연구
    가. 재난안전 정보추출을 위한 문서 내 주요문장 탐색 방안 연구
      - 문서 내 재난안전사고의 발생, 피해, 대책 등과 같은 재난안전 핵심정보를 표현하는 주요문장을 탐색하여 정보를 구조화할 수 있는 방법에 대한 연구 수행2~3개 정도 방법을 적용하여 표로 비교

Ⅴ. 주요 연구결과
  1. 재난안전 도메인 문서 자동분류를 위한 기계학습용 학습데이터
  2. 기계학습 기술 적용을 위한 워드임베딩(단어벡터 등)
  3. 기계학습 기반 재난안전 문서 자동분류기
  4. 재난안전 문서 내 주요 문장 탐색 방안 보고서
조회수 240
목록