Tamii 2020. 12. 26. 20:35
반응형

train.tsv / test.tsv 간략한 개요

  • test.tsv와 train.tsv 데이터 불러오기

    import pandas as pd
    testset = pd.read_csv("./test.tsv",delimiter='\t')
    testset
    ​
    trainset = pd.read_csv("./train.tsv",delimiter='\t')
    trainset


    image-20201226201441046

    : news와 summary 열로 이루어져 있음


    input data 데이터 길이와 평균 길이

  1. train data

    • input data와 ouput data

      trainset_news_length = trainset['news'].apply(len)
      trainset_summary_length = trainset['summary'].apply(len)
      
      import numpy as np
      
      print('train input 문장 길이 최대 값: {}'.format(np.max(trainset_news_length)))
      print('train input 문장 길이 최소 값: {}'.format(np.min(trainset_news_length)))
      print('train input 문장 길이 평균 값: {:.2f}'.format(np.mean(trainset_news_length)))
      print('train input 문장 길이 표준편차: {:.2f}'.format(np.std(trainset_news_length)))
      print('train input 문장 길이 중간 값: {}'.format(np.median(trainset_news_length)))
      # 사분위의 대한 경우는 0~100 스케일로 되어있음
      print('train input 문장 길이 제 1 사분위: {}'.format(np.percentile(trainset_news_length, 25)))
      print('train input 문장 길이 제 3 사분위: {}'.format(np.percentile(trainset_news_length, 75)))

      train input 문장 길이 최대 값: 1957
      train input 문장 길이 최소 값: 406
      train input 문장 길이 평균 값: 968.97
      train input 문장 길이 표준편차: 277.72
      train input 문장 길이 중간 값: 896.0
      train input 문장 길이 제 1 사분위: 747.0
      train input 문장 길이 제 3 사분위: 1129.0

print('train ouput 문장 길이 최대 값: {}'.format(np.max(trainset_summary_length))) print('train ouput 문장 길이 최소 값: {}'.format(np.min(trainset_summary_length))) print('train ouput 문장 길이 평균 값: {:.2f}'.format(np.mean(trainset_summary_length))) print('train ouput 문장 길이 표준편차: {:.2f}'.format(np.std(trainset_summary_length))) print('train ouput 문장 길이 중간 값: {}'.format(np.median(trainset_summary_length))) # 사분위의 대한 경우는 0~100 스케일로 되어있음 print('train ouput 문장 길이 제 1 사분위: {}'.format(np.percentile(trainset_summary_length, 25))) print('train ouput 문장 길이 제 3 사분위: {}'.format(np.percentile(trainset_summary_length, 75))) ```
​  

train ouput 문장 길이 최대 값: 498 train ouput 문장 길이 최소 값: 13 train ouput 문장 길이 평균 값: 117.35 train ouput 문장 길이 표준편차: 35.49 train ouput 문장 길이 중간 값: 113.0 train ouput 문장 길이 제 1 사분위: 92.0 train ouput 문장 길이 제 3 사분위: 138.0` ```



2. test data

  • input data와 ouput data

    testset_news_length = testset['news'].apply(len)
    testset_summary_length = testset['summary'].apply(len)
    
    print('test input 문장 길이 최대 값: {}'.format(np.max(testset_news_length)))
    print('test input 문장 길이 최소 값: {}'.format(np.min(testset_news_length)))
    print('test input 문장 길이 평균 값: {:.2f}'.format(np.mean(testset_news_length)))
    print('test input 문장 길이 표준편차: {:.2f}'.format(np.std(testset_news_length)))
    print('test input 문장 길이 중간 값: {}'.format(np.median(testset_news_length)))
    # 사분위의 대한 경우는 0~100 스케일로 되어있음
    print('train input 문장 길이 제 1 사분위: {}'.format(np.percentile(testset_news_length, 25)))
    print('train input 문장 길이 제 3 사분위: {}'.format(np.percentile(testset_news_length, 75)))

    test input 문장 길이 최대 값: 1963
    test input 문장 길이 최소 값: 518
    test input 문장 길이 평균 값: 961.46
    test input 문장 길이 표준편차: 273.40
    test input 문장 길이 중간 값: 887.0
    train input 문장 길이 제 1 사분위: 743.0
    train input 문장 길이 제 3 사분위: 1116.0

`print('test ouput 문장 길이 최대 값: {}'.format(np.max(testset_summary_length))) print('test ouput 문장 길이 최소 값: {}'.format(np.min(testset_summary_length))) print('test ouput 문장 길이 평균 값: {:.2f}'.format(np.mean(testset_summary_length))) print('test ouput 문장 길이 표준편차: {:.2f}'.format(np.std(testset_summary_length))) print('test ouput 문장 길이 중간 값: {}'.format(np.median(testset_summary_length))) # 사분위의 대한 경우는 0~100 스케일로 되어있음 print('test ouput 문장 길이 제 1 사분위: {}'.format(np.percentile(testset_summary_length, 25))) print('test ouput 문장 길이 제 3 사분위: {}'.format(np.percentile(testset_summary_length, 75)))`  ```
​  

`test ouput 문장 길이 최대 값: 362 test ouput 문장 길이 최소 값: 10 test ouput 문장 길이 평균 값: 117.57 test ouput 문장 길이 표준편차: 35.69 test ouput 문장 길이 중간 값: 114.0 test ouput 문장 길이 제 1 사분위: 92.0 test ouput 문장 길이 제 3 사분위: 138.0````