test

카테고리 없음

test

Tamii 2020. 12. 26. 20:35

train.tsv / test.tsv 간략한 개요

test.tsv와 train.tsv 데이터 불러오기
```
import pandas as pd
testset = pd.read_csv("./test.tsv",delimiter='\t')
testset

trainset = pd.read_csv("./train.tsv",delimiter='\t')
trainset
```
: news와 summary 열로 이루어져 있음

input data 데이터 길이와 평균 길이

train data

input data와 ouput data

trainset_news_length = trainset['news'].apply(len)
trainset_summary_length = trainset['summary'].apply(len)

import numpy as np

print('train input 문장 길이 최대 값: {}'.format(np.max(trainset_news_length)))
print('train input 문장 길이 최소 값: {}'.format(np.min(trainset_news_length)))
print('train input 문장 길이 평균 값: {:.2f}'.format(np.mean(trainset_news_length)))
print('train input 문장 길이 표준편차: {:.2f}'.format(np.std(trainset_news_length)))
print('train input 문장 길이 중간 값: {}'.format(np.median(trainset_news_length)))
# 사분위의 대한 경우는 0~100 스케일로 되어있음
print('train input 문장 길이 제 1 사분위: {}'.format(np.percentile(trainset_news_length, 25)))
print('train input 문장 길이 제 3 사분위: {}'.format(np.percentile(trainset_news_length, 75)))

train input 문장 길이 최대 값: 1957
train input 문장 길이 최소 값: 406
train input 문장 길이 평균 값: 968.97
train input 문장 길이 표준편차: 277.72
train input 문장 길이 중간 값: 896.0
train input 문장 길이 제 1 사분위: 747.0
train input 문장 길이 제 3 사분위: 1129.0

print('train ouput 문장 길이 최대 값: {}'.format(np.max(trainset_summary_length))) print('train ouput 문장 길이 최소 값: {}'.format(np.min(trainset_summary_length))) print('train ouput 문장 길이 평균 값: {:.2f}'.format(np.mean(trainset_summary_length))) print('train ouput 문장 길이 표준편차: {:.2f}'.format(np.std(trainset_summary_length))) print('train ouput 문장 길이 중간 값: {}'.format(np.median(trainset_summary_length))) # 사분위의 대한 경우는 0~100 스케일로 되어있음 print('train ouput 문장 길이 제 1 사분위: {}'.format(np.percentile(trainset_summary_length, 25))) print('train ouput 문장 길이 제 3 사분위: {}'.format(np.percentile(trainset_summary_length, 75))) ```

train ouput 문장 길이 최대 값: 498 train ouput 문장 길이 최소 값: 13 train ouput 문장 길이 평균 값: 117.35 train ouput 문장 길이 표준편차: 35.49 train ouput 문장 길이 중간 값: 113.0 train ouput 문장 길이 제 1 사분위: 92.0 train ouput 문장 길이 제 3 사분위: 138.0` ```

2. test data

input data와 ouput data

testset_news_length = testset['news'].apply(len)
testset_summary_length = testset['summary'].apply(len)

print('test input 문장 길이 최대 값: {}'.format(np.max(testset_news_length)))
print('test input 문장 길이 최소 값: {}'.format(np.min(testset_news_length)))
print('test input 문장 길이 평균 값: {:.2f}'.format(np.mean(testset_news_length)))
print('test input 문장 길이 표준편차: {:.2f}'.format(np.std(testset_news_length)))
print('test input 문장 길이 중간 값: {}'.format(np.median(testset_news_length)))
# 사분위의 대한 경우는 0~100 스케일로 되어있음
print('train input 문장 길이 제 1 사분위: {}'.format(np.percentile(testset_news_length, 25)))
print('train input 문장 길이 제 3 사분위: {}'.format(np.percentile(testset_news_length, 75)))

test input 문장 길이 최대 값: 1963
test input 문장 길이 최소 값: 518
test input 문장 길이 평균 값: 961.46
test input 문장 길이 표준편차: 273.40
test input 문장 길이 중간 값: 887.0
train input 문장 길이 제 1 사분위: 743.0
train input 문장 길이 제 3 사분위: 1116.0

`print('test ouput 문장 길이 최대 값: {}'.format(np.max(testset_summary_length))) print('test ouput 문장 길이 최소 값: {}'.format(np.min(testset_summary_length))) print('test ouput 문장 길이 평균 값: {:.2f}'.format(np.mean(testset_summary_length))) print('test ouput 문장 길이 표준편차: {:.2f}'.format(np.std(testset_summary_length))) print('test ouput 문장 길이 중간 값: {}'.format(np.median(testset_summary_length))) # 사분위의 대한 경우는 0~100 스케일로 되어있음 print('test ouput 문장 길이 제 1 사분위: {}'.format(np.percentile(testset_summary_length, 25))) print('test ouput 문장 길이 제 3 사분위: {}'.format(np.percentile(testset_summary_length, 75)))`  ```

`test ouput 문장 길이 최대 값: 362 test ouput 문장 길이 최소 값: 10 test ouput 문장 길이 평균 값: 117.57 test ouput 문장 길이 표준편차: 35.69 test ouput 문장 길이 중간 값: 114.0 test ouput 문장 길이 제 1 사분위: 92.0 test ouput 문장 길이 제 3 사분위: 138.0````

test

train.tsv / test.tsv 간략한 개요

input data 데이터 길이와 평균 길이