카테고리 없음
test
Tamii
2020. 12. 26. 20:35
반응형
train.tsv / test.tsv 간략한 개요
test.tsv와 train.tsv 데이터 불러오기
import pandas as pd testset = pd.read_csv("./test.tsv",delimiter='\t') testset trainset = pd.read_csv("./train.tsv",delimiter='\t') trainset
: news와 summary 열로 이루어져 있음
input data 데이터 길이와 평균 길이
train data
input data와 ouput data
trainset_news_length = trainset['news'].apply(len) trainset_summary_length = trainset['summary'].apply(len) import numpy as np print('train input 문장 길이 최대 값: {}'.format(np.max(trainset_news_length))) print('train input 문장 길이 최소 값: {}'.format(np.min(trainset_news_length))) print('train input 문장 길이 평균 값: {:.2f}'.format(np.mean(trainset_news_length))) print('train input 문장 길이 표준편차: {:.2f}'.format(np.std(trainset_news_length))) print('train input 문장 길이 중간 값: {}'.format(np.median(trainset_news_length))) # 사분위의 대한 경우는 0~100 스케일로 되어있음 print('train input 문장 길이 제 1 사분위: {}'.format(np.percentile(trainset_news_length, 25))) print('train input 문장 길이 제 3 사분위: {}'.format(np.percentile(trainset_news_length, 75)))
train input 문장 길이 최대 값: 1957 train input 문장 길이 최소 값: 406 train input 문장 길이 평균 값: 968.97 train input 문장 길이 표준편차: 277.72 train input 문장 길이 중간 값: 896.0 train input 문장 길이 제 1 사분위: 747.0 train input 문장 길이 제 3 사분위: 1129.0
print('train ouput 문장 길이 최대 값: {}'.format(np.max(trainset_summary_length))) print('train ouput 문장 길이 최소 값: {}'.format(np.min(trainset_summary_length))) print('train ouput 문장 길이 평균 값: {:.2f}'.format(np.mean(trainset_summary_length))) print('train ouput 문장 길이 표준편차: {:.2f}'.format(np.std(trainset_summary_length))) print('train ouput 문장 길이 중간 값: {}'.format(np.median(trainset_summary_length))) # 사분위의 대한 경우는 0~100 스케일로 되어있음 print('train ouput 문장 길이 제 1 사분위: {}'.format(np.percentile(trainset_summary_length, 25))) print('train ouput 문장 길이 제 3 사분위: {}'.format(np.percentile(trainset_summary_length, 75))) ```
train ouput 문장 길이 최대 값: 498 train ouput 문장 길이 최소 값: 13 train ouput 문장 길이 평균 값: 117.35 train ouput 문장 길이 표준편차: 35.49 train ouput 문장 길이 중간 값: 113.0 train ouput 문장 길이 제 1 사분위: 92.0 train ouput 문장 길이 제 3 사분위: 138.0` ```
2. test data
input data와 ouput data
testset_news_length = testset['news'].apply(len) testset_summary_length = testset['summary'].apply(len) print('test input 문장 길이 최대 값: {}'.format(np.max(testset_news_length))) print('test input 문장 길이 최소 값: {}'.format(np.min(testset_news_length))) print('test input 문장 길이 평균 값: {:.2f}'.format(np.mean(testset_news_length))) print('test input 문장 길이 표준편차: {:.2f}'.format(np.std(testset_news_length))) print('test input 문장 길이 중간 값: {}'.format(np.median(testset_news_length))) # 사분위의 대한 경우는 0~100 스케일로 되어있음 print('train input 문장 길이 제 1 사분위: {}'.format(np.percentile(testset_news_length, 25))) print('train input 문장 길이 제 3 사분위: {}'.format(np.percentile(testset_news_length, 75)))
test input 문장 길이 최대 값: 1963 test input 문장 길이 최소 값: 518 test input 문장 길이 평균 값: 961.46 test input 문장 길이 표준편차: 273.40 test input 문장 길이 중간 값: 887.0 train input 문장 길이 제 1 사분위: 743.0 train input 문장 길이 제 3 사분위: 1116.0
`print('test ouput 문장 길이 최대 값: {}'.format(np.max(testset_summary_length))) print('test ouput 문장 길이 최소 값: {}'.format(np.min(testset_summary_length))) print('test ouput 문장 길이 평균 값: {:.2f}'.format(np.mean(testset_summary_length))) print('test ouput 문장 길이 표준편차: {:.2f}'.format(np.std(testset_summary_length))) print('test ouput 문장 길이 중간 값: {}'.format(np.median(testset_summary_length))) # 사분위의 대한 경우는 0~100 스케일로 되어있음 print('test ouput 문장 길이 제 1 사분위: {}'.format(np.percentile(testset_summary_length, 25))) print('test ouput 문장 길이 제 3 사분위: {}'.format(np.percentile(testset_summary_length, 75)))` ```
`test ouput 문장 길이 최대 값: 362 test ouput 문장 길이 최소 값: 10 test ouput 문장 길이 평균 값: 117.57 test ouput 문장 길이 표준편차: 35.69 test ouput 문장 길이 중간 값: 114.0 test ouput 문장 길이 제 1 사분위: 92.0 test ouput 문장 길이 제 3 사분위: 138.0````