그레이먼지 2022. 11. 20. 22:03

pprint = pretty print

 

Series.tolist( )

.to_dict( )  (list comprehension 으로 바꾸는 것보다 이게 더 접근성이 좋지 않나 + numpy쓰는)

 

.readline( )

.readlines( ) 도 있음! 다만 CPU 터질 수 있으니 자제하는 편

 

chunksize 너무 쪼개도 좋지 않을 수 있다 http://acepor.github.io/2017/08/03/using-chunksize/

 

Using Chunksize in Pandas

Yet another blog about NLP, machine learning and programming

acepor.github.io

 

pd.read_parquet( ) 아주 큰 데이터셋 ex)64GB,, 도 불러올 수 있음 파케이, 파큇

https://aispiration.com/data-science/ds-manip-multiple-data.html

 

drop_duplicates(, keep='first', 'last')  중복된 게 여러개 일 때, 첫 번 째 것을 남길지, 마지막 걸 남길지 결정하는 요소