[파이썬] 웹 문서에서 XML 데이터 읽기와 처리
·
Python/Basic
먼저 코드에 들어가기에 앞서 파서와 파싱에 대해 설명하겠습니다. 파서(Parser) & 파싱(Parsing) 파서(parser)란 주어진 문서나 데이터를 읽고 해석하는 프로그램 또는 모듈을 가리킵니다. XML 파서는 주로 XML 형식으로 작성된 문서를 읽고 그 구조를 이해하며, 문서를 분석하여 데이터를 추출하는 데 사용됩니다. XML 문서는 일반적으로 텍스트 기반의 구조를 가지고 있으며, 이를 파싱(parsing)한다는 것은 이러한 텍스트 기반의 문서를 읽고, 데이터를 해석하고 구조화하는 과정을 의미합니다. 파싱을 통해 XML 파서가 XML 문서를 읽고 그 구조를 이해하여 데이터를 추출하고 사용할 수 있습니다. XML 파서는 XML 문서를 읽어와서 그 내부의 태그, 속성, 텍스트 등을 인식하고 이를 내부..
[파이썬] Pandas로 파일 읽기
·
Python/Basic
1. CSV 파일 읽기 Pandas의 read_csv() 함수를 사용하여 로컬 파일 및 웹에서 CSV 파일을 읽을 수 있습니다. read_csv() 함수를 이용하여 CSV 파일을 읽을 때 구분자를 지정하거나, 헤더 없는 파일을 읽을 수 있습니다. 2. 텍스트 파일 읽기 read_table() 함수를 이용하여 텍스트 파일을 읽을 수 있습니다. 정규표현식을 사용하여 공백을 구분자로 지정하거나, 특정 행을 건너뛸수 있습니다. 3. 고정폭 텍스트 파일 읽기 read_fwf() 함수를 사용하여 고정폭 텍스트 파일을 읽을 수 있습니다. widths 옵션을 사용하여 각 열의 폭을 지정할 수 있습니다. 4. 대용량 데이터 처리 read_csv() 함수의 chunksize 옵션을 사용하여 대용량 데이터를 묶음 단위로 처..
[파이썬] Pandas
·
Python/Basic
Pandas란? Pandas(판다스)는 파이썬의 데이터 조작 및 분석을 위한 강력한 라이브러리입니다. 주로 데이터를 처리하고 분석하는 데 사용되며, 고수준의 자료구조와 다양한 데이터 조작 도구를 제공합니다. 주로 시계열 데이터나 표 형태의 데이터를 다루는 데 유용합니다. 특징 데이터 구조: Series(1차원 배열)와 DataFrame(2차원 표 형태의 데이터 구조)를 제공하여 데이터 조작이 용이합니다. 데이터 조작: 누락된 데이터 처리, 데이터 필터링, 그룹화, 병합, 피벗 등 다양한 데이터 조작이 가능합니다. 데이터 시각화: Matplotlib와 함께 사용하여 데이터 시각화를 수행할 수 있습니다. 데이터 입출력: 다양한 파일 형식(CSV, Excel, JSON 등)에서 데이터를 읽고 쓰는 기능을 제공..
richpotato
'pandas' 태그의 글 목록