Unit 2 Data Gathering

…….

Uploaded by

LIKITH KUMAR.S

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

20 views

Unit 2 Data Gathering

…….

Uploaded by

LIKITH KUMAR.S

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 14

Unit 2

Data Gathering
Meaning of Data Gathering:

▪ Data gathering refers to the process of collecting relevant

information from various sources for analysis, decision-
making, or research purposes. It is the foundational step in
data analysis and involves identifying, measuring, and
collecting accurate data to answer specific questions or
solve problems.
Types of Data:

▪ Based on Source:
▪ Primary Data: Collected directly from the source or original data through methods like surveys, interviews, and experiments.
▪ Secondary Data: Pre-existing data gathered from other sources like reports, government publications, and databases.
▪ Based on Format:
▪ Structured Data: Organized in a defined manner (e.g., rows and columns in databases or spreadsheets) like numerical data.
▪ Unstructured Data: Lacks a predefined structure (e.g., text, images, audio, and video files) such as social media posts or
emails.
▪ Semi-structured Data: Contains elements of both structured and unstructured data (e.g., XML, JSON formats).
▪ Based on Nature:
▪ Qualitative Data: Descriptive data that includes opinions, narratives, and observations (e.g., interviews, open-ended survey
responses).
▪ Quantitative Data: Numeric data that can be measured or counted (e.g., sales figures, temperature readings).
Methods of Data Gathering:
1. Surveys and Questionnaires:
▪ Collect data directly from individuals using a series of questions.

▪ Can be conducted online, via email, or in person.

▪ Best for gathering primary data on opinions, preferences, and behaviors.

2. Interviews:

▪ One-on-one or group conversations where responses to questions are recorded.

▪ Useful for obtaining detailed qualitative insights.

3. Observations:

▪ Collecting data by observing behaviors or events in real time.

▪ Suitable for studying natural environments or behaviors.

▪ Experiments:
▪ Controlled trials where variables are manipulated to observe outcomes.
▪ Used to gather primary data in scientific or research settings.
▪ Existing Databases:
▪ Leveraging data that has already been collected and stored in public or private databases.
▪ Typically used for secondary data analysis
▪ Web Scraping:
▪ Automated methods to extract data from websites and online sources.
▪ Commonly used for gathering data from social media or e-commerce
websites.
Data Formats:

▪ Text Files (CSV, TXT): Often used for tabular data.

▪ Spreadsheets (XLS, XLSX): Frequently used for data analysis
and storage.
▪ Databases (SQL, NoSQL): Relational and non-relational data
storage.
▪ JSON/XML: Common formats for web-based data exchange.
▪ Images, Audio, and Video: Multimedia formats for
unstructured data.
Parsing and Transformation:

▪ Parsing: Refers to interpreting and converting raw data into a more

structured format. It is particularly useful when handling text or
semi-structured data formats (e.g., parsing JSON or XML files).
▪ Transformation: Involves changing the format, structure, or values
of the data to make it suitable for analysis. This could include
operations like:
▪ Aggregation (summarizing data),
▪ Normalization (scaling values to a common range),
▪ Data type conversion (e.g., changing strings to numbers),
▪ Merging multiple data sources.
Data Scalability and Real-Time
Issues:

▪ Scalability Issues:
▪ Volume: Large datasets (terabytes or more) may require distributed storage and processing.
▪ Velocity: High-speed data generation (e.g., real-time financial transactions) demands fast processing.
▪ Variety: Handling various data formats (structured, unstructured, semi-structured) across different
systems.
▪ Real-Time Data Issues:
▪ Latency: Delays in data collection, transmission, or processing can affect real-time decision-making.
▪ Data Consistency: Real-time data often comes from multiple sources, and ensuring consistent updates
can be difficult.
▪ Infrastructure: Real-time data systems require robust infrastructure, including memory, processors, and
networking capabilities.
Data Cleaning
▪ Data cleaning involves detecting and correcting errors in the dataset to ensure accuracy,
completeness, and consistency. It is crucial for maintaining the integrity of the data.
▪ Consistency Checking:
▪ Identifying and rectifying inconsistencies in the data, such as:
– Different units of measurement,
– Conflicting data across sources,
– Typographical errors
▪ Handling Heterogeneous Data:
▪ Heterogeneous data refers to data collected from different formats, types, and sources. Cleaning such data
requires:
– Standardization of formats,
– Integration of various datasets,
– Handling different data structures.
▪ Handling Missing Data:
▪ Common approaches to dealing with missing data
include:
– Imputation: Filling missing values with mean, median, or other
statistical methods.
– Removal: Deleting rows or columns with missing data if they are
insignificant.
– Prediction: Using machine learning algorithms to predict
missing values based on available data.
What Kind of Data Errors Does Data
Cleaning Fix?

Data cleaning addresses a wide range of errors in datasets,

ensuring that the data is accurate, reliable, and suitable for
analysis and decision making. Some common data errors often
found while cleaning data include:
▪ Duplicate records: These occur when the same data entry is
mistakenly repeated in a dataset, leading to redundancy and
potential inaccuracies in analysis.
▪ Inaccurate data: This refers to data entries that contain
incorrect values, such as typographical errors, wrong numerical
entries, or syntax errors. Inaccurate data can lead to misleading
or erroneous insights and conclusions.
▪ Missing or incomplete data: This occurs when certain data
fields are left blank or contain null values, which can affect the
overall quality and reliability of the dataset. Missing or incomplete
data can result in biased or incomplete analysis and decision
making.
▪ Inconsistent data: Inconsistencies can arise when data is
formatted differently across various sources or systems, leading
to discrepancies in values, units, or terminology. Inconsistent data
can make it difficult to accurately analyze and interpret the
information, potentially causing confusion and misinterpretation.
By identifying and addressing these common data errors, data
cleaning ensures that the dataset is of high quality and suitable for
use in various applications, such as business intelligence, analytics,
and decision making.
Data Transformation and
Segmentation:

Data Transformation:
▪ Normalization/Standardization: Scaling data to a specific range or mean for uniformity.
▪ Encoding: Converting categorical data into numerical formats (e.g., one-hot encoding for
machine learning).
▪ Aggregation: Summarizing data, such as calculating the total or average of a group.
Data Segmentation:
▪ Dividing data into meaningful segments or subsets based on specific criteria (e.g., customer
demographics, time periods).
▪ Segmentation is used for targeted analysis and improves focus on particular groups or patterns.
▪ Techniques like clustering (k-means, hierarchical clustering) are used to segment large datasets.

Comptia Data+ Da0-001
No ratings yet
Comptia Data+ Da0-001
10 pages
Name - Data - Driven Decisions For Business
100% (1)
Name - Data - Driven Decisions For Business
23 pages
SPSS Statistics 20 Modules Specifications
No ratings yet
SPSS Statistics 20 Modules Specifications
5 pages
Common Analytics Interview Questions
No ratings yet
Common Analytics Interview Questions
4 pages
Math211101020
No ratings yet
Math211101020
12 pages
Unit 2- Data Representation
No ratings yet
Unit 2- Data Representation
44 pages
Unit 1
No ratings yet
Unit 1
36 pages
chapter-1 Introduction to Data Analytics
No ratings yet
chapter-1 Introduction to Data Analytics
34 pages
Rudra Bhatt Data
No ratings yet
Rudra Bhatt Data
9 pages
Chaper 3 FoDS - Copy
No ratings yet
Chaper 3 FoDS - Copy
127 pages
Data_Mining_Warehousing Unit II
No ratings yet
Data_Mining_Warehousing Unit II
39 pages
Adm Unit - 1
No ratings yet
Adm Unit - 1
62 pages
Data mining 3
No ratings yet
Data mining 3
31 pages
Bit
No ratings yet
Bit
4 pages
Big Data Analytics
No ratings yet
Big Data Analytics
14 pages
Dmml Notes
No ratings yet
Dmml Notes
89 pages
2-UNIT1
No ratings yet
2-UNIT1
6 pages
Computer Work
No ratings yet
Computer Work
17 pages
Unit 2 FDS
No ratings yet
Unit 2 FDS
13 pages
Unit 2
No ratings yet
Unit 2
58 pages
Coursera - Data Analytics - Course 3
No ratings yet
Coursera - Data Analytics - Course 3
14 pages
Module 4
No ratings yet
Module 4
35 pages
CH 2 Data Science
No ratings yet
CH 2 Data Science
28 pages
Understanding Data
No ratings yet
Understanding Data
8 pages
Stream Concepts
No ratings yet
Stream Concepts
12 pages
Module 1 & 2 DAEH QB
No ratings yet
Module 1 & 2 DAEH QB
69 pages
4.0 Introduction to Data
No ratings yet
4.0 Introduction to Data
16 pages
DBMS_Unit1_BCA_Notes
No ratings yet
DBMS_Unit1_BCA_Notes
41 pages
CH-2 Data Science
No ratings yet
CH-2 Data Science
45 pages
Unit 2
No ratings yet
Unit 2
11 pages
Datawarehouse&Data mining_ALL
No ratings yet
Datawarehouse&Data mining_ALL
46 pages
Processing Data
No ratings yet
Processing Data
4 pages
What Is Data Warehouse
No ratings yet
What Is Data Warehouse
9 pages
Dv Chapter 2
No ratings yet
Dv Chapter 2
36 pages
DataAnalytics-Chap-1
No ratings yet
DataAnalytics-Chap-1
36 pages
Data Analytics
No ratings yet
Data Analytics
12 pages
Dataminig ch1 30006
No ratings yet
Dataminig ch1 30006
4 pages
Unit 1 Notes
No ratings yet
Unit 1 Notes
9 pages
Unit 1 Data Mining
No ratings yet
Unit 1 Data Mining
15 pages
468 - DM Bok 2
No ratings yet
468 - DM Bok 2
157 pages
Chapter 2 Introduction To Data Science
No ratings yet
Chapter 2 Introduction To Data Science
50 pages
Unit 1 Introduction To Data Analysis
No ratings yet
Unit 1 Introduction To Data Analysis
10 pages
211101088math - Data Ass 2
No ratings yet
211101088math - Data Ass 2
12 pages
Chapter 2 - Data Science
No ratings yet
Chapter 2 - Data Science
57 pages
Data collection, Analysis & Interpretations-1
No ratings yet
Data collection, Analysis & Interpretations-1
34 pages
Data Mining and Warehouse
No ratings yet
Data Mining and Warehouse
30 pages
EI - Unit I
No ratings yet
EI - Unit I
13 pages
Big Data Lec5
No ratings yet
Big Data Lec5
37 pages
Data Types and Sources
No ratings yet
Data Types and Sources
36 pages
Research Methodology (Data Analysis)
No ratings yet
Research Methodology (Data Analysis)
7 pages
Unit 1 - DATA ANALYTICS - KIT-601 - AKTU
No ratings yet
Unit 1 - DATA ANALYTICS - KIT-601 - AKTU
24 pages
Document (1)
No ratings yet
Document (1)
10 pages
DWDM fresh notes for Unit 1,Unit 2 ,Unit 3
No ratings yet
DWDM fresh notes for Unit 1,Unit 2 ,Unit 3
54 pages
Dw&bi PR2,3
No ratings yet
Dw&bi PR2,3
6 pages
Introduction to Data Mining and Data Warehousing
No ratings yet
Introduction to Data Mining and Data Warehousing
2 pages
DA(Unit-1)
No ratings yet
DA(Unit-1)
45 pages
Unit-01 Varun Singh
No ratings yet
Unit-01 Varun Singh
34 pages
Unit 2
No ratings yet
Unit 2
23 pages
DWDM U3
No ratings yet
DWDM U3
12 pages
IDS_sem ans unit 1
No ratings yet
IDS_sem ans unit 1
10 pages
Chapter 2-2
No ratings yet
Chapter 2-2
34 pages
Big Data Analytics Unit Test-I Answers Bank
No ratings yet
Big Data Analytics Unit Test-I Answers Bank
10 pages
Database Management System
From Everand
Database Management System
Manish Soni
No ratings yet
A Comprehensive Guide To Data Exploration
100% (1)
A Comprehensive Guide To Data Exploration
18 pages
Download (Ebook) Measures of Spirituality/Religiosity- Description of Concepts and Validation of Instruments by Arndt Büssing (editor) ISBN 9783038977582, 9783038977599, 3038977586, 3038977594 ebook All Chapters PDF
100% (3)
Download (Ebook) Measures of Spirituality/Religiosity- Description of Concepts and Validation of Instruments by Arndt Büssing (editor) ISBN 9783038977582, 9783038977599, 3038977586, 3038977594 ebook All Chapters PDF
81 pages
Making My Future Work Evaluation of A New College and Career Readiness Curriculum
No ratings yet
Making My Future Work Evaluation of A New College and Career Readiness Curriculum
26 pages
Innovative Strategies Statistical Solutions and Simulations for Modern Clinical Trials 1st Edition Mark Chang (Author) All Chapters Instant Download
No ratings yet
Innovative Strategies Statistical Solutions and Simulations for Modern Clinical Trials 1st Edition Mark Chang (Author) All Chapters Instant Download
55 pages
Microsoft Test-DP-100
100% (1)
Microsoft Test-DP-100
50 pages
Factsheet SAS VDD
No ratings yet
Factsheet SAS VDD
4 pages
Wilson, Roscoe - 2020 - Automated Writing Evaluation and Feedback Multiple Metrics of Efficacy
No ratings yet
Wilson, Roscoe - 2020 - Automated Writing Evaluation and Feedback Multiple Metrics of Efficacy
39 pages
DSBDA Sample Problem Statements
No ratings yet
DSBDA Sample Problem Statements
3 pages
Artike Baru 1
No ratings yet
Artike Baru 1
16 pages
Jurnal Cluster Randomised CT Dan CONSORT (Shelly, Yuliarni, Anita, Dwi Mayang, Dicky, Alamsyah)
No ratings yet
Jurnal Cluster Randomised CT Dan CONSORT (Shelly, Yuliarni, Anita, Dwi Mayang, Dicky, Alamsyah)
11 pages
Stakeholder Tracking and Analysis: The Reptrak® System For Measuring Corporate Reputation
No ratings yet
Stakeholder Tracking and Analysis: The Reptrak® System For Measuring Corporate Reputation
23 pages
C-42 Exp 3 Sma
No ratings yet
C-42 Exp 3 Sma
8 pages
Expert Systems With Applications Chakraborty Et Al 2021
No ratings yet
Expert Systems With Applications Chakraborty Et Al 2021
11 pages
Titanic DS Callenge
No ratings yet
Titanic DS Callenge
24 pages
Ransomware Detection and Classification Using Ensemble Learning: A Random Forest Tree Approach
No ratings yet
Ransomware Detection and Classification Using Ensemble Learning: A Random Forest Tree Approach
7 pages
Online Fraud Detection
No ratings yet
Online Fraud Detection
22 pages
SPSS Statistics 17.0: Companion Has Also Been Published by Prentice Hall. It Includes Overviews of The
100% (2)
SPSS Statistics 17.0: Companion Has Also Been Published by Prentice Hall. It Includes Overviews of The
30 pages
Tutorial: Getting Started With MART in R: Jerome H. Friedman Stanford University May 13, 2002
No ratings yet
Tutorial: Getting Started With MART in R: Jerome H. Friedman Stanford University May 13, 2002
24 pages
Lecture 03-Handling missing values in RCBD
No ratings yet
Lecture 03-Handling missing values in RCBD
24 pages
AI351 Lecture 1 - Data Preprocessing
No ratings yet
AI351 Lecture 1 - Data Preprocessing
8 pages
Clustering Approach in Diabetes Dataset: Submitted By: Submitted To: Dr. Mridu Sahu
No ratings yet
Clustering Approach in Diabetes Dataset: Submitted By: Submitted To: Dr. Mridu Sahu
20 pages
Combining Physical and Cognitive Training To Improve Kindergarten Children's Executive Functions.
No ratings yet
Combining Physical and Cognitive Training To Improve Kindergarten Children's Executive Functions.
14 pages
3B. Kuantitatif - Data Preparation (Malhotra 14)
No ratings yet
3B. Kuantitatif - Data Preparation (Malhotra 14)
28 pages
4129Missing Data A Gentle Introduction 1st Edition Patrick E. Mcknight Phd - The ebook in PDF format with all chapters is ready for download
100% (1)
4129Missing Data A Gentle Introduction 1st Edition Patrick E. Mcknight Phd - The ebook in PDF format with all chapters is ready for download
79 pages
Jurnal Neuro
No ratings yet
Jurnal Neuro
12 pages
IV Unit Fds
No ratings yet
IV Unit Fds
16 pages
Climate Change Worries and Fertility Intentions. Insights From Three EU Countries - Preprint
No ratings yet
Climate Change Worries and Fertility Intentions. Insights From Three EU Countries - Preprint
28 pages