Cordiales Saludos

Comenzaremos transformando el tipo de dato de una columna. En esta oportunidad nos entregaron el registro de los pasajeros del titanic (con esta base de dato se realizan muchos análisis) tenemos un dato que recibimos (recordemos que siempre recibiremos datos en bruto, sin trabajar) como tipo object y debemos transformarlo a string.
Trabajaremos con el archivo del titanic en formato .CSV que tienes a disposicón en el link donde está todo el ejercicio de hoy. Como siempre importamos la librería pandas y luego creamos el Data Frame. Ver Capture de Pantalla 24_01.
Capture de Pantalla 24_01

astype()
Con astype() podemos transformar fácilmente cualquier tipo de datos. En esta oportunidad tenemos al Dato Name como object y lo transformaremos a string. Nos conviene trasformarlo porque trabajaremos con algunas características o propiedades propias del tipo de dato string.
Para hacer la transformación lo realizamos con la siguiente línea de códico.
df['Name'] = df['Name'].astype("string")
Nótese en la Capture de Pantalla 24_02 tenemos el Dato Name como object y en la Capture de Pantalla 24_03 despues de hacer la tranaformación a través del astype el Dato name es ahora de tipo string.
Capture de Pantalla 24_02 | Capture de Pantalla 24_03 |
---|---|
![]() | ![]() |
Tratamiento de los datos tipo string
Este tema es de suma importancia para la limpieza de datos ya que nos permite trabajar con los datos tipos string en cuanto a contar el número de letras, dividir el string, concatenarlos, remplazar palabras, entre muchos otros métodos que podemos aprovechar para el análisis de una cadena de caracteres. En esta publicación abarcademos los siguientes métodos: len(), lower() capitalize(), upper(), count(), split() y replace(), tan sólo son los más comunes, si deseas profundizar podemos dirigirnos a la documentación oficial de pandas
len()
El método len() nos permite sumar el número de caracteres del string. Aquí se suman todos los caracteres, incluyendo signos y hasta los espacios entre palabras.
Debemos estar pendiente para el uso de todos los métodos anteponer str.
df['Name'].str.len()
Capture de Pantalla 24_04 | Capture de Pantalla 24_05 |
---|---|
![]() | ![]() |
lower()
El método lower() transforma toda la cadena de caracteres en minúsculas.
df['Name'].str.lower()
Capture de Pantalla 24_06 | Capture de Pantalla 24_06a |
---|---|
![]() | ![]() |
capitalize()
El método capitalize() transforma a mayúscula la primera letra de toda la cadena de caracteres.
df['Name'].str.capitalize()
Capture de Pantalla 24_07 | Capture de Pantalla 24_08 |
---|---|
![]() | ![]() |
upper()
El método upper() transforma a mayúscula toda la cadena de caracteres.
df['Name'].str.upper()
Capture de Pantalla 24_09 | Capture de Pantalla 24_10 |
---|---|
![]() | ![]() |
count()
El método count() cuanta el número de letras encontradas en el string. Debemos pasar (argumento) el caracter a contar. Nótese que solo cuenta las a minúscula. A no es igual a a.
El indice 4: Hirvonen, Mrs. Alexander (Helga E Lindqvist), tiene dos a
df.Name.str.count("a")
Capture de Pantalla 24_11 | Capture de Pantalla 24_12 |
---|---|
![]() | ![]() |
Una buena práctica si queremos contar una letra en particular sin importar si está en minuscula o mayúscula, es pasando todo el string a minúscula y contamos el número de letras. Lo podemos observar mejor en la siguiente línea de codigo. Notese que ahora: 4 Hirvonen, Mrs. Alexander (Helga E Lindqvist) tiene tres a.
df.Name.str.lower().str.count("a")
Capture de Pantalla 24_13 | Capture de Pantalla 24_14 |
---|---|
![]() | ![]() |
Aqui se realizó lo contrario, pasando todo el string a mayúscula y contamos el numero de letras A.
df.Name.str.upper().str.count("A")
Capture de Pantalla 24_15 | Capture de Pantalla 24_16 |
---|---|
![]() | ![]() |
split()
El método split() divide la cadena de caracteres, por palabras. Lo notamos en el Capture de Pantalla 24_18 la separación con comas: ,.
df['Name'].str.split()
Capture de Pantalla 24_17 | Capture de Pantalla 24_18 |
---|---|
![]() | ![]() |
replace()
El método replace() Reemplaza una palabra por otra.
df['Name'].str.replace('Kelly','XXXX')
Capture de Pantalla 24_19 | Capture de Pantalla 24_20 |
---|---|
![]() | ![]() |
Ver el Cuaderno completo con los ejercicios de hoy en deepnote.
Para quienes terminaron el Curso Gratis de Programación con python y para todos los interesados, ordené todas las publicaciones dedicadas a Data Science realizadas aquí en @hive, en una página web, para que tengan fácil acceso a cada entrada. La dirección es Python Cumanés (Data Science) y aquí la dirección de pythoncumanes
Una vez más los invito a practicar, practicar, practicar... Hasta la próxima entrega, Feliz Día!

Entrega anterior

Clases gratis de programación / Free programming classes
[ESP/ENG] Mi proyecto en Python/My project in Python.
I started a Ko-fi Page! Ko-fi helps creators get support from fans of their work. Please support or follow my page! If you like what I do and feel in tune with my work in creating content for free programming courses and chess publications without any profit interest. Give me a coffee... I will be very grateful!
Todos a programar!
Rafael Aquino
Bogotá / Colombia