BIOINFORMATIKA

 

Kontrolinis darbas Nr.2B

 

Tema: Baltymo BLAST homologų funkcinė analizė

 

Darbo užduotis: surinkti duoto baltymo homologus BLAST metodu bei ištirti homologų pavadinimuose sutinkamų žodžių paplitimą. Kombinuojant išskirtinius raktinius žodžius nuspėti analizuoto baltymo funkciją. Pateikti faktus, iš kurių galima būtų spręsti apie spėjimo/ų patikimumą.

 

Darbo etapai:

0. 

Kontrolinio darbo rašinys turės būt atliktas MS Excel (OpenOffice). Dokumentą pavadinkite KD2B_pavardenis_vardenis (įrašysite savo pavardę ir vardą). Lakštai jame tokie, kaip ir PU3, tik rezultatų lakšte pateiksite aptarimus (naudokit įterptą TextBox)

1. 

Duotajam baltymui atlikti homologų paiešką BLAST metodu. (Naudoti standartinius BLAST programos parametrus apart "Max target sequences" nustatyti 20000, o Expect threshold keisti į 0.01)

2. 

Perkelti BLAST paieškos rezultatus į Microsoft Excel.(homologų vardus bei panašumo E-value reikšmes)

3. 

Sudaryti visų žodžių, surastų homologų pavadinimuose, sąrašą.

4. 

Ištirti visų raktinių žodžių paplitimą gautame žodžių sąraše ir atrinkti tolimesnei analizei 100 populiariausiųjų. ("COUNT" metodas)

5. 

Atrinktų 100 raktinių žodžių paplitimą ištirkite "SEARCH" metodu 1) tarpe visų homologų, 2) viršutinėje (artimi homologai) bei 3) apatinėje (silpnesni homologai) homologų sąrašo dalyse. (kiekiai)

6. 

Atrinkite populiariausiųjų ŽODŽIŲ top10 visam homologų sąrašui. Atrinkti bei aptarti po kelis būdingesnius viršutinei ir apatinei jo daliai raktinius ŽODŽIUS. (reprezentatyvumas, informatyvumas, pasiskirstymo tendencijos ir pan.)

7. 

Analizuojant visų homologų sąrašą (arba tik viršutinę jų dalį; laisvas pasirinkimas) sudaryti bent tris PAGRĮSTAI reikšmingas (nuspėjant baltymo funkciją) IŠSKIRTINIŲ raktinių žodžių kombinacijas (arba bent dvi ir ištirti dar bent 5 kombinacijas arba bent vieną ir ištirti dar bent 10 kombinacijų).

8p. 

Atrinktiems bei aptartiems 6 etape raktiniams žodžiams surasti "svorio centrus". Aptarti jų padėtis (kaip toli nuo sąrašo vidurio ar vienų nuo kitų)

Atlikus 8p galima sukaupti papildomų taškų. Šis etapas nėra privalomas.

 

Rekomendacijos, komentarai:

1. 

Būtinai įsitinkikite ar atsisiuntė į puslapį visi rezultatai (po lentele turi matytis palyginiai, kas nurodys kad lentelė jau pilnai atsiųsta)

2. 

Pasižymėti atskirus stulpelius lentelėje galima žymėjimo metu laikant nuspaustą Ctrl klavišą. Į MS Excel kelt per Paste Special --> Text. Sutikrinkite ar viską perkėlėte (pagal paskutinįjį įrašą web lentelėje ir Excelio lakšte). Papildomi balai bus skiriami, jei homologų pavadinimus paimsite iš atsisiųsto XML failo (pavadinimai šiuo atveju yra išsamesni).

3. 

Prisiminkite suformuluotą "žodžio" apibrėžimą: žodis - simbolių seka, iš kairės ir dešinės apribota tarpelio simboliu arba sakinio pradžia/pabaiga. Visų raktinių žodžių sąrašui sudaryti, homologų pavadinimus iš MS Excel perkelkite į MS Word (Paste Special --> Text); naudojant Replace funkciją pakeiskite tarpelio simbolį į paragrafo (^p) ir gautą žodžių stulpelį perkelkite į MS Excel. Atlikdami "Remove Duplicates" komandą, gausite visų žodžių sąrašą. Surūšiuokite juos ("Data" skyrelyje "Sort" komanda) ir vėl pakartokite "Remove Duplicates" tam, kad ši operacija būtų pilnai atlikta.

4. 

Naudodami Excel COUNT (ar COUNTIF) funkciją, suskaičiuokite kiekvienam žodžiui pasikartojimų skaičių pradinime žodžių sąraše. Surūšiavus pagal jį, pasižymėkite top100 ir jį naudokite žodžių aptikimo homologų pavadinimuose matricos formavime.

5,8p. 

Raktinius žodžius (top100) pateikite lentelėje horizontaliai homologų sąrašui (Paste Special --> Transpose). Raktinių žodžių paieškai homologų pavadinimuose naudokite SEARCH() funkciją. Suderinus IF(), ISERR() bei SEARCH() funkcijas gautus rezultatus bus lengviau apdoroti/tirti. Skaičiavimams ir tyrimui pasinaudoti COUNTIF() (COUNT() arba SUM()) bei AVERAGE() funkcijomis. Homologų sąrašą padalinus į lygias dalis (+-1) turėsite "viršutinę" ir "apatinę" dalis, kuriose irgi turėsite ištirti kiekvieno iš top100 žodžių paplitimą (po raktinių žodžių eilute bus 3 eilutės su kiekiais: viršutinėje dalyje, apatinėje dalyje, visame homologų sąraše; 8p atveju - tik viena eilutė su "svoriais" (eilės nr. vidurkiais))

6. 

Atrenkant top10 surūšiuokite gautos matricos stulpelius pagal žodžių kiekius. Nesuklyskite trumpų "žodžių" atveju, ir SEARCH funkciją nustatykite ne simbolių, o ŽODŽIŲ paieškai. Galutiniam aptarimui išsirinkite tik daugiau nei 10 kartų pasikartojusius raktinius žodžius homologų sąraše. Išrenkant būdingus viršutinei ir apatinei homologų daliai žodžius naudokite šių kiekių santykį (pageidautina, su "pseudopataisa" X: s = (A+X)/(B+X) ) ir rūšiuokite stulpelius pagal jį. Viršutines eilutes (3 variantai: būdingi visam homologų sąrašui, labiau būdingi artimiems homologams ir labiau būdingi tolimiems homologams) nukopijuokite į rezultatų aptarimo lakštą kaip reikšmes (Paste Special --> Values) ir ten aptarkite.

7. 

"PAGRĮSTAI" užduoties formuluotėje paryškinta, nes turėsite aptarti faktus (kiekius, žodžių sankibas), "IŠSKIRTINIŲ" paryškinta, nes žodžių frazėje sankiba turės būti didesnė nei 0,7 (70%; pagal silpniau "sukibusį" žodį). Atrinkus visas reikšmingas frazes nusakykite kokios funkcijos baltymas jums buvo pateiktas. Trumpai aprašykite funkciją pasinaudodami informacija interneto erdvėje.

8p. 

("svorio centras" - homologų, turinčių pavadinime analizuojamą raktinį žodį, eilės numerių homologų sąraše aritmetinis vidurkis)

    Naudingos nuorodos: BLAST

    Tyrimo objektus kontroliniam darbui rasite čia: uzduotys.xlsx

 

    This page was last updated on 29/10/2014.